我们推出了一个基于"金标准"评分数据的机器学习模型评估框架,该框架优化了评测项目数量与每项评价者数量之间的权衡,为构建能够捕捉人类分歧细微差别的高度可重现AI基准提供了路线图。
机器学习中的可重现性
在机器学习领域,可重现性衡量的是使用相同代码、数据/分布和设置重复相同实验并获得相同结果的难易程度。高水平的可重现性能够在团队之间建立信任,并允许他们在彼此的进展基础上继续发展。
可重现性面临的挑战在于,基准真实数据通常依赖于人类;而人类与机器不同,他们从各种不同角度处理问题,往往在结果上存在分歧。令人惊讶的是,很少有研究关注有效忽略人类分歧的影响,这在AI基准测试中是一个常见的疏漏。缺乏相关研究的一个原因是,收集人工支持的评估数据预算有限,而为每个示例获取多个评价者的更多样本会大大增加单项标注成本。
使用多数票来表示多重评分会忽略变异性。上述两个例子都有相同的多数票,但后者更明显地倾向于"有毒"。
在"森林与树木:可重现机器学习评估中的(N,K)权衡"研究中,我们调查了被评价项目比例与每项人类评价者数量之间的可重现性权衡。是对许多项目使用较少评价者更好,还是对较少项目使用更多评价者更好?可以将此视为广度与深度之间的问题。广度(即森林)方法要求1000个不同的人每人在餐厅尝试一道菜来获得整体质量感受。深度(树木)方法要求20个人尝试相同的50道菜,揭示更多关于特定菜品的信息,这可能会影响整体评分。
从历史上看,AI评估倾向于森林方法。大多数研究者满足于每项1到5个评价者,假设这足以找到单一"正确"真相。我们的研究表明,这一标准往往不足以捕捉自然分歧,我们为构建更可靠和成本效益更高的AI基准提供了路线图。
主观性破坏实证基准测试
主观性破坏实证基准测试是可重现性的主要挑战。如果两个不同的研究者运行相同评估并获得不同结果,研究就不可重现。为了找到被评价项目数量与每项评价者数量之间的最佳平衡,我们基于涉及主观任务(如毒性和仇恨言论检测)的真实世界数据集开发了一个模拟器。
我们本质上进行了大规模"压力测试",以找到花费给定研究预算(例如,以成本、时间等衡量)的最有效方式。我们改变了两个主要杠杆,看哪个产生最可靠的结果:
我们使用模拟器在各种规模下测试了数千种此类组合,看哪些配置在统计上最可靠(p < 0.05)——因此可重现。
为支持更广泛的社区,我们已在GitHub上开源了这个模拟器。
我们使用多个数据集,每个都包含各种类别,每项有多个响应:
使用这些数据集,我们还测试了数据"混乱"时会发生什么。例如,如果99%的邮件是垃圾邮件,只有1%是重要的(表明高数据倾斜),这是否会改变最佳评价者分布(广度vs深度)?此外,我们还探索了拥有更多数据类别的效果,例如毒性标签,如有毒、轻微冒犯、中性等。
关键发现
我们的研究揭示了三个挑战机器学习评估现状的重大洞察:
我们的结果显示,每项使用1、3或5个评价者的常见做法往往不足。这种"低评价者"方法既没有提供足够的广度来看到大局,也没有提供足够的深度来理解人类意见的细微差别。为了获得真正反映人类细微差别的可靠结果,实践者往往需要每项超过10个评价者。
每项拥有更多评价者会增加统计显著性,因为p值接近零。这意味着我们可以丢弃模型A和B表现同样好的零假设,模拟器确保情况并非如此。
没有"完美"比例。相反,最佳权衡完全取决于所测量的内容:
最令人鼓舞的发现是,一个人不需要无限预算。我们发现,通过基于选择的指标正确优化每项评分比例,可以用大约1000个总标注的适度预算实现高度可重现的结果。然而,选择错误的平衡可能导致不可靠的结论,即使增加研究预算也是如此。
对AI未来的影响
这项研究对可靠AI的未来至关重要。多年来,该领域一直在"单一真相"范式下运作——即对于每个输入,都有一个"正确"标签的想法。但即使存在单一基准真相,也可能无法测量它。当AI进入更主观的领域,如伦理学,识别有害意图或社交互动特征等主观概念时,这种范式就崩溃了。
通过远离"森林"并拥抱"树木",我们可以构建真正反映复杂性和不同观点的基准,这些观点导致人类世界中发现的自然分歧。这个路线图允许实践者在不超支的情况下设计更好、更可重现的测试。最终,理解人类为什么分歧与知道他们在哪里达成一致同样重要,我们的研究提供了捕捉两者的数学工具。
这项工作很大程度上归功于我们的合作者——罗切斯特理工学院博士生Deepak Pandita和Christopher Homan教授。
Q&A
Q1:机器学习评估中为什么需要多个评价者?
A:因为基准真实数据通常依赖于人类,而人类与机器不同,他们从各种不同角度处理问题,往往在结果上存在分歧。使用单一评价者或很少评价者无法捕捉这种自然的人类分歧,影响评估结果的可重现性。
Q2:广度和深度方法在AI评估中有什么区别?
A:广度(森林)方法是对许多项目使用较少评价者,就像让1000个不同的人每人在餐厅尝试一道菜。深度(树木)方法是对较少项目使用更多评价者,就像让20个人尝试相同的50道菜,能揭示更多细节信息。
Q3:构建可重现AI基准需要多少预算?
A:研究发现,通过基于选择指标正确优化每项评分比例,可以用大约1000个总标注的适度预算实现高度可重现的结果。关键是找到项目数量与每项评价者数量之间的最佳平衡,而不是无限增加预算。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。