构建更优AI评测基准：评价者数量多少算够？

本研究提出基于"黄金"评分数据的机器学习模型评估框架，优化项目数量与每项评估者数量之间的权衡。研究发现传统的1-5名评估者配置往往不足，需要超过10名评估者才能捕捉人类观点的细微差别。通过模拟器测试发现，合理优化评估者比例可在约1000个标注的适度预算下实现高度可重现的结果，为构建反映人类分歧复杂性的可靠AI基准提供路线图。

我们推出了一个基于"金标准"评分数据的机器学习模型评估框架，该框架优化了评测项目数量与每项评价者数量之间的权衡，为构建能够捕捉人类分歧细微差别的高度可重现AI基准提供了路线图。

机器学习中的可重现性

在机器学习领域，可重现性衡量的是使用相同代码、数据/分布和设置重复相同实验并获得相同结果的难易程度。高水平的可重现性能够在团队之间建立信任，并允许他们在彼此的进展基础上继续发展。

可重现性面临的挑战在于，基准真实数据通常依赖于人类；而人类与机器不同，他们从各种不同角度处理问题，往往在结果上存在分歧。令人惊讶的是，很少有研究关注有效忽略人类分歧的影响，这在AI基准测试中是一个常见的疏漏。缺乏相关研究的一个原因是，收集人工支持的评估数据预算有限，而为每个示例获取多个评价者的更多样本会大大增加单项标注成本。

使用多数票来表示多重评分会忽略变异性。上述两个例子都有相同的多数票，但后者更明显地倾向于"有毒"。

在"森林与树木：可重现机器学习评估中的(N,K)权衡"研究中，我们调查了被评价项目比例与每项人类评价者数量之间的可重现性权衡。是对许多项目使用较少评价者更好，还是对较少项目使用更多评价者更好？可以将此视为广度与深度之间的问题。广度（即森林）方法要求1000个不同的人每人在餐厅尝试一道菜来获得整体质量感受。深度（树木）方法要求20个人尝试相同的50道菜，揭示更多关于特定菜品的信息，这可能会影响整体评分。

从历史上看，AI评估倾向于森林方法。大多数研究者满足于每项1到5个评价者，假设这足以找到单一"正确"真相。我们的研究表明，这一标准往往不足以捕捉自然分歧，我们为构建更可靠和成本效益更高的AI基准提供了路线图。

主观性破坏实证基准测试

主观性破坏实证基准测试是可重现性的主要挑战。如果两个不同的研究者运行相同评估并获得不同结果，研究就不可重现。为了找到被评价项目数量与每项评价者数量之间的最佳平衡，我们基于涉及主观任务（如毒性和仇恨言论检测）的真实世界数据集开发了一个模拟器。

我们本质上进行了大规模"压力测试"，以找到花费给定研究预算（例如，以成本、时间等衡量）的最有效方式。我们改变了两个主要杠杆，看哪个产生最可靠的结果：

我们使用模拟器在各种规模下测试了数千种此类组合，看哪些配置在统计上最可靠（p < 0.05）——因此可重现。

为支持更广泛的社区，我们已在GitHub上开源了这个模拟器。

我们使用多个数据集，每个都包含各种类别，每项有多个响应：

使用这些数据集，我们还测试了数据"混乱"时会发生什么。例如，如果99%的邮件是垃圾邮件，只有1%是重要的（表明高数据倾斜），这是否会改变最佳评价者分布（广度vs深度）？此外，我们还探索了拥有更多数据类别的效果，例如毒性标签，如有毒、轻微冒犯、中性等。

关键发现

我们的研究揭示了三个挑战机器学习评估现状的重大洞察：

我们的结果显示，每项使用1、3或5个评价者的常见做法往往不足。这种"低评价者"方法既没有提供足够的广度来看到大局，也没有提供足够的深度来理解人类意见的细微差别。为了获得真正反映人类细微差别的可靠结果，实践者往往需要每项超过10个评价者。

每项拥有更多评价者会增加统计显著性，因为p值接近零。这意味着我们可以丢弃模型A和B表现同样好的零假设，模拟器确保情况并非如此。

没有"完美"比例。相反，最佳权衡完全取决于所测量的内容：

最令人鼓舞的发现是，一个人不需要无限预算。我们发现，通过基于选择的指标正确优化每项评分比例，可以用大约1000个总标注的适度预算实现高度可重现的结果。然而，选择错误的平衡可能导致不可靠的结论，即使增加研究预算也是如此。

对AI未来的影响

这项研究对可靠AI的未来至关重要。多年来，该领域一直在"单一真相"范式下运作——即对于每个输入，都有一个"正确"标签的想法。但即使存在单一基准真相，也可能无法测量它。当AI进入更主观的领域，如伦理学，识别有害意图或社交互动特征等主观概念时，这种范式就崩溃了。

通过远离"森林"并拥抱"树木"，我们可以构建真正反映复杂性和不同观点的基准，这些观点导致人类世界中发现的自然分歧。这个路线图允许实践者在不超支的情况下设计更好、更可重现的测试。最终，理解人类为什么分歧与知道他们在哪里达成一致同样重要，我们的研究提供了捕捉两者的数学工具。

这项工作很大程度上归功于我们的合作者——罗切斯特理工学院博士生Deepak Pandita和Christopher Homan教授。

Q&A

Q1：机器学习评估中为什么需要多个评价者？

A：因为基准真实数据通常依赖于人类，而人类与机器不同，他们从各种不同角度处理问题，往往在结果上存在分歧。使用单一评价者或很少评价者无法捕捉这种自然的人类分歧，影响评估结果的可重现性。

Q2：广度和深度方法在AI评估中有什么区别？

A：广度（森林）方法是对许多项目使用较少评价者，就像让1000个不同的人每人在餐厅尝试一道菜。深度（树木）方法是对较少项目使用更多评价者，就像让20个人尝试相同的50道菜，能揭示更多细节信息。

Q3：构建可重现AI基准需要多少预算？

A：研究发现，通过基于选择指标正确优化每项评分比例，可以用大约1000个总标注的适度预算实现高度可重现的结果。关键是找到项目数量与每项评价者数量之间的最佳平衡，而不是无限增加预算。

来源：Google

0赞

好文章，需要你的鼓励

构建更优AI评测基准：评价者数量多少算够？

来源：Google

2026

04/01

13:27

分享

点赞

Glean年收入突破3亿美元，削减AI成本成核心卖点

蓝色起源"新格伦"火箭在佛罗里达测试中发生爆炸

智能体AI正在重塑企业架构与Token经济学

堪培拉理工学院如何借助技术革新重塑课堂教学体验

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

制药公司与初创企业如何携手推动AI落地

《星球大战》导演盛赞生成式AI：电影制作的革命性工具

Salesforce借助Informatica布局企业级无头数据管理架构

几乎所有M5 MacBook Air配置现在都降价近200美元

大模型评测风向变了，Testin云测如何构建企业级AI质量标尺？

因民事养老金管理失误，英国政府拒绝向Capita授予5.63亿英镑合同

YouTube提升AI生成视频标签的显示效果

AI技术被过度营销，如何理性应对

注重隐私的聊天机器人Duck.ai流量暴涨背后的原因

亚马逊 Alexa+ 新增语音食物订购功能，支持 Uber Eats 和 Grubhub

Nomadic获8400万美元融资，专攻自动驾驶数据管理

Anthropic如何测评AI在就业市场中的"理论能力"？

甲骨文大幅裁员数万人以投资AI基础设施建设

Anthropic意外泄露Claude Code完整源代码

红帽内部备忘录暴露：全力推进AI工具整合计划

Nvidia与Marvell达成20亿美元合作协议强化AI基础设施布局

Oumi推出自动化AI模型开发平台，助力企业快速构建定制化模型

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: