超越通用基准测试：Yourbench 如何让企业用实际数据评估 AI 模型

Hugging Face推出开源工具Yourbench，允许企业创建自定义基准来评估AI模型在其内部数据上的表现。这一工具通过复制大规模多任务语言理解基准的子集，以极低成本实现了对模型性能的精确评估。Yourbench的出现为企业提供了更贴合实际需求的AI模型评估方法，有望改善模型评估的方式。

每发布一个 AI 模型，总会附带一些图表，吹嘘它在某个基准测试或评估矩阵中如何超越竞争对手。

然而，这些基准测试通常只检验模型的通用能力。对于想要使用模型和基于大语言模型的 agent 的组织来说，要评估 agent 或模型对其特定需求的理解程度却相当困难。

模型仓库 Hugging Face 推出了开源工具 Yourbench，开发者和企业可以创建自己的基准测试，用内部数据来测试模型性能。

Hugging Face 评估研究团队成员 Sumuk Shashidhar 在 X 平台上宣布了 Yourbench。该功能提供"基于任何文档的自定义基准测试和合成数据生成功能。这是改进模型评估方式的重要一步。"

他补充说，Hugging Face 知道"对许多用例来说，真正重要的是模型在特定任务上的表现。Yourbench 让你可以评估对你来说最重要的方面。"

创建自定义评估

Hugging Face 在一篇论文中表示，Yourbench 通过复制大规模多任务语言理解 (MMLU) 基准测试的子集来工作，"使用最少的源文本，总推理成本不到 15 美元，同时完美保持模型性能的相对排名。"

在使用 Yourbench 之前，组织需要对文档进行预处理。这包括三个阶段：

文档接收用于"规范化"文件格式。

语义分块将文档分解以满足上下文窗口限制并集中模型的注意力。

文档总结

接下来是问答生成过程，从文档信息中创建问题。用户可以在这个阶段引入自选的大语言模型，看哪个模型能最好地回答这些问题。

Hugging Face 用多个模型测试了 Yourbench，包括 DeepSeek V3 和 R1 模型、阿里巴巴的 Qwen 系列模型 (包括推理模型 Qwen QwQ)、Mistral Large 2411 和 Mistral 3.1 Small、Llama 3.1 和 3.3、Gemini 2.0 Flash、Gemini 2.0 Flash Lite 和 Gemma 3、GPT-4o、GPT-4o-mini 和 o3 mini，以及 Claude 3.7 Sonnet 和 Claude 3.5 Haiku。

Shashidhar 表示，Hugging Face 还对这些模型进行了成本分析，发现 Qwen 和 Gemini 2.0 Flash "以极低的成本产生了巨大的价值。"

计算限制

然而，基于组织文档创建自定义大语言模型基准测试是有代价的。Yourbench 需要大量计算能力才能运行。Shashidhar 在 X 上表示，公司正在"尽快增加计算能力"。

Hugging Face 运行着多个 GPU，并与 Google 等公司合作使用他们的云服务进行推理任务。VentureBeat 就 Yourbench 的计算使用情况联系了 Hugging Face。

基准测试并非完美

基准测试和其他评估方法可以让用户了解模型的表现，但这些并不能完全反映模型在日常使用中的表现。

有些人甚至质疑基准测试是否显示了模型的局限性，并可能导致对其安全性和性能做出错误判断。一项研究还警告说，对 agent 进行基准测试可能会"产生误导"。

然而，企业现在无法避免对模型进行评估，因为市场上有很多选择，技术领导者需要证明使用 AI 模型不断上涨的成本是合理的。这催生了多种测试模型性能和可靠性的方法。

Google DeepMind 推出了 FACTS Grounding，用于测试模型基于文档信息生成事实准确回应的能力。一些耶鲁大学和清华大学的研究人员开发了自调用代码基准测试，为企业选择适合的编程大语言模型提供指导。

来源：VentureBeat

0赞

好文章，需要你的鼓励

超越通用基准测试：Yourbench 如何让企业用实际数据评估 AI 模型

来源：VentureBeat

2025

04/04

13:25

分享

点赞

2025思爱普中国峰会：商业AI持续释放数据价值，驱动企业韧性增长

Snap 推出 Lens Studio iOS 与网页版应用，用 AI 和简单工具创建 AR Lens

国家网络安全中心阐述如何构建网络安全文化

Epic Games 揭示 2025 年 Unreal 现状

AI测试趋势洞察、行业实践探索与未来展望

Snapchat 全球推出 Apple Watch 应用

中国光网络研讨会“卫星光通信与智能组网技术”首届专项研讨会召开

亚马逊神秘研发实验室开发集成agentic AI软件的机器人

数据中心的绿色存储

别再猜测为什么你的大语言模型出错： Anthropic 的新工具能准确显示问题所在

Samsung 联手 Glance 利用你的面容实现 AI 生成锁屏广告

未来预测：逐年推进 AI 迈向 2040 年实现 AGI 的路径

Devin 2.0 来袭：Cognition 将 AI 软件工程师月费从 500 美元大幅降至 20 美元

边缘 AI 机器人和智能设备即将到来

全球风投融资在第一季度达到 1130 亿美元，AI 大额交易成主要驱动力

CoreWeave 令人失望的 IPO 是否预示着 AI 泡沫？

AI 革命如何推动 Northeast Grocery 的创新发展

AI 2035：技术将如何重塑人类身份认同

专访：LinkedIn 首席产品官 Tomer Cohen

AI 是否有自己的语言？AI 心理学的三个方面

只需几步，Microsoft Copilot 就能为你生成任何内容的笔记

OpenAI 想要改变版权规则，但研究表明它并未等待许可就开始行动

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

芝加哥大学赵燕斌：我们做的是让AI看不见的“艺术”

杨晓东眼中的AI"中国速度"，希捷如何跑赢这场数据竞赛？

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: