每发布一个 AI 模型,总会附带一些图表,吹嘘它在某个基准测试或评估矩阵中如何超越竞争对手。
然而,这些基准测试通常只检验模型的通用能力。对于想要使用模型和基于大语言模型的 agent 的组织来说,要评估 agent 或模型对其特定需求的理解程度却相当困难。
模型仓库 Hugging Face 推出了开源工具 Yourbench,开发者和企业可以创建自己的基准测试,用内部数据来测试模型性能。
Hugging Face 评估研究团队成员 Sumuk Shashidhar 在 X 平台上宣布了 Yourbench。该功能提供"基于任何文档的自定义基准测试和合成数据生成功能。这是改进模型评估方式的重要一步。"
他补充说,Hugging Face 知道"对许多用例来说,真正重要的是模型在特定任务上的表现。Yourbench 让你可以评估对你来说最重要的方面。"
创建自定义评估
Hugging Face 在一篇论文中表示,Yourbench 通过复制大规模多任务语言理解 (MMLU) 基准测试的子集来工作,"使用最少的源文本,总推理成本不到 15 美元,同时完美保持模型性能的相对排名。"
在使用 Yourbench 之前,组织需要对文档进行预处理。这包括三个阶段:
文档接收 用于"规范化"文件格式。
语义分块 将文档分解以满足上下文窗口限制并集中模型的注意力。
文档总结
接下来是问答生成过程,从文档信息中创建问题。用户可以在这个阶段引入自选的大语言模型,看哪个模型能最好地回答这些问题。
Hugging Face 用多个模型测试了 Yourbench,包括 DeepSeek V3 和 R1 模型、阿里巴巴的 Qwen 系列模型 (包括推理模型 Qwen QwQ)、Mistral Large 2411 和 Mistral 3.1 Small、Llama 3.1 和 3.3、Gemini 2.0 Flash、Gemini 2.0 Flash Lite 和 Gemma 3、GPT-4o、GPT-4o-mini 和 o3 mini,以及 Claude 3.7 Sonnet 和 Claude 3.5 Haiku。
Shashidhar 表示,Hugging Face 还对这些模型进行了成本分析,发现 Qwen 和 Gemini 2.0 Flash "以极低的成本产生了巨大的价值。"
计算限制
然而,基于组织文档创建自定义大语言模型基准测试是有代价的。Yourbench 需要大量计算能力才能运行。Shashidhar 在 X 上表示,公司正在"尽快增加计算能力"。
Hugging Face 运行着多个 GPU,并与 Google 等公司合作使用他们的云服务进行推理任务。VentureBeat 就 Yourbench 的计算使用情况联系了 Hugging Face。
基准测试并非完美
基准测试和其他评估方法可以让用户了解模型的表现,但这些并不能完全反映模型在日常使用中的表现。
有些人甚至质疑基准测试是否显示了模型的局限性,并可能导致对其安全性和性能做出错误判断。一项研究还警告说,对 agent 进行基准测试可能会"产生误导"。
然而,企业现在无法避免对模型进行评估,因为市场上有很多选择,技术领导者需要证明使用 AI 模型不断上涨的成本是合理的。这催生了多种测试模型性能和可靠性的方法。
Google DeepMind 推出了 FACTS Grounding,用于测试模型基于文档信息生成事实准确回应的能力。一些耶鲁大学和清华大学的研究人员开发了自调用代码基准测试,为企业选择适合的编程大语言模型提供指导。
好文章,需要你的鼓励
Hugging Face推出开源工具Yourbench,允许企业创建自定义基准来评估AI模型在其内部数据上的表现。这一工具通过复制大规模多任务语言理解基准的子集,以极低成本实现了对模型性能的精确评估。Yourbench的出现为企业提供了更贴合实际需求的AI模型评估方法,有望改善模型评估的方式。
Cognition AI 推出 Devin 2.0,这是其 AI 驱动的软件开发平台的更新版本。新版本引入了多项功能,旨在提升开发者与自主代理之间的协作效率。最引人注目的是,Devin 2.0 的起价从每月 500 美元大幅下调至 20 美元,使其更易于普及。新功能包括并行 Devin、交互式规划、代码库搜索等,有望提升开发效率并增强用户控制。
安迪·卡拉布蒂斯是一位杰出的CIO,她的职业生涯横跨多个行业和地区,经历了多次变革时刻。她在福特和通用汽车锻炼了领导力和技术专长,后来在戴尔、拜奥根和国家电网等公司担任高管,推动战略创新。本文总结了她对IT领导者核心技能的见解,包括战略沟通、情商、协作、远见卓识、变革管理和敏捷性等,对当今IT领导者具有重要参考价值。
边缘 AI 计算将使人形机器人、智能设备和自动驾驶等应用从数据中心和云端服务器解放出来,转移到制造车间、手术室和城市中心等场景。它能实现低延迟和自主决策,使 AI 无处不在,推动工业设施全面自动化,彻底改变商业和生活方式。边缘 AI 正在快速发展,各大科技公司纷纷推出相关硬件和软件平台,未来将为各行各业带来巨大变革。