一项新研究指责 LM Arena 操纵其热门 AI 基准评测

一项新研究称 LM Arena 平台存在不公正操作，偏向大企业私测的专有模型，而开放模型得不到足够评测，平台运营者对此表示争议。

随着 AI 聊天机器人的迅速普及，我们很难判断哪些模型确实在改进，哪些则已经落后。传统的学术基准测试提供的信息有限，因此许多人开始依赖 LM Arena 基于直觉的分析。然而，一项新研究声称，这个流行的 AI 排名平台充斥着不公平做法，偏袒那些恰好位居排行榜前列的大公司。但该网站的运营者则表示，该研究得出了错误的结论。

LM Arena 诞生于 2023 年，是加州大学伯克利分校的一项研究项目。其原理十分简单 —— 用户在 “ Chatbot Arena ” 中向两个身份不明的 AI 模型输入提示，并根据输出结果投票选出他们更喜欢的模型。这些数据会被汇总到 LM Arena 的排行榜上，显示出人们最喜爱的模型，从而有助于追踪 AI 模型的不断改进。

随着 AI 市场升温，各公司对这一排名给予了更多关注。Google 在发布 Gemini 2.5 Pro 时指出，该模型首次亮相 LM Arena 排行榜时即位居榜首，并一直保持这一位置。与此同时，DeepSeek 在今年早些时候于 Chatbot Arena 上的出色表现，帮助其迅速跻身大语言模型竞争的上层行列。

来自 Cohere Labs、普林斯顿和 MIT 的研究人员认为，AI 开发者可能对 LM Arena 给予了过高的依赖。新研究已在预印本服务器 arXiv 上公开，内容声称竞技场排行榜因某些操作而被扭曲，这些操作使得专有聊天机器人比开放模型更容易取得优异表现。作者指出，LM Arena 允许专有大语言模型 (LLM) 的开发者在平台上测试多个版本的 AI，但最终只有表现最优的版本才会被加入公开排行榜。

Meta 在将出现在排行榜上的版本发布之前，测试了 27 个版本的 Llama-4 。来源: Shivalika Singh 等人

一些 AI 开发者正在极度利用私测选项。研究报告显示，Meta 在发布前私下测试了多达 27 个 Llama-4 版本。Google 亦因 LM Arena 的私测系统而受益，在 2025 年 1 月至 3 月期间测试了 10 个 Gemini 和 Gemma 的不同版本。

该研究还批评 LM Arena 在推广私有模型（如 Gemini、ChatGPT 和 Claude）方面明显更为倾斜。开发者通过 Chatbot Arena API 收集模型交互数据，但专注于开放模型的团队始终处于劣势地位。

研究人员指出，某些模型在竞技场对决中出现的频率远高于其他模型，其中 Google 与 OpenAI 合计占据了超过 34% 的收集数据。此外，xAI、Meta 和 Amazon 等公司的模型在竞技场中也显著过度代表，这使得这些公司相比开放模型开发者获取了更多基于直觉的评测数据。

更多模型，更多评测

研究作者提出了一系列建议，以使 LM Arena 更加公平。论文中的若干建议旨在纠正商业模型私测的不平衡，例如，限制一个团队在发布前可以添加和撤回的模型数量。研究还建议展示所有模型的测试结果，即便这些结果尚未最终确定。

然而，该网站运营者对论文的一些方法论和结论提出异议。LM Arena 指出，预发布测试功能并非秘密，其在 2024 年 3 月的一篇博客文章中已对系统作出简要说明。他们还认为，模型的创建者在技术上并未选择显示某一版本，而是网站出于简化考虑，仅不展示非公开版本。当开发者发布最终版本后，LM Arena 就会将该版本添加至排行榜中。

研究称，在 Chatbot Arena 中，专有模型获得了不成比例的关注。来源: Shivalika Singh 等人

双方可能在不平等对决的问题上达成共识。研究作者呼吁进行公平采样，确保开放模型在 Chatbot Arena 中的出现频率能够与 Gemini、ChatGPT 等私有模型相当。LM Arena 表示将努力使采样算法更加多样化，以免总是出现大型商业模型，从而为小型参与者提供更多评测数据，使他们有机会改进并挑战大型商业模型。

LM Arena 最近宣布将成立一个企业实体以继续其工作。随着资金的投入，运营者需要确保 Chatbot Arena 仍在流行模型的开发中发挥作用。然而，目前尚不清楚这种评测聊天机器人的方式是否客观上优于学术测试。由于人们依据直觉投票，实际上存在推动模型采纳讨好倾向的风险。近期这一倾向可能促使 ChatGPT 进入讨好模式，而这一改变在引发广泛愤怒后已被 OpenAI 迅速撤销。

来源：Arstechnica

0赞

好文章，需要你的鼓励

一项新研究指责 LM Arena 操纵其热门 AI 基准评测

来源：Arstechnica

2025

05/02

09:37

分享

点赞

智算赋能，生态共荣——超智算人工智能产业生态大会在京启幕，共筑AI发展新范式

Littelfuse推出首款具有SPDT和长行程且兼容回流焊接的发光轻触开关

至顶科技助力AI创业者，在HICOOL峰会探索“如何用AI赚到第一桶金”

CoreWeave LOTA技术实现对象数据高速全球传输

谷歌DeepMind与CFS合作开发核聚变等离子体AI控制系统

微软为Windows 11推出全新Copilot自动化功能

苹果研究人员探索AI如何预测Bug、编写测试并修复代码

刚果称全球最大水电站可为AI数据中心供电

HPE Alletra存储业务获得战略重点关注

谷歌DeepMind与核聚变初创公司合作的真实原因

Omdia预测：超大规模云市场销售额2030年将达1630亿美元

Oracle全面押注AI，用户仍在摸索应用路径

AI 稳健发展，云加速助力微软大数据中心跃升

Google 的 AI 模式获扩展访问权限和新增功能

什么才是真正的 AI 代理？CIO 在炒作中迷失定义

AI生成的代码可能成为软件供应链的灾难 —— 原因解析

他们正在为人工智能构建 TCP/IP —— 叫做 NANDA

Anthropic 联合创始人 Jared Kaplan 将出席 TechCrunch Sessions: AI

AI 在网络安全的未来：乐观

芝加哥大学赵燕斌：我们做的是让AI看不见的“艺术”

从生成式 AI 获得振奋人心的鼓励

Yelp 推出针对餐厅及服务提供商的 AI 语音助手

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: