人工智能模型正在快速增长,竞争激烈。面对如此多的参与者涌入这一领域,哪个模型将是最好的,又由谁来决定呢?Arena(前身为LM Arena)已经成为前沿大语言模型事实上的公共排行榜,影响着融资、产品发布和公关周期。在短短七个月内,这家初创公司从加州大学伯克利分校的博士研究项目发展到估值17亿美元。
在TechCrunch的Equity播客这一集中,Rebecca Bellan与Arena联合创始人Anastasios Angelopoulos和Wei-Lin Chiang进行了深入交流,探讨像他们这样的团队如何在给他们提供资金支持的公司同时也是他们排名对象的情况下,构建一个中性的基准测试平台。
Arena的实际运作机制及其独特优势
Arena的工作原理与静态基准测试不同,其创始人表示你无法像操纵传统基准测试那样操纵Arena。Arena采用动态评估方式,通过真实用户的对比选择来评判模型性能,这种方法更难被人为操控,能够提供更加客观的评估结果。
结构性中立的含义与资金来源争议
关于"结构性中立"的真正含义,以及接受OpenAI、谷歌和Anthropic等公司资金是否构成利益冲突的问题,Arena团队认为他们建立了有效的机制来确保评估的公正性。尽管接受了这些AI公司的投资,但Arena通过透明的评估流程和多元化的资金来源来维护其中立地位。
从聊天模型评估向企业级产品扩展
Arena正在将其评估范围从聊天功能扩展到智能体、编程和现实世界任务的基准测试,推出了新的企业级产品。这一扩展反映了AI应用场景的多样化需求,也为Arena开辟了新的商业机会。
Claude在专业领域的领先表现
目前在专家排行榜上,Claude在法律和医疗用例方面表现突出。这表明不同的大语言模型在特定专业领域可能各有优势,Arena的评估体系能够识别出这些细分领域的差异化表现。
对后大语言模型时代的展望
Arena对大语言模型之后的发展趋势进行了预测,认为智能体将是排行榜上的下一个重点。随着AI技术的演进,评估标准也需要相应调整,以适应新兴技术形态的特点和应用需求。
Q&A
Q1:Arena是什么?它是如何工作的?
A:Arena是一个AI模型评估平台,前身为LM Arena,现在是前沿大语言模型的主要公共排行榜。它通过让真实用户对不同AI模型的回答进行对比选择,而不是使用静态基准测试,这种动态评估方式更难被操控,能提供更客观的模型性能排名。
Q2:Arena接受AI公司投资会影响评估公正性吗?
A:尽管Arena接受了OpenAI、谷歌、Anthropic等AI公司的投资,但团队声称通过"结构性中立"机制和透明的评估流程来确保公正性。他们建立了多元化的资金来源和有效机制来避免利益冲突,维护评估结果的客观性。
Q3:Arena未来会评估哪些AI技术?
A:Arena正在从单纯的聊天模型评估扩展到智能体、编程能力和现实世界任务的基准测试,并推出了企业级产品。团队认为智能体将是大语言模型之后的下一个重点,Arena的排行榜也会相应调整以适应新兴AI技术的评估需求。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。