博士生创业项目Arena成为AI模型评判标杆，估值17亿美元

AI模型竞争激烈，Arena已成为大语言模型的权威排行榜，影响着行业资金流向和产品发布。这家初创公司在七个月内从加州大学伯克利分校博士研究项目发展为估值17亿美元的企业。联合创始人讨论了如何在接受OpenAI、谷歌和Anthropic资金支持的情况下保持中立评测，以及Arena如何从聊天评测扩展到代理、编程等企业级产品。

人工智能模型正在快速增长，竞争激烈。面对如此多的参与者涌入这一领域，哪个模型将是最好的，又由谁来决定呢？Arena（前身为LM Arena）已经成为前沿大语言模型事实上的公共排行榜，影响着融资、产品发布和公关周期。在短短七个月内，这家初创公司从加州大学伯克利分校的博士研究项目发展到估值17亿美元。

在TechCrunch的Equity播客这一集中，Rebecca Bellan与Arena联合创始人Anastasios Angelopoulos和Wei-Lin Chiang进行了深入交流，探讨像他们这样的团队如何在给他们提供资金支持的公司同时也是他们排名对象的情况下，构建一个中性的基准测试平台。

Arena的实际运作机制及其独特优势

Arena的工作原理与静态基准测试不同，其创始人表示你无法像操纵传统基准测试那样操纵Arena。Arena采用动态评估方式，通过真实用户的对比选择来评判模型性能，这种方法更难被人为操控，能够提供更加客观的评估结果。

结构性中立的含义与资金来源争议

关于"结构性中立"的真正含义，以及接受OpenAI、谷歌和Anthropic等公司资金是否构成利益冲突的问题，Arena团队认为他们建立了有效的机制来确保评估的公正性。尽管接受了这些AI公司的投资，但Arena通过透明的评估流程和多元化的资金来源来维护其中立地位。

从聊天模型评估向企业级产品扩展

Arena正在将其评估范围从聊天功能扩展到智能体、编程和现实世界任务的基准测试，推出了新的企业级产品。这一扩展反映了AI应用场景的多样化需求，也为Arena开辟了新的商业机会。

Claude在专业领域的领先表现

目前在专家排行榜上，Claude在法律和医疗用例方面表现突出。这表明不同的大语言模型在特定专业领域可能各有优势，Arena的评估体系能够识别出这些细分领域的差异化表现。

对后大语言模型时代的展望

Arena对大语言模型之后的发展趋势进行了预测，认为智能体将是排行榜上的下一个重点。随着AI技术的演进，评估标准也需要相应调整，以适应新兴技术形态的特点和应用需求。

Q&A

Q1：Arena是什么？它是如何工作的？

A：Arena是一个AI模型评估平台，前身为LM Arena，现在是前沿大语言模型的主要公共排行榜。它通过让真实用户对不同AI模型的回答进行对比选择，而不是使用静态基准测试，这种动态评估方式更难被操控，能提供更客观的模型性能排名。

Q2：Arena接受AI公司投资会影响评估公正性吗？

A：尽管Arena接受了OpenAI、谷歌、Anthropic等AI公司的投资，但团队声称通过"结构性中立"机制和透明的评估流程来确保公正性。他们建立了多元化的资金来源和有效机制来避免利益冲突，维护评估结果的客观性。

Q3：Arena未来会评估哪些AI技术？

A：Arena正在从单纯的聊天模型评估扩展到智能体、编程能力和现实世界任务的基准测试，并推出了企业级产品。团队认为智能体将是大语言模型之后的下一个重点，Arena的排行榜也会相应调整以适应新兴AI技术的评估需求。

来源：Techcrunch

0赞

好文章，需要你的鼓励

博士生创业项目Arena成为AI模型评判标杆，估值17亿美元

来源：Techcrunch

2026

03/19

09:31

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

微软收购红杉资本支持的AI协作平台Cove团队

Sequen获1600万美元A轮融资，为企业提供TikTok级个性化推荐技术

Arena平台如何成为大语言模型权威评测标准

Rebel Audio推出AI播客制作平台降低创作门槛

Multiply获得950万美元融资，推出"自学习"广告平台

Qualtrics推出AI合成数据和研究工具，加速客户洞察分析

DeepMind发起黑客马拉松活动为通用人工智能制定评估标准

Respan获得500万美元融资推出主动式AI智能体可观测平台

微软MOSAIC技术有望削减AI数据中心网络能耗50%

大阪都市大学开发智能农业机器人实现高效番茄采摘

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会