人工智能模型正在快速增长,竞争激烈。面对如此多的参与者涌入这一领域,哪个模型将是最好的,又由谁来决定呢?Arena(前身为LM Arena)已经成为前沿大语言模型事实上的公共排行榜,影响着融资、产品发布和公关周期。在短短七个月内,这家初创公司从加州大学伯克利分校的博士研究项目发展到估值17亿美元。
在TechCrunch的Equity播客这一集中,Rebecca Bellan与Arena联合创始人Anastasios Angelopoulos和Wei-Lin Chiang进行了深入交流,探讨像他们这样的团队如何在给他们提供资金支持的公司同时也是他们排名对象的情况下,构建一个中性的基准测试平台。
Arena的实际运作机制及其独特优势
Arena的工作原理与静态基准测试不同,其创始人表示你无法像操纵传统基准测试那样操纵Arena。Arena采用动态评估方式,通过真实用户的对比选择来评判模型性能,这种方法更难被人为操控,能够提供更加客观的评估结果。
结构性中立的含义与资金来源争议
关于"结构性中立"的真正含义,以及接受OpenAI、谷歌和Anthropic等公司资金是否构成利益冲突的问题,Arena团队认为他们建立了有效的机制来确保评估的公正性。尽管接受了这些AI公司的投资,但Arena通过透明的评估流程和多元化的资金来源来维护其中立地位。
从聊天模型评估向企业级产品扩展
Arena正在将其评估范围从聊天功能扩展到智能体、编程和现实世界任务的基准测试,推出了新的企业级产品。这一扩展反映了AI应用场景的多样化需求,也为Arena开辟了新的商业机会。
Claude在专业领域的领先表现
目前在专家排行榜上,Claude在法律和医疗用例方面表现突出。这表明不同的大语言模型在特定专业领域可能各有优势,Arena的评估体系能够识别出这些细分领域的差异化表现。
对后大语言模型时代的展望
Arena对大语言模型之后的发展趋势进行了预测,认为智能体将是排行榜上的下一个重点。随着AI技术的演进,评估标准也需要相应调整,以适应新兴技术形态的特点和应用需求。
Q&A
Q1:Arena是什么?它是如何工作的?
A:Arena是一个AI模型评估平台,前身为LM Arena,现在是前沿大语言模型的主要公共排行榜。它通过让真实用户对不同AI模型的回答进行对比选择,而不是使用静态基准测试,这种动态评估方式更难被操控,能提供更客观的模型性能排名。
Q2:Arena接受AI公司投资会影响评估公正性吗?
A:尽管Arena接受了OpenAI、谷歌、Anthropic等AI公司的投资,但团队声称通过"结构性中立"机制和透明的评估流程来确保公正性。他们建立了多元化的资金来源和有效机制来避免利益冲突,维护评估结果的客观性。
Q3:Arena未来会评估哪些AI技术?
A:Arena正在从单纯的聊天模型评估扩展到智能体、编程能力和现实世界任务的基准测试,并推出了企业级产品。团队认为智能体将是大语言模型之后的下一个重点,Arena的排行榜也会相应调整以适应新兴AI技术的评估需求。
好文章,需要你的鼓励
研究人员意外发现,标准MOSFET晶体管可同时模拟神经元和突触行为,形成"神经突触随机存取存储器"(NSRAM)。该技术仅需一至两个晶体管即可实现传统需数十乃至数百个元件才能完成的神经信号处理,且与现有硅基制造工艺完全兼容,良率达100%。未来有望应用于边缘AI及高能效神经形态芯片,长远或可挑战GPU地位。
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
本文提出一种评估人工智能风险的新方法,借鉴生态学与演化论视角,从理论生态模型中推导出三项风险指标,涵盖种群模型与生态系统模型。研究旨在为AI治理策略提供量化工具,并对分析局限性及政策改进方向进行了深入探讨,为构建更科学的AI风险评估体系提供参考框架。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。