借助测量科学与教育领域的统计学概念,AI研究人员大幅降低了预测超大规模大语言模型未来扩展能力所需的计算量,有望为企业节省数百万美元的训练成本。
尽管科技巨头对ChatGPT、Claude、Gemini等大语言模型的训练费用讳莫如深,但业界估计每次训练的成本从数亿美元到十亿美元不等。高昂的成本促使AI开发者希望每个新模型只需训练一次。
为了控制成本、提升大规模单次训练的可靠性,开发者开始依赖所谓的"规模定律"来评估构成模型的众多小型模型的能力,进而预测语言模型在训练过程中的扩展表现。规模定律如今已成为AI领域不可或缺的基础设施,但即便是这些扩展技术本身也需要昂贵的算力支撑。
如今,研究人员提出了一种新的扩展方法,可显著降低训练需求,缩短扩展所需的时间与成本。
斯坦福大学计算机科学助理教授、该研究的通讯作者Sanmi Koyejo表示:"在规模定律被证实之前,最顶尖的开发者其实是在押注它、赌上一切,而结果恰好证明他们是对的。他们围绕模型的调整与设计做出了重大战略决策,并用规模定律来推断模型性能,最终被验证是正确的。但规模扩展本身依然代价不菲,只是比另一种选择要便宜一些。"这项研究已被国际机器学习大会(ICML)接收,介绍了一种在降低计算需求最高达99%的同时提升规模扩展效率的新方法。
"我们研究的核心问题其实非常简单,"Koyejo实验室的博士生、论文第一作者Sang Truong说道,"我们能否利用算法来改进规模扩展?"
在这篇新论文中,Koyejo、Truong及合作者展示了如何针对性地优化扩展算法,从而大幅降低计算需求。他们将这一框架命名为"题目反应规模定律"(Item Response Scaling Laws,简称IRSL),其核心理念与SAT等标准化学术测评所采用的概念一脉相承。
IRSL借鉴了测量科学(心理测量学)与教育领域的原理,基于考生与试题之间的关系构建,在模型正确作答后逐轮提高题目难度。Koyejo表示,这一机制能够显著减少准确评估能力所需的查询次数。研究人员证明,IRSL在查询次数大幅减少的情况下仍能达到相当乃至更高的预测精度,在节省时间和成本的同时提升了整体性能。
这本质上是一种统计捷径。Koyejo和Truong不再对每个模型反复提问所有问题,而是更有效、更高效地利用信息。传统规模扩展中的备选问题数量可达一万道以上,再乘以模型数量和需要采样的次数,一次扩展运行的查询总量可能高达10万亿次。而IRSL仅需最少50道题即可实现同等精度,降幅超过99%。
"在现有框架下,往往需要在数万道基准测试题上运行数千个小模型才能预测结果,"Truong解释道,"我们的方法让这一过程变得更加高效、更加可靠。在某些情况下,减少计算量反而能够改善预测结果。"
Koyejo预测,IRSL对学术界的影响将最为深远——因为训练成本对学术研究而言往往难以承受——但财力雄厚的私营开发者同样能够从中受益。Truong表示,这项研究的目标是为研究人员提供新工具,帮助他们以科学、严谨的统计方式思考规模扩展问题。
"我们认为题目反应规模定律是一项重要的进步,"Koyejo总结道,"它表明规模扩展乃至整体训练是可以被精炼优化的。它带来了一个反直觉的结论:用更少的工作量,反而能获得更优质的信号。"
参与撰写的合作者还包括斯坦福大学博士生Rylan Schaeffer以及加州大学洛杉矶分校的Yuheng Tu。
本项研究得到了美国国家科学基金会、ARPA-H、麦克阿瑟基金会、施密特科学、斯坦福以人为本AI研究院(HAI)、OpenAI、微软及谷歌的资助支持。
Q&A
Q1:题目反应规模定律(IRSL)是什么?它有什么作用?
A:IRSL是由斯坦福大学研究人员提出的一种新型大语言模型扩展框架,借鉴了SAT等标准化测评中的心理测量学原理。它通过在模型正确作答后逐步提高题目难度,大幅减少评估模型能力所需的查询次数,最高可将计算需求降低99%,从而显著节省大语言模型训练过程中的时间与成本。
Q2:IRSL相比传统规模扩展方法能节省多少计算量?
A:传统规模扩展方法可能需要在一万道以上的基准题目上运行数千个小型模型,单次扩展运行的查询总量可高达10万亿次。而IRSL最少只需50道题即可实现同等甚至更高的预测精度,计算需求降幅超过99%,可为AI开发者节省数百万美元的训练成本。
Q3:IRSL主要对哪些群体有帮助?
A:IRSL对学术界的帮助最为显著,因为高昂的训练成本往往让学术研究机构难以承受。与此同时,拥有充足资金的商业AI开发者同样能从中受益。研究团队希望通过这一工具,帮助更广泛的研究人员以更科学、更严谨的统计方式开展大语言模型的规模扩展研究。
好文章,需要你的鼓励
短视频营销正成为品牌推广的重要方式,但寻找最佳片段并精准分发始终是一大难题。初创公司Clouted通过整合逾10万名自由创作者网络,结合AI技术自动完成视频剪辑与分发策略。其AI系统持续测试不同格式与渠道组合,让每次营销活动都比上一次更精准高效。该公司近日完成700万美元种子轮融资,由Slow Ventures领投,正朝着企业级营销基础设施市场迈进。
新加坡国立大学构建了首个视频隐喻理解基准ViMU,含588段视频与2352道题,测试16个主流AI模型均未超过50%,揭示AI在视频潜台词理解上的系统性短板。
本月初,Anthropic宣布购买300兆瓦算力的协议,锁定位于田纳西州孟菲斯附近的Colossus 1数据中心全部产能。据悉,Anthropic将在2029年5月前每月向xAI支付12.5亿美元,协议总价值超400亿美元。该交易细节源自SpaceX向SEC提交的S-1文件。xAI此举实质上是将闲置算力变现——近期Grok用户量下滑,大量服务器空闲,xAI由此转型为"新云服务商",向竞争对手出售计算资源。
浙江大学等机构联合提出PanoWorld,通过球面空间交叉注意力和57万张全景图训练数据,让AI能直接理解360度全景图的空间结构,在导航和视觉搜索任务中大幅超越现有方法。