新方法革新大语言模型训练的规模定律研究

斯坦福大学研究人员借鉴心理测量学与教育学中的"项目反应理论",开发出一种名为IRSL的新型扩展规律框架。该方法通过自适应调整测试难度,将传统扩展所需的万亿级查询压缩至约50个问题,计算量减少超99%,可大幅降低大模型训练的时间与成本。研究成果已被国际机器学习大会接收,有望为学术界和产业界提供更高效、统计上更严谨的模型能力预测工具。

借助测量科学与教育领域的统计学概念,AI研究人员大幅降低了预测超大规模大语言模型未来扩展能力所需的计算量,有望为企业节省数百万美元的训练成本。

尽管科技巨头对ChatGPT、Claude、Gemini等大语言模型的训练费用讳莫如深,但业界估计每次训练的成本从数亿美元到十亿美元不等。高昂的成本促使AI开发者希望每个新模型只需训练一次。

为了控制成本、提升大规模单次训练的可靠性,开发者开始依赖所谓的"规模定律"来评估构成模型的众多小型模型的能力,进而预测语言模型在训练过程中的扩展表现。规模定律如今已成为AI领域不可或缺的基础设施,但即便是这些扩展技术本身也需要昂贵的算力支撑。

如今,研究人员提出了一种新的扩展方法,可显著降低训练需求,缩短扩展所需的时间与成本。

斯坦福大学计算机科学助理教授、该研究的通讯作者Sanmi Koyejo表示:"在规模定律被证实之前,最顶尖的开发者其实是在押注它、赌上一切,而结果恰好证明他们是对的。他们围绕模型的调整与设计做出了重大战略决策,并用规模定律来推断模型性能,最终被验证是正确的。但规模扩展本身依然代价不菲,只是比另一种选择要便宜一些。"这项研究已被国际机器学习大会(ICML)接收,介绍了一种在降低计算需求最高达99%的同时提升规模扩展效率的新方法。

"我们研究的核心问题其实非常简单,"Koyejo实验室的博士生、论文第一作者Sang Truong说道,"我们能否利用算法来改进规模扩展?"

在这篇新论文中,Koyejo、Truong及合作者展示了如何针对性地优化扩展算法,从而大幅降低计算需求。他们将这一框架命名为"题目反应规模定律"(Item Response Scaling Laws,简称IRSL),其核心理念与SAT等标准化学术测评所采用的概念一脉相承。

IRSL借鉴了测量科学(心理测量学)与教育领域的原理,基于考生与试题之间的关系构建,在模型正确作答后逐轮提高题目难度。Koyejo表示,这一机制能够显著减少准确评估能力所需的查询次数。研究人员证明,IRSL在查询次数大幅减少的情况下仍能达到相当乃至更高的预测精度,在节省时间和成本的同时提升了整体性能。

这本质上是一种统计捷径。Koyejo和Truong不再对每个模型反复提问所有问题,而是更有效、更高效地利用信息。传统规模扩展中的备选问题数量可达一万道以上,再乘以模型数量和需要采样的次数,一次扩展运行的查询总量可能高达10万亿次。而IRSL仅需最少50道题即可实现同等精度,降幅超过99%。

"在现有框架下,往往需要在数万道基准测试题上运行数千个小模型才能预测结果,"Truong解释道,"我们的方法让这一过程变得更加高效、更加可靠。在某些情况下,减少计算量反而能够改善预测结果。"

Koyejo预测,IRSL对学术界的影响将最为深远——因为训练成本对学术研究而言往往难以承受——但财力雄厚的私营开发者同样能够从中受益。Truong表示,这项研究的目标是为研究人员提供新工具,帮助他们以科学、严谨的统计方式思考规模扩展问题。

"我们认为题目反应规模定律是一项重要的进步,"Koyejo总结道,"它表明规模扩展乃至整体训练是可以被精炼优化的。它带来了一个反直觉的结论:用更少的工作量,反而能获得更优质的信号。"

参与撰写的合作者还包括斯坦福大学博士生Rylan Schaeffer以及加州大学洛杉矶分校的Yuheng Tu。

本项研究得到了美国国家科学基金会、ARPA-H、麦克阿瑟基金会、施密特科学、斯坦福以人为本AI研究院(HAI)、OpenAI、微软及谷歌的资助支持。

Q&A

Q1:题目反应规模定律(IRSL)是什么?它有什么作用?

A:IRSL是由斯坦福大学研究人员提出的一种新型大语言模型扩展框架,借鉴了SAT等标准化测评中的心理测量学原理。它通过在模型正确作答后逐步提高题目难度,大幅减少评估模型能力所需的查询次数,最高可将计算需求降低99%,从而显著节省大语言模型训练过程中的时间与成本。

Q2:IRSL相比传统规模扩展方法能节省多少计算量?

A:传统规模扩展方法可能需要在一万道以上的基准题目上运行数千个小型模型,单次扩展运行的查询总量可高达10万亿次。而IRSL最少只需50道题即可实现同等甚至更高的预测精度,计算需求降幅超过99%,可为AI开发者节省数百万美元的训练成本。

Q3:IRSL主要对哪些群体有帮助?

A:IRSL对学术界的帮助最为显著,因为高昂的训练成本往往让学术研究机构难以承受。与此同时,拥有充足资金的商业AI开发者同样能从中受益。研究团队希望通过这一工具,帮助更广泛的研究人员以更科学、更严谨的统计方式开展大语言模型的规模扩展研究。

来源:Stanford HAI

0赞

好文章,需要你的鼓励

2026

05/22

07:40

分享

点赞

邮件订阅