新方法革新大语言模型训练的规模定律研究

斯坦福大学研究人员借鉴心理测量学与教育学中的"项目反应理论"，开发出一种名为IRSL的新型扩展规律框架。该方法通过自适应调整测试难度，将传统扩展所需的万亿级查询压缩至约50个问题，计算量减少超99%，可大幅降低大模型训练的时间与成本。研究成果已被国际机器学习大会接收，有望为学术界和产业界提供更高效、统计上更严谨的模型能力预测工具。

借助测量科学与教育领域的统计学概念，AI研究人员大幅降低了预测超大规模大语言模型未来扩展能力所需的计算量，有望为企业节省数百万美元的训练成本。

尽管科技巨头对ChatGPT、Claude、Gemini等大语言模型的训练费用讳莫如深，但业界估计每次训练的成本从数亿美元到十亿美元不等。高昂的成本促使AI开发者希望每个新模型只需训练一次。

为了控制成本、提升大规模单次训练的可靠性，开发者开始依赖所谓的"规模定律"来评估构成模型的众多小型模型的能力，进而预测语言模型在训练过程中的扩展表现。规模定律如今已成为AI领域不可或缺的基础设施，但即便是这些扩展技术本身也需要昂贵的算力支撑。

如今，研究人员提出了一种新的扩展方法，可显著降低训练需求，缩短扩展所需的时间与成本。

斯坦福大学计算机科学助理教授、该研究的通讯作者Sanmi Koyejo表示："在规模定律被证实之前，最顶尖的开发者其实是在押注它、赌上一切，而结果恰好证明他们是对的。他们围绕模型的调整与设计做出了重大战略决策，并用规模定律来推断模型性能，最终被验证是正确的。但规模扩展本身依然代价不菲，只是比另一种选择要便宜一些。"这项研究已被国际机器学习大会（ICML）接收，介绍了一种在降低计算需求最高达99%的同时提升规模扩展效率的新方法。

"我们研究的核心问题其实非常简单，"Koyejo实验室的博士生、论文第一作者Sang Truong说道，"我们能否利用算法来改进规模扩展？"

在这篇新论文中，Koyejo、Truong及合作者展示了如何针对性地优化扩展算法，从而大幅降低计算需求。他们将这一框架命名为"题目反应规模定律"（Item Response Scaling Laws，简称IRSL），其核心理念与SAT等标准化学术测评所采用的概念一脉相承。

IRSL借鉴了测量科学（心理测量学）与教育领域的原理，基于考生与试题之间的关系构建，在模型正确作答后逐轮提高题目难度。Koyejo表示，这一机制能够显著减少准确评估能力所需的查询次数。研究人员证明，IRSL在查询次数大幅减少的情况下仍能达到相当乃至更高的预测精度，在节省时间和成本的同时提升了整体性能。

这本质上是一种统计捷径。Koyejo和Truong不再对每个模型反复提问所有问题，而是更有效、更高效地利用信息。传统规模扩展中的备选问题数量可达一万道以上，再乘以模型数量和需要采样的次数，一次扩展运行的查询总量可能高达10万亿次。而IRSL仅需最少50道题即可实现同等精度，降幅超过99%。

"在现有框架下，往往需要在数万道基准测试题上运行数千个小模型才能预测结果，"Truong解释道，"我们的方法让这一过程变得更加高效、更加可靠。在某些情况下，减少计算量反而能够改善预测结果。"

Koyejo预测，IRSL对学术界的影响将最为深远——因为训练成本对学术研究而言往往难以承受——但财力雄厚的私营开发者同样能够从中受益。Truong表示，这项研究的目标是为研究人员提供新工具，帮助他们以科学、严谨的统计方式思考规模扩展问题。

"我们认为题目反应规模定律是一项重要的进步，"Koyejo总结道，"它表明规模扩展乃至整体训练是可以被精炼优化的。它带来了一个反直觉的结论：用更少的工作量，反而能获得更优质的信号。"

参与撰写的合作者还包括斯坦福大学博士生Rylan Schaeffer以及加州大学洛杉矶分校的Yuheng Tu。

本项研究得到了美国国家科学基金会、ARPA-H、麦克阿瑟基金会、施密特科学、斯坦福以人为本AI研究院（HAI）、OpenAI、微软及谷歌的资助支持。

Q&A

Q1：题目反应规模定律（IRSL）是什么？它有什么作用？

A：IRSL是由斯坦福大学研究人员提出的一种新型大语言模型扩展框架，借鉴了SAT等标准化测评中的心理测量学原理。它通过在模型正确作答后逐步提高题目难度，大幅减少评估模型能力所需的查询次数，最高可将计算需求降低99%，从而显著节省大语言模型训练过程中的时间与成本。

Q2：IRSL相比传统规模扩展方法能节省多少计算量？

A：传统规模扩展方法可能需要在一万道以上的基准题目上运行数千个小型模型，单次扩展运行的查询总量可高达10万亿次。而IRSL最少只需50道题即可实现同等甚至更高的预测精度，计算需求降幅超过99%，可为AI开发者节省数百万美元的训练成本。

Q3：IRSL主要对哪些群体有帮助？

A：IRSL对学术界的帮助最为显著，因为高昂的训练成本往往让学术研究机构难以承受。与此同时，拥有充足资金的商业AI开发者同样能从中受益。研究团队希望通过这一工具，帮助更广泛的研究人员以更科学、更严谨的统计方式开展大语言模型的规模扩展研究。

来源：Stanford HAI

0赞

好文章，需要你的鼓励

新方法革新大语言模型训练的规模定律研究

来源：Stanford HAI

2026

05/22

07:40

分享

点赞

仿人机器人视觉与运动技术的精细调校

抵御AI驱动的数据融合攻击：芯片安全防护的关键挑战

AI数据中心与汽车行业在能源管理领域的技术融合

GLM-5.2海外爆火，我们翻了1500条评论，看看用户在讨论什么

电动自行车的功过之辩：被忽视的那一面

Neo：印度科技大亨自掏3000万美元，打造微软Office的AI替代品

AI数据中心如何获得电网接入资格？公用事业公司的规划逻辑解析

Brookfield与Bloom能源将融资规模扩至250亿美元，押注AI数据中心独立供电

当CIO的技术提案遭到否决，该如何应对？

这款谷歌实验室 AI 应用如何成为我每日必用的工具

起亚EV5推出Storm特别版并新增全轮驱动选项

Meta效仿SpaceX，将过剩AI算力变现

诺基亚与KDDI联合测试节能6G基站技术，最高可降低40%能耗

开源AI模型为何正在对大语言模型发起挑战

自动化知识工作：AI部署的系统性评估框架

谷歌Project Genie新增街景功能，带你探索真实世界

手机上的"氛围编程"时代正式来临

技术通常为年轻人创造就业，AI会做到吗？

突破内存瓶颈：HBM、CXL与GPU新部署策略

低温焊料在芯片小片与光子学领域的关键作用

定制化单板计算机如何提升嵌入式视觉系统的盈利能力

Anthropic企业市场份额首超OpenAI，AI模型支出激增

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: