训练一个大型人工智能模型的成本极为高昂,不仅体现在资金上,还涵盖时间、能耗和计算资源等多个维度。传统方法若想获得一个体积更小、运行更快的模型,要么先训练一个庞大的模型再进行裁剪,要么从头训练小模型但不得不接受性能上的妥协。
来自麻省理工学院计算机科学与人工智能实验室(CSAIL)、马克斯·普朗克智能系统研究所、欧洲学习与智能系统实验室、苏黎世联邦理工学院以及Liquid AI的研究人员,联合开发出一种全新方法,彻底绕开了上述两难困境——在训练过程中直接压缩模型,而非等到训练完成之后。
这项名为CompreSSM的技术,专门针对一类名为状态空间模型的AI架构。该类架构广泛应用于语言处理、音频生成和机器人控制等领域。研究团队借助控制理论中的数学工具,能够在训练早期识别出模型中哪些部分真正发挥作用、哪些是冗余负担,并在此基础上将不必要的组件精准剔除。
"这本质上是一种让模型在训练过程中同步变得更小、更快的技术,"该论文第一作者、麻省理工学院电气工程与计算机科学系博士生、CSAIL成员Makram Chahine说,"模型在学习的同时,也在不断淘汰那些对其发展没有价值的部分。"
该方法的核心发现在于:模型内部各组件的相对重要性,在训练早期便会出现惊人的稳定性。研究团队利用一种称为Hankel奇异值的数学量——它可以衡量每个内部状态对模型整体行为的贡献程度——证明了在训练完成约10%时,就能可靠地对各维度的重要性进行排序。一旦排序确定,重要性较低的组件便可安全丢弃,剩余90%的训练过程将以更小模型的速度高效推进。
"这项工作令人兴奋之处在于,它将压缩从事后补救变成了学习过程本身的一部分,"资深作者、麻省理工学院教授兼CSAIL主任Daniela Rus说,"CompreSSM不是先训练大模型再想办法缩小,而是让模型在学习过程中自己发现高效结构。这是构建AI系统的一种根本性的不同思路。"
实验结果十分亮眼。在图像分类基准测试中,压缩后的模型在保持与全尺寸模型几乎相同精度的同时,训练速度提升了约1.5倍。一个状态维度被压缩至原始大小约四分之一的模型,在CIFAR-10基准上实现了85.7%的准确率,而从头训练的同等小模型仅达到81.8%。在广泛使用的Mamba状态空间架构上,该方法实现了约4倍的训练加速,将128维模型压缩至约12维,同时保持了具有竞争力的性能表现。
"你能获得大模型的性能,因为在预热阶段就捕捉到了大部分复杂动态,之后只保留最有用的状态,"Chahine解释道,"模型的最终表现仍然优于从一开始就训练小模型的方案。"
CompreSSM区别于现有方案的关键在于其坚实的理论基础。传统剪枝方法需要先完整训练一个大模型,再事后裁剪参数,意味着仍需承担大模型训练的全部计算成本。知识蒸馏这一流行技术则要求先将大"教师"模型完整训练一遍,再在此基础上训练第二个较小的"学生"模型,实际上让训练成本翻倍。CompreSSM通过在训练中途做出有据可依的压缩决策,同时避免了上述两种开销。
研究团队将CompreSSM与上述两种方案进行了直接对比。与近年提出的用于鼓励紧凑状态空间模型的谱技术——Hankel核范数正则化相比,CompreSSM的速度快出逾40倍,且精度更高。该正则化方法因需要在每个梯度步骤都进行高成本的特征值计算,导致训练速度降低约16倍,且最终模型性能反而更差。在CIFAR-10上与知识蒸馏的对比中,CompreSSM对于高度压缩的模型优势明显:在较小状态维度下,蒸馏模型的准确率出现显著下降,而CompreSSM压缩后的模型仍维持接近完整的性能。此外,由于蒸馏在每个训练步骤都需要同时对教师和学生模型进行前向传播,即便是其较小的学生模型,训练速度也慢于全尺寸基准模型。
研究人员借助Weyl定理从数学上证明,模型各状态的重要性在训练过程中平滑变化,并通过实验验证了这些状态相对排名的稳定性。这两项发现共同为实践者提供了保障:在早期被判定为无关紧要的维度,不会在后续训练中突然变得至关重要。
该方法还内置了一个实用的安全机制。若某次压缩步骤导致性能出现意外下降,实践者可以回滚至此前保存的检查点。"这给了用户更直观的控制权,让他们能自主决定愿意在性能上付出多少代价,而不是被迫去定义一个不那么直观的能量阈值,"Chahine说。
当然,该技术也存在一定的适用边界。CompreSSM在内部状态维度与整体性能之间相关性较强的模型上效果最佳,而这一特性因任务和架构的不同而有所差异。该方法在多输入多输出(MIMO)模型上尤为有效,因为这类模型中状态大小与表达能力的关联最为紧密。对于按通道处理的单输入单输出架构,收益则相对有限,原因在于这类模型本身对状态维度变化就不那么敏感。
该理论最适用于线性时不变系统,但研究团队也针对日益流行的输入相关、时变架构开发了相应扩展。由于状态空间模型家族还延伸至线性注意力等架构——作为传统Transformer替代方案的这一领域正日益受到关注——CompreSSM的潜在应用范围相当广阔。
Chahine和团队将这项工作视为一块跳板。目前团队已完成向Mamba等线性时变系统的扩展,未来方向包括将CompreSSM进一步推广至线性注意力机制中使用的矩阵值动力系统,从而使该技术更接近支撑当今绝大多数大型AI系统的Transformer架构。
"这必须是第一步,因为这里的理论最为清晰,方法也能保持严谨,"Chahine说,"这是向行业中广泛使用的其他架构延伸的基础。"
"Chahine及其同事的工作为现代状态空间模型的压缩提供了一个引人入胜、具有坚实理论基础的新视角,"未参与本研究的ELLIS图宾根研究所首席研究员、马克斯·普朗克智能系统研究所独立团队负责人Antonio Orvieto评价道,"该方法提供了充分证据,表明这些模型的状态维度可以在训练过程中有效降低,控制理论视角能够成功指导这一过程。这项工作为未来研究开辟了新方向,所提出的算法有望成为预训练大型基于状态空间模型时的标准方法。"
这项研究已被国际学习表征大会2026(ICLR 2026)接收为会议论文,将于本月晚些时候正式发表。研究工作部分得到了马克斯·普朗克-苏黎世联邦理工学院学习系统中心、赫克托基金会、波音公司以及美国海军研究办公室的资助。
Q&A
Q1:CompreSSM是什么技术?它解决了什么问题?
A:CompreSSM是一种在AI模型训练过程中直接压缩模型的新技术,专门针对状态空间模型架构。它解决的核心问题是:传统获得小型高效模型的方式要么需要先训练大模型再裁剪,要么从头训练小模型但性能较差。CompreSSM通过在训练早期识别并丢弃不重要的模型组件,让模型边学习边"瘦身",同时兼顾速度与性能。
Q2:CompreSSM与知识蒸馏、传统剪枝相比有什么优势?
A:传统剪枝需要完整训练大模型再裁剪,计算成本高;知识蒸馏要先训练完整的教师模型,再训练学生模型,相当于双倍训练成本。CompreSSM在训练中途就做出压缩决策,避免了这两种额外开销。实验显示,在CIFAR-10测试中,CompreSSM压缩模型的准确率明显优于知识蒸馏,与Hankel核范数正则化相比速度快逾40倍,且精度更高。
Q3:CompreSSM适用于哪些AI架构?有没有局限性?
A:CompreSSM主要针对状态空间模型(SSM)架构,在多输入多输出(MIMO)模型上效果最佳,也已扩展至Mamba等线性时变架构,未来有望延伸至线性注意力机制乃至Transformer架构。局限性在于:该方法在状态维度与性能相关性强的模型上效果更显著;对于单输入单输出架构,收益相对有限;理论基础最适用于线性时不变系统。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。