MIT研究人员开发了一种名为自适应语言模型(SEAL)的框架,使大型语言模型能够通过更新自身内部参数来持续学习和适应。SEAL教会大语言模型生成自己的训练数据和更新指令,让模型能够永久吸收新知识并学习新任务。
这一框架在企业应用中特别有用,尤其适用于在动态环境中运行的AI智能体,它们必须不断处理新信息并调整自身行为。
**大语言模型适应性挑战**
虽然大型语言模型已展现出卓越能力,但让它们适应特定任务、整合新信息或掌握新推理技能仍是一大难题。
目前,面对新任务时,大语言模型通常通过微调或上下文学习等方法从"原始"数据中学习。然而,提供的数据格式并不总是最适合模型高效学习的。现有方法无法让模型自主开发最佳的信息转换和学习策略。
MIT博士生、论文共同作者Jyo Pari向VentureBeat表示:"许多企业应用场景需要的不仅仅是事实回忆,而是更深层、持久的适应能力。例如,编程助手可能需要内化公司特定的软件框架,或者面向客户的模型需要随时间学习用户的独特行为或偏好。"
在这些情况下,临时检索能力远远不够,知识需要"融入"模型权重中,从而影响所有未来响应。
**创建自适应语言模型**
MIT研究人员在论文中提出:"为实现语言模型的可扩展和高效适应,我们建议为大语言模型配备生成自己训练数据和微调指令的能力。"
研究人员的解决方案是SEAL,即自适应语言模型。它使用强化学习算法训练大语言模型生成"自编辑"——指定模型应如何更新自身权重的自然语言指令。这些自编辑可以重构新信息、创建合成训练样例,甚至定义学习过程本身的技术参数。
直观地说,SEAL教会模型如何创建个性化学习指南。模型不仅仅是阅读新文档(原始数据),而是学会将信息重写和重新格式化为更容易吸收和内化的形式。这一过程结合了AI研究的几个关键领域,包括合成数据生成、强化学习和测试时训练。
该框架采用双循环系统。在"内循环"中,模型使用自编辑对权重进行小幅临时更新。在"外循环"中,系统评估该更新是否改善了模型在目标任务上的性能。如果确实改善了,模型会获得正向奖励,强化其生成有效自编辑的能力。随着时间推移,大语言模型成为自我教学的专家。
研究中,研究人员为整个SEAL框架使用了单一模型。但他们也指出,这一过程可以分解为"教师-学生"模型。专门的教师模型可以训练为单独的学生模型生成有效的自编辑,然后更新学生模型。这种方法可以在企业环境中实现更专业和高效的适应流程。
**SEAL实际应用**
研究人员在两个关键领域测试了SEAL:知识整合(永久集成新事实的能力)和少样本学习(从少量样例中泛化的能力)。
在知识整合方面,目标是测试模型是否能在问答时无法访问文本段落的情况下回答相关问题。在原始文本上微调Llama-3.2-1B仅比基础模型略有改善。
然而,当SEAL模型通过从段落中生成多个"推论"来创建"自编辑"并在这些合成数据上训练时,准确率跃升至47%。值得注意的是,这一结果超过了使用更大规模GPT-4.1生成的合成数据,表明模型学会了为自己创建更优质的训练材料。
在少样本学习方面,研究人员在抽象推理语料库(ARC)的样例上测试SEAL,模型必须解决视觉谜题。在自编辑阶段,模型必须生成完整的适应策略,包括使用哪些数据增强和工具,以及应用什么学习率。
SEAL达到了72.5%的成功率,相比未经强化学习训练的20%成功率和标准上下文学习的0%成功率,这是显著的改进。
**企业应用前景**
一些专家预测,高质量人工生成训练数据的供应可能在未来几年内枯竭。进步可能很快取决于"模型生成自己高效用训练信号的能力"。研究人员补充道:"自然的下一步是元训练专门的SEAL合成数据生成器模型,产生新鲜的预训练语料库,使未来模型能够扩展并在不依赖额外人类文本的情况下实现更高的数据效率。"
例如,研究人员提出,大语言模型可以摄取学术论文或财务报告等复杂文档,并自主生成数千个解释和推论来加深理解。
研究人员解释:"这种自我表达和自我完善的迭代循环可以让模型在缺乏额外外部监督的情况下,在罕见或代表性不足的主题上持续改进。"
这一能力对构建AI智能体特别有前景。智能体系统必须在与环境交互时增量获取和保留知识。SEAL为此提供了机制。交互后,智能体可以合成自编辑来触发权重更新,使其能够内化学到的经验。这使智能体能够随时间演进,基于经验改善性能,并减少对静态编程或重复人工指导的依赖。
研究人员写道:"SEAL证明大型语言模型在预训练后无需保持静态。通过学习生成自己的合成自编辑数据并通过轻量级权重更新应用,它们可以自主整合新知识并适应新任务。"
**SEAL的局限性**
不过,SEAL并非万能解决方案。例如,它可能遭受"灾难性遗忘",持续的重训练循环可能导致模型忘记早期知识。
Pari说:"在我们当前的实现中,我们鼓励采用混合方法。企业应该有选择性地确定哪些知识重要到需要永久集成。"
事实性和不断变化的数据可以通过RAG保留在外部存储中,而持久的、行为塑造性知识更适合通过SEAL进行权重级更新。
他说:"这种混合记忆策略确保正确的信息得以持久保存,而不会压倒模型或引入不必要的遗忘。"
值得注意的是,SEAL需要相当长的时间来调优自编辑样例和训练模型。这使得在大多数生产环境中持续、实时编辑变得不可行。
Pari说:"我们设想了一种更实用的部署模式,系统在一段时间内收集数据——比如几小时或一天——然后在预定的更新间隔内执行针对性的自编辑。这种方法允许企业控制适应成本,同时仍能从SEAL内化新知识的能力中受益。"
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。