MIT新框架让AI模型具备自我学习和持续适应能力

MIT研究人员开发出自适应语言模型(SEAL)框架，让大型语言模型能够持续学习并通过更新自身内部参数进行适应。SEAL教会模型生成自己的训练数据和更新指令，永久吸收新知识并掌握新任务。该框架采用双循环系统和强化学习算法，让模型学会创建个性化学习指南。在知识整合测试中准确率达47%，在少样本学习中成功率达72.5%。这对企业AI应用具有重要意义，特别适用于动态环境中的AI智能体，但仍存在灾难性遗忘等局限性。

MIT研究人员开发了一种名为自适应语言模型(SEAL)的框架，使大型语言模型能够通过更新自身内部参数来持续学习和适应。SEAL教会大语言模型生成自己的训练数据和更新指令，让模型能够永久吸收新知识并学习新任务。

这一框架在企业应用中特别有用，尤其适用于在动态环境中运行的AI智能体，它们必须不断处理新信息并调整自身行为。

**大语言模型适应性挑战**

虽然大型语言模型已展现出卓越能力，但让它们适应特定任务、整合新信息或掌握新推理技能仍是一大难题。

目前，面对新任务时，大语言模型通常通过微调或上下文学习等方法从"原始"数据中学习。然而，提供的数据格式并不总是最适合模型高效学习的。现有方法无法让模型自主开发最佳的信息转换和学习策略。

MIT博士生、论文共同作者Jyo Pari向VentureBeat表示："许多企业应用场景需要的不仅仅是事实回忆，而是更深层、持久的适应能力。例如，编程助手可能需要内化公司特定的软件框架，或者面向客户的模型需要随时间学习用户的独特行为或偏好。"

在这些情况下，临时检索能力远远不够，知识需要"融入"模型权重中，从而影响所有未来响应。

**创建自适应语言模型**

MIT研究人员在论文中提出："为实现语言模型的可扩展和高效适应，我们建议为大语言模型配备生成自己训练数据和微调指令的能力。"

研究人员的解决方案是SEAL，即自适应语言模型。它使用强化学习算法训练大语言模型生成"自编辑"——指定模型应如何更新自身权重的自然语言指令。这些自编辑可以重构新信息、创建合成训练样例，甚至定义学习过程本身的技术参数。

直观地说，SEAL教会模型如何创建个性化学习指南。模型不仅仅是阅读新文档(原始数据)，而是学会将信息重写和重新格式化为更容易吸收和内化的形式。这一过程结合了AI研究的几个关键领域，包括合成数据生成、强化学习和测试时训练。

该框架采用双循环系统。在"内循环"中，模型使用自编辑对权重进行小幅临时更新。在"外循环"中，系统评估该更新是否改善了模型在目标任务上的性能。如果确实改善了，模型会获得正向奖励，强化其生成有效自编辑的能力。随着时间推移，大语言模型成为自我教学的专家。

研究中，研究人员为整个SEAL框架使用了单一模型。但他们也指出，这一过程可以分解为"教师-学生"模型。专门的教师模型可以训练为单独的学生模型生成有效的自编辑，然后更新学生模型。这种方法可以在企业环境中实现更专业和高效的适应流程。

**SEAL实际应用**

研究人员在两个关键领域测试了SEAL：知识整合(永久集成新事实的能力)和少样本学习(从少量样例中泛化的能力)。

在知识整合方面，目标是测试模型是否能在问答时无法访问文本段落的情况下回答相关问题。在原始文本上微调Llama-3.2-1B仅比基础模型略有改善。

然而，当SEAL模型通过从段落中生成多个"推论"来创建"自编辑"并在这些合成数据上训练时，准确率跃升至47%。值得注意的是，这一结果超过了使用更大规模GPT-4.1生成的合成数据，表明模型学会了为自己创建更优质的训练材料。

在少样本学习方面，研究人员在抽象推理语料库(ARC)的样例上测试SEAL，模型必须解决视觉谜题。在自编辑阶段，模型必须生成完整的适应策略，包括使用哪些数据增强和工具，以及应用什么学习率。

SEAL达到了72.5%的成功率，相比未经强化学习训练的20%成功率和标准上下文学习的0%成功率，这是显著的改进。

**企业应用前景**

一些专家预测，高质量人工生成训练数据的供应可能在未来几年内枯竭。进步可能很快取决于"模型生成自己高效用训练信号的能力"。研究人员补充道："自然的下一步是元训练专门的SEAL合成数据生成器模型，产生新鲜的预训练语料库，使未来模型能够扩展并在不依赖额外人类文本的情况下实现更高的数据效率。"

例如，研究人员提出，大语言模型可以摄取学术论文或财务报告等复杂文档，并自主生成数千个解释和推论来加深理解。

研究人员解释："这种自我表达和自我完善的迭代循环可以让模型在缺乏额外外部监督的情况下，在罕见或代表性不足的主题上持续改进。"

这一能力对构建AI智能体特别有前景。智能体系统必须在与环境交互时增量获取和保留知识。SEAL为此提供了机制。交互后，智能体可以合成自编辑来触发权重更新，使其能够内化学到的经验。这使智能体能够随时间演进，基于经验改善性能，并减少对静态编程或重复人工指导的依赖。

研究人员写道："SEAL证明大型语言模型在预训练后无需保持静态。通过学习生成自己的合成自编辑数据并通过轻量级权重更新应用，它们可以自主整合新知识并适应新任务。"

**SEAL的局限性**

不过，SEAL并非万能解决方案。例如，它可能遭受"灾难性遗忘"，持续的重训练循环可能导致模型忘记早期知识。

Pari说："在我们当前的实现中，我们鼓励采用混合方法。企业应该有选择性地确定哪些知识重要到需要永久集成。"

事实性和不断变化的数据可以通过RAG保留在外部存储中，而持久的、行为塑造性知识更适合通过SEAL进行权重级更新。

他说："这种混合记忆策略确保正确的信息得以持久保存，而不会压倒模型或引入不必要的遗忘。"

值得注意的是，SEAL需要相当长的时间来调优自编辑样例和训练模型。这使得在大多数生产环境中持续、实时编辑变得不可行。

Pari说："我们设想了一种更实用的部署模式，系统在一段时间内收集数据——比如几小时或一天——然后在预定的更新间隔内执行针对性的自编辑。这种方法允许企业控制适应成本，同时仍能从SEAL内化新知识的能力中受益。"

来源：VentureBeat

0赞

好文章，需要你的鼓励

MIT新框架让AI模型具备自我学习和持续适应能力

来源：VentureBeat

2025

06/24

14:18

分享

点赞

数智惠闽企，展车进福州｜华为坤灵中国行2025·福建站成功举办，推动闽企智能化发展新征程

AI时代的影像实验：记录你眼中的“变化”

大象转身，亦或重塑大象：Unity团结引擎的“中国本土”进化

无万卡，不VLA：元戎启行与阿里云的“想法”和“解法”

AI爬虫让“价格战”变成“算法战”，利润正在被看不见的流量吞噬 AI 爬虫程序流量在短短一年内暴增 300%

做好可持续数字化转型的“必答题”

SUSE Linux Enterprise Server (SLES) 16全新发布：AI赋能，智领企业管理

SAP商业AI获乌镇峰会精品案例奖，助推中国企业实现确定性增长

专访｜Cloudera致力于打造AI时代的企业级“数据操作系统”

专访｜AI浪潮下的“卖水人”：Cloudera解构企业AI的“源”与“治”

SAP TechEd柏林观察：企业AI如何发挥飞轮效应?

CIO策略观察——软件测试：从传统困局到 AI 无人测试转型

亚马逊AI助手Alexa+用户突破100万，月费定价19.99美元

Salesforce发布Agentforce 3，提升AI智能体可见性和连接性

Grok将推出电子表格编辑功能挑战微软谷歌

智能芯片如何解决AI能耗危机

谷歌为Chromebook带来全新Gemini功能，首推设备端AI

欧洲半导体巨头加速应对AI能耗挑战

联想推出新一代AI优化数据中心系统

AI系统现代架构优化的六大发展方向

Meta斥资143亿美元投资Scale AI强化模型训练

认知负债并非不可改变的宿命

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: