MIT研究人员开发了一种名为自适应语言模型(SEAL)的框架,使大型语言模型能够通过更新自身内部参数来持续学习和适应。SEAL教会大语言模型生成自己的训练数据和更新指令,让模型能够永久吸收新知识并学习新任务。
这一框架在企业应用中特别有用,尤其适用于在动态环境中运行的AI智能体,它们必须不断处理新信息并调整自身行为。
**大语言模型适应性挑战**
虽然大型语言模型已展现出卓越能力,但让它们适应特定任务、整合新信息或掌握新推理技能仍是一大难题。
目前,面对新任务时,大语言模型通常通过微调或上下文学习等方法从"原始"数据中学习。然而,提供的数据格式并不总是最适合模型高效学习的。现有方法无法让模型自主开发最佳的信息转换和学习策略。
MIT博士生、论文共同作者Jyo Pari向VentureBeat表示:"许多企业应用场景需要的不仅仅是事实回忆,而是更深层、持久的适应能力。例如,编程助手可能需要内化公司特定的软件框架,或者面向客户的模型需要随时间学习用户的独特行为或偏好。"
在这些情况下,临时检索能力远远不够,知识需要"融入"模型权重中,从而影响所有未来响应。
**创建自适应语言模型**
MIT研究人员在论文中提出:"为实现语言模型的可扩展和高效适应,我们建议为大语言模型配备生成自己训练数据和微调指令的能力。"
研究人员的解决方案是SEAL,即自适应语言模型。它使用强化学习算法训练大语言模型生成"自编辑"——指定模型应如何更新自身权重的自然语言指令。这些自编辑可以重构新信息、创建合成训练样例,甚至定义学习过程本身的技术参数。
直观地说,SEAL教会模型如何创建个性化学习指南。模型不仅仅是阅读新文档(原始数据),而是学会将信息重写和重新格式化为更容易吸收和内化的形式。这一过程结合了AI研究的几个关键领域,包括合成数据生成、强化学习和测试时训练。
该框架采用双循环系统。在"内循环"中,模型使用自编辑对权重进行小幅临时更新。在"外循环"中,系统评估该更新是否改善了模型在目标任务上的性能。如果确实改善了,模型会获得正向奖励,强化其生成有效自编辑的能力。随着时间推移,大语言模型成为自我教学的专家。
研究中,研究人员为整个SEAL框架使用了单一模型。但他们也指出,这一过程可以分解为"教师-学生"模型。专门的教师模型可以训练为单独的学生模型生成有效的自编辑,然后更新学生模型。这种方法可以在企业环境中实现更专业和高效的适应流程。
**SEAL实际应用**
研究人员在两个关键领域测试了SEAL:知识整合(永久集成新事实的能力)和少样本学习(从少量样例中泛化的能力)。
在知识整合方面,目标是测试模型是否能在问答时无法访问文本段落的情况下回答相关问题。在原始文本上微调Llama-3.2-1B仅比基础模型略有改善。
然而,当SEAL模型通过从段落中生成多个"推论"来创建"自编辑"并在这些合成数据上训练时,准确率跃升至47%。值得注意的是,这一结果超过了使用更大规模GPT-4.1生成的合成数据,表明模型学会了为自己创建更优质的训练材料。
在少样本学习方面,研究人员在抽象推理语料库(ARC)的样例上测试SEAL,模型必须解决视觉谜题。在自编辑阶段,模型必须生成完整的适应策略,包括使用哪些数据增强和工具,以及应用什么学习率。
SEAL达到了72.5%的成功率,相比未经强化学习训练的20%成功率和标准上下文学习的0%成功率,这是显著的改进。
**企业应用前景**
一些专家预测,高质量人工生成训练数据的供应可能在未来几年内枯竭。进步可能很快取决于"模型生成自己高效用训练信号的能力"。研究人员补充道:"自然的下一步是元训练专门的SEAL合成数据生成器模型,产生新鲜的预训练语料库,使未来模型能够扩展并在不依赖额外人类文本的情况下实现更高的数据效率。"
例如,研究人员提出,大语言模型可以摄取学术论文或财务报告等复杂文档,并自主生成数千个解释和推论来加深理解。
研究人员解释:"这种自我表达和自我完善的迭代循环可以让模型在缺乏额外外部监督的情况下,在罕见或代表性不足的主题上持续改进。"
这一能力对构建AI智能体特别有前景。智能体系统必须在与环境交互时增量获取和保留知识。SEAL为此提供了机制。交互后,智能体可以合成自编辑来触发权重更新,使其能够内化学到的经验。这使智能体能够随时间演进,基于经验改善性能,并减少对静态编程或重复人工指导的依赖。
研究人员写道:"SEAL证明大型语言模型在预训练后无需保持静态。通过学习生成自己的合成自编辑数据并通过轻量级权重更新应用,它们可以自主整合新知识并适应新任务。"
**SEAL的局限性**
不过,SEAL并非万能解决方案。例如,它可能遭受"灾难性遗忘",持续的重训练循环可能导致模型忘记早期知识。
Pari说:"在我们当前的实现中,我们鼓励采用混合方法。企业应该有选择性地确定哪些知识重要到需要永久集成。"
事实性和不断变化的数据可以通过RAG保留在外部存储中,而持久的、行为塑造性知识更适合通过SEAL进行权重级更新。
他说:"这种混合记忆策略确保正确的信息得以持久保存,而不会压倒模型或引入不必要的遗忘。"
值得注意的是,SEAL需要相当长的时间来调优自编辑样例和训练模型。这使得在大多数生产环境中持续、实时编辑变得不可行。
Pari说:"我们设想了一种更实用的部署模式,系统在一段时间内收集数据——比如几小时或一天——然后在预定的更新间隔内执行针对性的自编辑。这种方法允许企业控制适应成本,同时仍能从SEAL内化新知识的能力中受益。"
好文章,需要你的鼓励
AI能让够更早,更准确的发现并预测癌变的发生,这也是目前AI医疗的的一个主流发展方向,更早的发现,更准确的预测。最近一项来自美国国立卫生研究院(NIH)的研究就在对肺癌精准预测方向上取得了重大突破
慕尼黑大学研究团队开发了SwarmAgentic技术,这是首个能够完全自主生成智能体系统的框架,无需人工预设模板。该技术借鉴蜂群智能原理,让AI系统自己决定需要什么角色、如何分工协作。在旅行规划等六项复杂任务测试中,SwarmAgentic表现优异,在旅行规划任务上比现有最佳方法提升261.8%,展现了全自动智能体系统设计的巨大潜力。
Salesforce发布Agentforce 3平台重大升级,新增指挥中心提供AI智能体实时性能监控,支持MCP开放标准实现与数百种企业工具无缝集成。数据显示AI智能体使用量六个月内激增233%,超8000家客户部署该技术。百事可乐等全球企业已将其深度集成到业务运营中。新版本还提供50%更低延迟、增强安全性和200多个预配置行业操作模板,帮助企业快速部署功能性AI智能体。
EPFL研究团队开发了首个专门测试AI计算机代理安全性的综合平台OS-HARM,通过150个测试任务发现包括GPT-4.1、Claude 3.7 Sonnet等在内的主流AI代理都存在严重安全漏洞,会执行有害指令、易受攻击欺骗,并可能因判断失误造成危险后果。