来自上海交通大学和浙江大学等知名院校的研究团队开发了他们称之为人工智能领域首个"内存操作系统"的系统,解决了一个阻碍AI系统实现类人持久记忆和学习能力的根本性限制。
这个名为MemOS的系统将内存视为一种核心计算资源,可以像传统操作系统管理CPU和存储资源一样进行调度、共享和演进。这项于7月4日发表在arXiv上的研究显示,相比现有方法有显著的性能提升,包括在时序推理任务上比OpenAI的记忆系统提升159%。
"大语言模型已成为通用人工智能(AGI)的重要基础设施,但缺乏完善的内存管理系统阻碍了长上下文推理、持续个性化和知识一致性的发展,"研究人员在论文中写道。
**AI系统在跨对话持久记忆方面面临挑战**
当前AI系统面临研究人员所称的"记忆孤岛"问题——这是一个根本性的架构限制,阻止它们与用户建立连贯的长期关系。每次对话或会话基本上都是从零开始,模型无法在交互中保留偏好、积累的知识或行为模式。这造成了令人沮丧的用户体验,AI助手可能会在一次对话中忘记用户提到的饮食限制,而在下次询问餐厅推荐时就不记得了。
虽然检索增强生成(RAG)等解决方案试图通过在对话中引入外部信息来解决这个问题,但研究人员认为这些仍然是"没有生命周期控制的无状态变通方法"。问题比简单的信息检索更深层——它关乎创建能够真正从经验中学习和演进的系统,就像人类记忆那样。
"现有模型主要依赖静态参数和短期上下文状态,限制了它们在长期内跟踪用户偏好或更新知识的能力,"团队解释道。这种限制在企业环境中变得尤为明显,那里的AI系统需要在可能跨越数天或数周的复杂多阶段工作流程中保持上下文。
**新系统在AI推理任务中带来显著改进**
MemOS通过研究人员称为"MemCubes"的标准化记忆单元引入了根本不同的方法——这些单元可以封装不同类型的信息,并可以随时间组合、迁移和演进。这些范围从显式的基于文本的知识到参数级适应和模型内的激活状态,创建了一个以前不存在的统一内存管理框架。
在评估记忆密集型推理任务的LOCOMO基准测试中,MemOS在所有类别中始终优于既定基线。该系统相比OpenAI的记忆实现总体改进了38.98%,在需要连接多个对话轮次信息的复杂推理场景中表现尤为突出。
"MemOS在所有类别中始终排名第一,优于mem0、LangMem、Zep和OpenAI-Memory等强基线,在多跳和时序推理等挑战性设置中优势尤为明显,"研究显示。该系统还带来了显著的效率提升,通过其创新的KV缓存记忆注入机制,在某些配置下首Token延迟减少高达94%。
这些性能提升表明,记忆瓶颈比之前理解的更为严重的限制。通过将记忆视为一类计算资源,MemOS似乎释放了之前受架构限制约束的推理能力。
**该技术可能重塑企业AI部署方式**
对企业AI部署的影响可能是变革性的,特别是随着企业越来越依赖AI系统与客户和员工建立复杂的持续关系。MemOS实现了研究人员描述的"跨平台记忆迁移",使AI记忆能够在不同平台和设备间移植,打破了他们称为"记忆孤岛"的现状,这些孤岛目前将用户上下文困在特定应用中。
考虑一下许多用户目前体验到的挫折感,在一个AI平台中探索的洞察无法转移到另一个平台。营销团队可能通过与ChatGPT的对话开发了详细的客户画像,但在切换到不同的AI工具进行营销策划时却要从头开始。MemOS通过创建可以在系统间移动的标准化记忆格式来解决这个问题。
研究还概述了"付费记忆模块"的潜力,领域专家可以将他们的知识打包成可购买的记忆单元。研究人员设想这样的场景:"临床轮转的医学生可能希望学习如何管理罕见的自身免疫疾病。有经验的医生可以将诊断启发式方法、询问路径和典型病例模式封装成结构化记忆",供其他AI系统安装和使用。
这种市场模式可能从根本上改变专业知识在AI系统中的分发和货币化方式,为专家创造新的经济机会,同时使高质量领域知识的获取民主化。对企业而言,这可能意味着快速部署在特定领域具有深度专业知识的AI系统,而无需承担与定制训练相关的传统成本和时间表。
**三层设计镜像传统计算机操作系统**
MemOS的技术架构反映了传统操作系统设计数十年的学习经验,并适应了AI记忆管理的独特挑战。该系统采用三层架构:用于API调用的接口层、用于记忆调度和生命周期管理的操作层,以及用于存储和治理的基础设施层。
系统的MemScheduler组件动态管理不同类型的记忆——从临时激活状态到永久参数修改——根据使用模式和任务需求选择最优的存储和检索策略。这代表了与当前方法的重大背离,当前方法通常将记忆视为完全静态的(嵌入在模型参数中)或完全短暂的(限于对话上下文)。
"焦点从模型一次学习多少知识转向它是否能将经验转化为结构化记忆并反复检索和重构,"研究人员描述了他们对所谓"Mem-training"范式的愿景。这种架构哲学表明对AI系统应如何设计的根本性重新思考,从当前大规模预训练的范式转向更动态、经验驱动的学习。
与操作系统发展的相似性令人印象深刻。正如早期计算机需要程序员手动管理内存分配一样,当前的AI系统需要开发者仔细协调信息在不同组件间的流动。MemOS抽象了这种复杂性,可能催生新一代AI应用,这些应用可以建立在复杂的记忆管理之上,而无需深入的技术专业知识。
**研究人员开源代码以加速采用**
团队已将MemOS作为开源项目发布,完整代码可在GitHub上获得,并支持与HuggingFace、OpenAI和Ollama等主要AI平台的集成。这种开源策略似乎旨在加速采用并鼓励社区开发,而不是追求可能限制广泛实施的专有方法。
"我们希望MemOS帮助推进AI系统从静态生成器向持续演进、记忆驱动的智能体发展,"项目负责人李志宇在GitHub仓库中评论道。该系统目前支持Linux平台,计划支持Windows和macOS,表明团队优先考虑企业和开发者采用,而不是立即的消费者可访问性。
开源发布策略反映了AI研究的一个更广泛趋势,即基础设施改进被公开分享以惠及整个生态系统。这种方法在深度学习框架等领域历史上加速了创新,可能对AI系统中的记忆管理产生类似效果。
**科技巨头竞相解决AI记忆限制**
这项研究出现之际,主要AI公司正在努力解决当前记忆方法的限制,突出了这一挑战对行业的根本重要性。OpenAI最近为ChatGPT引入了记忆功能,而Anthropic、Google和其他提供商也在实验各种形式的持久上下文。然而,这些实现通常在范围上有限,往往缺乏MemOS提供的系统性方法。
这项研究的时机表明,记忆管理已成为AI开发中的关键竞争战场。能够有效解决记忆问题的公司可能在用户保留和满意度方面获得显著优势,因为他们的AI系统将能够随时间建立更深入、更有用的关系。
行业观察家长期预测,AI的下一个重大突破不一定来自更大的模型或更多的训练数据,而是来自更好地模拟人类认知能力的架构创新。记忆管理正代表着这种类型的根本性进步——一种可能释放当前无状态系统无法实现的新应用和用例的进步。
这一发展代表了AI研究向更有状态、持久系统的更广泛转变的一部分,这些系统可以随时间积累和演进知识——这被视为通用人工智能的必要能力。对于评估AI实施的企业技术领导者来说,MemOS可能代表了构建能够保持上下文并随时间改进的AI系统的重大进步,而不是将每次交互视为孤立的。
研究团队表示,他们计划在未来工作中探索跨模型记忆共享、自演进记忆块和更广泛的"记忆市场"生态系统的开发。但也许MemOS最重要的影响不是具体的技术实现,而是证明了将记忆视为一类计算资源可以释放AI能力的显著改进。在一个主要专注于扩展模型规模和训练数据的行业中,MemOS表明下一个突破可能来自更好的架构而不是更大的计算机。
好文章,需要你的鼓励
TechCrunch Disrupt 2025 AI舞台将汇聚塑造科技未来的领军人物,顶尖风投将揭示在快速变化的AI领域获得融资的关键。来自Apptronik、ElevenLabs、Hugging Face、Runway等创新企业的领导者将分享前沿洞见,探讨AI如何重塑创意过程、改变物理世界、变革国防安全和重新定义人际关系。10月27-29日,五大主题舞台将在旧金山呈现科技创新的未来图景。
西班牙研究团队提出了一种创新的AI自我纠错方法SSC,让人工智能学会识别和修正规则中的漏洞。当AI发现自己在钻空子获得高分时,它会反思规则的合理性并主动改进。实验显示这种方法将AI的"钻空子"行为从50-70%降低到3%以下,同时提升了回答质量。这项技术有望让AI从被动执行指令转变为能够质疑和改进指令的智能协作伙伴。
英超联赛与微软达成五年战略合作伙伴关系,推出AI驱动的Premier League Companion服务,为全球球迷提供个性化体验。该服务利用Azure OpenAI技术,整合30多个赛季的统计数据、30万篇文章和9000个视频,帮助球迷发现和了解更多内容。未来还将为Fantasy Premier League引入个人助理经理功能,并通过Azure AI优化比赛直播体验和赛后分析。
这篇文章详细解析了Long、Shelhamer和Darrell在2015年CVPR会议上发表的开创性研究"全卷积网络用于语义分割"。文章以通俗易懂的方式,将这项复杂的技术比作艺术家的绘画过程,解释了如何让计算机不仅识别图像中有什么物体,还能精确标出每个物体的位置和边界。研究团队通过将传统分类网络改造为全卷积形式,并巧妙运用上采样和跳跃连接技术,实现了高效准确的像素级图像理解。这一突破为自动驾驶、医学影像和增强现实等领域带来了革命性变化,奠定了现代计算机视觉的重要基础。