Rutgers University、蚂蚁集团和 Salesforce Research 的研究人员提出了一个新的框架,通过整合环境信息并创建自动链接的记忆来构建复杂结构,使 AI 代理能够处理更复杂的任务。
这个名为 A-MEM 的框架利用大语言模型 (LLM) 和向量嵌入从代理的交互中提取有用信息,并创建可以高效检索和使用的记忆表示。对于希望将 AI 代理整合到工作流程和应用程序中的企业来说,拥有可靠的记忆管理系统可以带来显著差异。
为什么 LLM 的记忆很重要
记忆在 LLM 和代理应用中至关重要,因为它能够实现工具和用户之间的长期交互。然而,当前的记忆系统要么效率低下,要么基于预定义模式,可能无法适应应用程序的变化性质及其面临的交互。
研究人员写道:"这种刚性结构,加上固定的代理工作流程,严重限制了这些系统在新环境中的泛化能力和长期交互中的有效性。随着 LLM 代理处理更复杂、更开放式的任务,这个挑战变得越来越关键,因为灵活的知识组织和持续适应是必不可少的。"
A-MEM 详解
据研究人员介绍,A-MEM 引入了一种代理记忆架构,为 LLM 代理实现自主和灵活的记忆管理。
每当 LLM 代理与其环境交互时(无论是访问工具还是与用户交换消息),A-MEM 都会生成"结构化记忆笔记",这些笔记捕获显式信息和元数据,如时间、上下文描述、相关关键词和链接记忆。部分细节是由 LLM 在检查交互并创建语义组件时生成的。
创建记忆后,使用编码器模型计算其所有组件的嵌入值。LLM 生成的语义组件和嵌入的组合既提供了人类可解释的上下文,又提供了通过相似性搜索进行高效检索的工具。
随时间构建记忆
A-MEM 框架的一个有趣组件是无需预定义规则就能链接不同记忆笔记的机制。对于每个新的记忆笔记,A-MEM 根据嵌入值的相似性识别最接近的记忆。然后 LLM 分析检索到的候选项的完整内容,选择最适合链接到新记忆的内容。
研究人员写道:"通过使用基于嵌入的检索作为初始过滤器,我们实现了高效的可扩展性,同时保持语义相关性。A-MEM 可以在大型记忆集合中快速识别潜在连接,而无需进行详尽比较。更重要的是,LLM 驱动的分析允许对关系进行细致理解,超越简单的相似性度量。"
在为新记忆创建链接后,A-MEM 根据检索到的记忆的文本信息及其与新记忆的关系进行更新。随着时间推移添加更多记忆,这个过程完善了系统的知识结构,使其能够在记忆中发现更高阶的模式和概念。
在每次交互中,A-MEM 使用上下文感知记忆检索为代理提供相关的历史信息。给定新的提示,A-MEM 首先使用与记忆笔记相同的机制计算其嵌入值。系统使用这个嵌入从记忆存储中检索最相关的记忆,并用上下文信息增强原始提示,帮助代理更好地理解和响应当前交互。
研究人员写道:"检索到的上下文通过将当前交互与存储在记忆系统中的相关过去经验和知识连接起来,丰富了代理的推理过程。"
A-MEM 实践
研究人员在 LoCoMo(一个跨越多个会话的超长对话数据集)上测试了 A-MEM。LoCoMo 包含具有挑战性的任务,如需要跨多个聊天会话综合信息的多跳问题,以及需要理解时间相关信息的推理问题。该数据集还包含需要将对话中的上下文信息与外部知识整合的知识问题。
实验表明,A-MEM 在大多数任务类别中都优于其他基线代理记忆技术,特别是在使用开源模型时。值得注意的是,研究人员表示,A-MEM 在降低推理成本的同时实现了更优的性能,回答问题时所需的 token 数量最多减少了 10 倍。
随着 LLM 代理被整合到跨不同领域和子系统的复杂企业工作流程中,有效的记忆管理正成为核心需求。A-MEM(其代码可在 GitHub 上获取)是支持企业构建具有增强记忆功能的 LLM 代理的框架之一。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。