Databricks推出MemAlign框架优化大语言模型评估效率

Databricks的Mosaic AI研究团队在其MLflow服务中新增MemAlign框架，旨在降低基于LLM的判断器训练成本和延迟。该框架采用双重记忆系统，用基于人类专家反馈的记忆驱动对齐替代暴力重训练方式。MemAlign将知识分为语义记忆和情节记忆，能够快速适应新领域评估标准。测试显示其效率与标注数据集相当，有助企业更好地治理和评估AI系统行为。

Databricks的Mosaic AI研究团队为其托管式机器学习和生成式AI生命周期开发服务MLflow新增了MemAlign框架。

MemAlign框架专为帮助企业降低训练基于大语言模型的评判器的成本和延迟而设计，从而使AI评估在生产环境部署中更具可扩展性和可信度。

解决企业评估瓶颈

据研究团队介绍，这一新框架解决了当前大多数企业面临的关键瓶颈：即使对智能体系统快速部署的需求持续增长，企业仍难以高效评估和治理智能体系统或驱动它们的大语言模型的行为。

传统的基于大语言模型的评判器训练方法依赖大型标注数据集、重复微调或基于提示的启发式方法，这些方法维护成本高昂，且在模型、提示和业务需求变化时适应缓慢。

因此，AI评估通常仍然依赖手动和周期性的方式，限制了企业安全迭代和大规模部署模型的能力。

双重内存系统创新

相比之下，MemAlign采用双重内存系统，用基于人类专家反馈的内存驱动对齐方式替代暴力重训练方法，虽然所需的人类专家数量和频次比传统训练方法更少。

MemAlign不是在大型数据集上重复微调模型，而是将知识分离为两部分：语义内存用于捕获通用评估原则，情境内存则根据具体用例存储专家用自然语言表达的任务特定反馈。

这使得大语言模型评判器能够使用少量人类反馈快速适应新领域或评估标准，同时在各项任务中保持一致性。

这种方法减少了达到更高效、更稳定判断水平所需的延迟和成本，使其在企业应用中更具实用性。

在Databricks控制的测试中，MemAlign能够展现出与标注数据集相同的效率。

行业专家积极评价

分析师预计这一新框架将为企业及其开发团队带来益处。

HyperFRAME Research AI堆栈实践负责人Stephanie Walter表示："对于开发者来说，MemAlign有助于减少脆弱的提示工程陷阱，即修复一个错误往往会破坏其他三个功能。它为反馈提供删除或覆写功能。如果业务策略发生变化，开发者可以更新或覆写相关反馈，而无需重新启动对齐过程。"

Walter提到的是框架的情境内存，它以高度可扩展的向量数据库形式存储，能够以最小的检索延迟处理数百万个反馈示例。

Moor Insights and Strategy首席分析师Robert Kramer认为，保持基于大语言模型的评判器与变化的业务需求对齐的能力是至关重要的，因为它不会破坏生产系统的稳定性，这对企业在智能体系统规模化过程中尤为重要。

未来集成计划

Databricks发言人向InfoWorld透露，公司可能很快将MemAlign嵌入到其AI驱动的智能体开发界面Agent Bricks中。

公司认为新框架在评估和治理基于该界面构建的智能体方面，将比之前推出的功能更加高效，如Agent-as-a-Judge、可调节评判器和评判器构建器等。

去年11月预览的评判器构建器是一个可视化界面，用于利用领域专家的专业知识创建和调优大语言模型评判器，并使用Agent-as-a-Judge功能提供智能体轨迹洞察，使评估更加准确。

发言人表示："虽然评判器构建器可以整合领域专家反馈来调整其行为，但目前这一对齐步骤成本高昂，需要大量人类反馈。"

"MemAlign很快将在评判器构建器中提供，用户将能够更快、更经济地构建和迭代他们的评判器。"

Q&A

Q1：MemAlign框架是什么？它解决了什么问题？

A：MemAlign是Databricks为MLflow新增的框架，专门用于降低训练基于大语言模型评判器的成本和延迟。它解决了企业在评估智能体系统时面临的效率瓶颈，传统方法需要大量标注数据和重复微调，成本高且适应性差。

Q2：MemAlign的双重内存系统是如何工作的？

A：MemAlign将知识分为两部分：语义内存捕获通用评估原则，情境内存存储专家用自然语言表达的任务特定反馈。这样大语言模型评判器可以用少量人类反馈快速适应新领域，同时在各任务中保持一致性。

Q3：MemAlign相比传统方法有什么优势？

A：MemAlign避免了在大数据集上重复微调模型的需要，用内存驱动对齐替代暴力重训练，大幅降低了成本和延迟。在测试中显示出与标注数据集相同的效率，且能快速适应业务需求变化而不影响生产系统稳定性。

来源：InfoWorld

0赞

好文章，需要你的鼓励

Databricks推出MemAlign框架优化大语言模型评估效率

来源：InfoWorld

2026

02/12

09:10

分享

点赞

微软量子计算突破遭学界质疑，Majorana芯片成果存疑

联想乐享正式升级至4.0版本 全面进入“AI闭环执行任务”时代

开创电气越南基地形成80万台手持式电动工具年产能力

一次实验室意外或将彻底改变计算领域

借鉴生态学模型评估AI风险的新方法

苹果大幅上调硬件价格，AI内存需求是主因

Omen AI融资3100万美元，用微型光谱仪破解数据中心液冷难题

苹果涨价背后：AI军备竞赛让消费者买单

AI蔓延与Token消耗正在加剧企业IT超支问题

爆品之后：新消费品牌如何用数字化穿越增长瓶颈？

美国多源电子患者数据采集方法研究综述

RF MEMS技术如何最终实现"理想开关"

停用ChatGPT默认设置：7个调整让它成为专业工具

人工智能已成英国金融业关键连接组织

HPE助力2026年冬奥会网络基础设施建设

开放计算项目与IOWN合作设计分布式数据中心

Visual Studio Code 1.109更新重点强化智能体功能

红帽为英国国防部构建统一AI与边缘部署架构

人工智能在实际应用中暴露出虚假信息问题

前谷歌员工打造视频数据理解基础设施平台

Anthropic公司Claude Opus 4.6模型花费两万美元尝试编写C编译器

Cadence推出AI智能体自动化芯片设计验证流程

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

《AI启示录》新华三《数字化领航》AI系列专刊

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

联想乐享正式升级至4.0版本全面进入“AI闭环执行任务”时代