Databricks的Mosaic AI研究团队为其托管式机器学习和生成式AI生命周期开发服务MLflow新增了MemAlign框架。
MemAlign框架专为帮助企业降低训练基于大语言模型的评判器的成本和延迟而设计,从而使AI评估在生产环境部署中更具可扩展性和可信度。
解决企业评估瓶颈
据研究团队介绍,这一新框架解决了当前大多数企业面临的关键瓶颈:即使对智能体系统快速部署的需求持续增长,企业仍难以高效评估和治理智能体系统或驱动它们的大语言模型的行为。
传统的基于大语言模型的评判器训练方法依赖大型标注数据集、重复微调或基于提示的启发式方法,这些方法维护成本高昂,且在模型、提示和业务需求变化时适应缓慢。
因此,AI评估通常仍然依赖手动和周期性的方式,限制了企业安全迭代和大规模部署模型的能力。
双重内存系统创新
相比之下,MemAlign采用双重内存系统,用基于人类专家反馈的内存驱动对齐方式替代暴力重训练方法,虽然所需的人类专家数量和频次比传统训练方法更少。
MemAlign不是在大型数据集上重复微调模型,而是将知识分离为两部分:语义内存用于捕获通用评估原则,情境内存则根据具体用例存储专家用自然语言表达的任务特定反馈。
这使得大语言模型评判器能够使用少量人类反馈快速适应新领域或评估标准,同时在各项任务中保持一致性。
这种方法减少了达到更高效、更稳定判断水平所需的延迟和成本,使其在企业应用中更具实用性。
在Databricks控制的测试中,MemAlign能够展现出与标注数据集相同的效率。
行业专家积极评价
分析师预计这一新框架将为企业及其开发团队带来益处。
HyperFRAME Research AI堆栈实践负责人Stephanie Walter表示:"对于开发者来说,MemAlign有助于减少脆弱的提示工程陷阱,即修复一个错误往往会破坏其他三个功能。它为反馈提供删除或覆写功能。如果业务策略发生变化,开发者可以更新或覆写相关反馈,而无需重新启动对齐过程。"
Walter提到的是框架的情境内存,它以高度可扩展的向量数据库形式存储,能够以最小的检索延迟处理数百万个反馈示例。
Moor Insights and Strategy首席分析师Robert Kramer认为,保持基于大语言模型的评判器与变化的业务需求对齐的能力是至关重要的,因为它不会破坏生产系统的稳定性,这对企业在智能体系统规模化过程中尤为重要。
未来集成计划
Databricks发言人向InfoWorld透露,公司可能很快将MemAlign嵌入到其AI驱动的智能体开发界面Agent Bricks中。
公司认为新框架在评估和治理基于该界面构建的智能体方面,将比之前推出的功能更加高效,如Agent-as-a-Judge、可调节评判器和评判器构建器等。
去年11月预览的评判器构建器是一个可视化界面,用于利用领域专家的专业知识创建和调优大语言模型评判器,并使用Agent-as-a-Judge功能提供智能体轨迹洞察,使评估更加准确。
发言人表示:"虽然评判器构建器可以整合领域专家反馈来调整其行为,但目前这一对齐步骤成本高昂,需要大量人类反馈。"
"MemAlign很快将在评判器构建器中提供,用户将能够更快、更经济地构建和迭代他们的评判器。"
Q&A
Q1:MemAlign框架是什么?它解决了什么问题?
A:MemAlign是Databricks为MLflow新增的框架,专门用于降低训练基于大语言模型评判器的成本和延迟。它解决了企业在评估智能体系统时面临的效率瓶颈,传统方法需要大量标注数据和重复微调,成本高且适应性差。
Q2:MemAlign的双重内存系统是如何工作的?
A:MemAlign将知识分为两部分:语义内存捕获通用评估原则,情境内存存储专家用自然语言表达的任务特定反馈。这样大语言模型评判器可以用少量人类反馈快速适应新领域,同时在各任务中保持一致性。
Q3:MemAlign相比传统方法有什么优势?
A:MemAlign避免了在大数据集上重复微调模型的需要,用内存驱动对齐替代暴力重训练,大幅降低了成本和延迟。在测试中显示出与标注数据集相同的效率,且能快速适应业务需求变化而不影响生产系统稳定性。
好文章,需要你的鼓励
购买笔记本电脑时,用户现在需要了解Copilot+ PC、NPU和本地AI处理等新概念。搭载专用神经处理单元(NPU)的Copilot+ PC能提供至少40 TOPS的AI算力,支持实时字幕翻译、视频通话优化、AI图像编辑等功能,同时提升续航表现。戴尔最新产品线涵盖多种选择:Dell 14 Plus适合学生和通勤族,Dell 16 Plus适合多任务办公用户,XPS 14面向轻度创作者,XPS 16则以31小时超长续航和3.6磅轻薄机身成为内容创作者的旗舰之选。
香港科技大学与华为联合提出LISA训练方法,通过让副网络对齐"似然分数",将ControlNet等图像生成模型的训练收敛速度提升逾2.78倍,同时改善图像质量与条件控制精度。
圣安德鲁斯大学博士Henry Legg在《自然》杂志发表同行评审论文,对微软拓扑间隙协议(TGP)框架提出质疑,认为该框架在推断Majorana粒子量子态存在方面存在缺陷,且实验数据分析结论可能有误。微软此前宣称将于2029年实现可扩展量子计算机,并推出Majorana 2芯片。对此,微软坚持立场,表示已发表正式反驳并获《自然》收录,对研发路线图充满信心。
上交大与爱丁堡大学提出InfoKV,将信息熵与注意力权重结合用于KV缓存压缩,让大模型在仅保留12.5%缓存的条件下实现接近甚至超越完整缓存的长推理性能。