AutoGluon助手：多智能体协作实现零代码AutoML

在2024年Kaggle自动机器学习大奖赛中，我们的全自动框架获得第10名，是唯一获得积分的自动化代理。AutoGluon助手基于MLZero多智能体系统，通过自然语言描述即可生成训练好的机器学习模型，支持表格、图像、文本和时间序列数据。系统在多模态AutoML基准测试中达到92%成功率，在MLE-bench Lite上达到86%成功率。该系统消除了编程障碍，真正实现机器学习民主化。

在2024年Kaggle AutoML大奖赛上，这是一项奖金75,000美元的竞赛，汇集了数百支队伍，包括顶级AutoML从业者和Kaggle大师级选手，我们的全自动框架获得第10名，成为竞赛中唯一获得积分的自动化智能体。这一成就验证了我们一直在探索的问题：我们能否不仅消除AutoML中通常涉及的模型选择和超参数调优，还能消除编码本身？

自动机器学习的承诺一直是普及化。然而，大多数AutoML工具仍要求用户编写代码、准备数据结构并理解机器学习工作流程。对于没有编程背景的领域专家——分析实验数据的科学家、构建预测模型的分析师，或处理图像集合的研究人员——这种编码要求造成了不必要的障碍。

我们设计AutoGluon助手来消除这一障碍。该系统基于MLZero构建，这是一个由大语言模型驱动的新型多智能体系统，AutoGluon助手能够将自然语言描述转换为跨表格、图像、文本和时间序列数据的训练好的机器学习模型。该系统在我们的多模态AutoML智能体基准测试中实现了92%的成功率，在外部MLE-bench Lite测试中达到86%的成功率，在成功率和解决方案质量方面都表现领先。

多智能体架构解决现实世界的机器学习挑战

传统的AutoML工具假设输入是干净、结构化的，用户能够正确调用API。而现实世界的机器学习问题始于更复杂的情况：模糊的数据文件、不明确的任务定义，以及可能不知道自己需要分类还是回归的用户。MLZero通过多智能体架构解决这个问题，其中由亚马逊Bedrock的大语言模型驱动的专业组件协作，将原始输入转换为可行的解决方案。

例如，考虑一位医学研究人员上传带有分割掩码的胸部X光图像，将目标描述为"在X光片中定位疾病区域"。感知模块识别出这是像素级分割任务，语义记忆选择AutoGluon的MultiModalPredictor进行语义分割，迭代编码模块生成并完善代码。当初始尝试遇到掩码格式不兼容问题时，情节记忆提供调试上下文来调整预处理和后处理，成功训练出分割模型——研究人员无需编写任何代码。

该系统包含四个核心模块：感知、语义记忆、情节记忆和迭代编码。感知模块解释任意数据输入，解析文件结构和内容以构建结构化理解，无论格式不一致或命名模糊。当用户提供没有明确目标变量指示的CSV文件时，感知模块分析列分布和语义来推断任务结构。

语义记忆模块通过机器学习库的知识丰富系统，维护关于AutoGluon能力、API模式和最佳实践的结构化信息。语义记忆使系统能够根据任务特征选择适当的工具，而不需要用户知道语义分割任务需要在AutoGluon Multimodal中使用SAM模型。

情节记忆维护按时间顺序的执行记录，跟踪系统尝试过什么、什么成功了、什么失败了。当代码执行产生错误时，该模块通过显示相关的先前尝试及其结果来提供调试上下文。这解决了机器学习开发的迭代性质，解决方案通过完善而不是完整出现。

迭代编码模块实现了具有反馈循环和增强记忆的改进过程。生成的代码执行，产生结果或错误，并为后续尝试提供信息。这个过程持续到成功执行或达到最大迭代限制，需要时可选择每次迭代的用户输入进行指导。该架构在保持高度自动化的同时保留了人工监督的灵活性。

通过这个综合系统，MLZero弥合了嘈杂原始数据与复杂机器学习解决方案之间的差距。多智能体协作模式在各种模态中都被证明是有效的，因为该架构分离了在单智能体系统中传统上交织的关注点——理解数据、了解能力、跟踪历史和生成代码。

基准测试验证系统性能

为了根据既定的外部标准验证我们的系统，我们首先在MLE-bench Lite上进行了评估。该基准测试由来自以往Kaggle竞赛的21个不同挑战组成，允许我们直接将模型性能与其他领先自动化系统进行比较。我们的模型达到了最高成功率86%，意味着它成功完成并提交了21个挑战中18个的有效解决方案。它在整体解决方案质量方面获得第一名，平均排名为1.43，而第二名智能体为2.36。我们的智能体赢得了六枚金牌，在基准测试的挑战中总奖牌数超过了所有竞争对手。

在现有基准测试上证明模型能力后，我们在自己的多模态AutoML智能体基准测试上进一步测试，这是一个更具挑战性的测试套件，包含25个不同的任务，数据集处理程度较低，数据更接近原始形式，噪声更多、格式不一致性和模糊性更大。该基准测试包含多种数据模态（表格、图像、文本、文档）和问题类型（分类、回归、检索、语义分割）以及具有挑战性的数据结构（多语言、多表格和大规模数据集）。AutoGluon助手（作为MLZero）在所有任务中实现了92%的成功率。当使用紧凑的80亿参数大语言模型实现时，系统仍实现了45.3%的成功率，比许多更大、更消耗资源的智能体更有效。

灵活的集成与协作

AutoGluon助手支持多种交互模式以适应不同的用户偏好和工作流程。用户可以通过命令行界面调用系统进行快速自动化任务，通过Python API集成到现有数据管道中，通过Web UI进行可视化交互和监控，或者使用模型上下文协议(MCP)将其与其他智能体工具集成。这种灵活性确保无论用户偏好脚本、图形界面还是程序化控制，都能访问相同的底层自动化功能。

系统还支持可选的每次迭代用户输入，允许领域专家在迭代改进过程中注入专业知识，同时保持日常使用的自动化。例如，在处理医学影像数据时，专家可能会指导系统采用特定于其扫描协议的自定义标准化。情节记忆跟踪这些干预以及系统生成的尝试，创造了一个协作动态，其中自动化处理机械复杂性，而用户在拥有相关见解时提供战略指导。

该系统是开源的，可在Github上获得，技术细节发表在我们的NeurIPS 2025论文中。

Q&A

Q1：AutoGluon助手是什么？它能做什么？

A：AutoGluon助手是基于MLZero的零代码自动机器学习系统，由大语言模型驱动的多智能体协作架构构建。它能够将自然语言描述直接转换为训练好的机器学习模型，支持表格、图像、文本和时间序列等多种数据类型，无需用户编写任何代码。

Q2：MLZero的多智能体架构是如何工作的？

A：MLZero包含四个核心模块：感知模块解释数据输入和任务定义；语义记忆模块存储机器学习库知识；情节记忆模块跟踪执行历史；迭代编码模块生成和完善代码。这些模块协作将原始数据转换为完整的机器学习解决方案。

Q3：AutoGluon助手在基准测试中表现如何？

A：在MLE-bench Lite基准测试中，AutoGluon助手达到86%的成功率，获得第一名；在多模态AutoML智能体基准测试中达到92%成功率。即使使用80亿参数的紧凑模型，仍能实现45.3%的成功率，超越许多大型智能体系统。

来源：Amazon Science

0赞

好文章，需要你的鼓励

AutoGluon助手：多智能体协作实现零代码AutoML

来源：Amazon Science

2026

01/22

09:19

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

构建可靠AI智能体的幕后工作

平衡AI成本效益与数据主权的挑战

AI助力托管安全服务商降本增效实战分享

高管无视AI泡沫担忧，坚定推进技术采用计划

维基百科志愿者创建AI写作特征库，现推出插件帮助规避检测

微软CEO重新定义AI主权：关键在控制权而非数据中心位置

CIO如何解锁人工智能战略价值并实施落地

机器学习模型部署需超越聚合指标评估

AI如何优化电网：三个关键问题解析

Datarails获7000万美元融资，为Excel财务注入AI智能

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会