微软新的 AI 代理可以控制软件和机器人

微软推出了一款名为Magma的集成AI基础模型，能够处理视觉和语言信息，并能控制软件界面和机器人系统。这项突破性技术整合了感知和控制能力，有望成为在现实和数字空间中交互的多功能多模态AI的重要进展。Magma的开发标志着AI向着更智能、更自主的方向迈进，为未来AI助手的应用开辟了新的可能性。

周三，微软研究院推出了 Magma，这是一个集成的 AI 基础模型，结合了视觉和语言处理能力，可以控制软件界面和机器人系统。如果这些结果在微软内部测试之外依然有效，这可能标志着一个支持多模态的通用 AI 在现实和数字空间中进行交互操作的重要进展。

微软声称，Magma 是第一个不仅能处理多模态数据 (如文本、图像和视频)，还能对其进行原生操作的 AI 模型——无论是导航用户界面还是操控物理对象。该项目是微软、KAIST、马里兰大学、威斯康星麦迪逊大学和华盛顿大学研究人员合作的成果。

我们已经见过其他基于大语言模型的机器人项目，如 Google 的 PALM-E 和 RT-2，或微软的 ChatGPT for Robotics，它们都将大语言模型用作接口。然而，与许多需要单独模型来进行感知和控制的传统多模态 AI 系统不同，Magma 将这些能力整合到一个基础模型中。

微软将 Magma 定位为朝着代理式 AI 迈出的一步，这意味着系统可以代表人类自主制定计划并执行多步骤任务，而不仅仅是回答关于所见内容的问题。

微软在其研究论文中写道："给定一个描述性目标，Magma 能够制定计划并执行行动来实现它。通过有效地从免费获取的视觉和语言数据中转移知识，Magma 将语言、空间和时间智能结合起来，以应对复杂的任务和场景。"

微软并不是唯一追求代理式 AI 的公司。OpenAI 一直在通过 Operator 等项目实验 AI 代理，该项目可以在网页浏览器中执行 UI 任务，而 Google 则通过 Gemini 2.0 探索多个代理项目。

空间智能

虽然 Magma 建立在基于 Transformer 的大语言模型技术之上，将训练 Token 输入神经网络，但它与传统的视觉语言模型 (如 GPT-4V) 不同，它超越了所谓的"语言智能"，还包括"空间智能" (规划和行动执行)。通过对图像、视频、机器人数据和 UI 交互的混合训练，微软声称 Magma 是一个真正的多模态代理，而不仅仅是一个感知模型。

Magma 模型引入了两个技术组件：Set-of-Mark，通过为交互元素（如 UI 中的可点击按钮或机器人工作空间中的可抓取物体）分配数字标签来识别可在环境中操作的对象；以及 Trace-of-Mark，用于从视频数据中学习移动模式。微软表示，这些功能使模型能够完成导航用户界面或指导机器人手臂抓取物体等任务。

微软 Magma 研究员 Jianwei Yang 在 Hacker News 的评论中解释说，"Magma"代表"M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch)"，这是因为有人指出"Magma"已经被一个现有的矩阵代数库使用，可能会在技术讨论中造成混淆。

相比之前模型的改进

在 Magma 的介绍中，微软声称 Magma-8B 在各项基准测试中表现出色，在 UI 导航和机器人操作任务中展现了强大的结果。

例如，它在 VQAv2 视觉问答基准测试中得分为 80.0，高于 GPT-4V 的 77.2，但低于 LLaVA-Next 的 81.8。它在 POPE 测试中的得分为 87.4，领先所有对比模型。在机器人操作方面，Magma 据报道在多个机器人操作任务中表现优于开源视觉语言动作模型 OpenVLA。

一如既往，我们对 AI 基准测试持谨慎态度，因为许多测试尚未经过科学验证，无法证明其能够测量 AI 模型的有用特性。一旦其他研究人员能够访问公开发布的代码，对微软的基准测试结果进行外部验证就成为可能。

与所有 AI 模型一样，Magma 并非完美。根据微软的文档，它在需要随时间推移进行多个步骤的复杂决策方面仍然面临技术限制。该公司表示，将通过持续研究来改进这些能力。

Yang 表示，微软将在下周在 GitHub 上发布 Magma 的训练和推理代码，允许外部研究人员在此基础上继续研究。如果 Magma 实现其承诺，它可能会推动微软的 AI 助手超越有限的文本交互，使其能够自主操作软件并通过机器人执行现实世界的任务。

Magma 也表明 AI 文化可以如何快速变化。就在几年前，这种代理式的讨论还让许多人感到恐惧，他们担心这可能导致 AI 接管世界。虽然一些人仍然担心这种结果，但在 2025 年，AI 代理已成为主流 AI 研究的常见话题，而且这种研究的进行通常不会引发暂停所有 AI 开发的呼声。

来源：Arstechnica

0赞

好文章，需要你的鼓励

微软新的 AI 代理可以控制软件和机器人

来源：Arstechnica

2025

02/21

16:30

分享

点赞

Xbox 的 Muse AI 计划：预见未来而非迎合当下

Sonar 收购 AutoCodeRover，通过自主 AI 代理增强代码质量工具

AI 如何重塑数据中心：电力、制冷和基础设施挑战

2025年云计算与AI：塑造应用开发未来的五大趋势

AI 优化公有云服务商 Together AI 完成 3.05 亿美元融资

测试时扩展如何释放小型语言模型的隐藏推理能力 (并让它们超越大语言模型的表现)

微软新的 AI 代理可以控制软件和机器人

《网络数据安全管理条例》正式施行，企业数据保护合规如何落地？

博通创始人HENRY SAMUELI获得荣誉勋章

终端侧AI，如何从DeepSeek的连锁反应中受益？

谷歌将 Circle to Search 类似功能引入 iPhone 的 Google 和 Chrome 应用

KDE Plasma 6.3 发布，6.3.1 紧随其后

谷歌将 Circle to Search 类似功能引入 iPhone 的 Google 和 Chrome 应用

Stytch 创新：Connected Apps 为 AI 代理解决授权难题

Elon Musk 的 xAI 为 Grok-3 增添"大脑"推理能力

DeepTempo 任命首位销售副总裁推广 AI 日志安全业务

Voltron Data 与埃森哲合作，解决 AI 领域最棘手的难题之一

ChatGPT 周活跃用户突破 4 亿，GPT-5 即将发布

DDN 发布 Infinia 2.0 对象存储，加速 AI 数据流水线

4种利用混合智能超越传统DEI议程的方法

未来的 AI 是...模拟计算？初创公司获得 1 亿美元投资，推进低功耗 GPU 级芯片

Grok 3：可能重新定义 AI 行业的模型剖析

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2025：沉浸AI

大模型落地，你还缺怎样的“工具箱”？

2024 AI创新者大会

智算“筑基”AI未来

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: