微软新的 AI 代理可以控制软件和机器人

微软推出了一款名为Magma的集成AI基础模型，能够处理视觉和语言信息，并能控制软件界面和机器人系统。这项突破性技术整合了感知和控制能力，有望成为在现实和数字空间中交互的多功能多模态AI的重要进展。Magma的开发标志着AI向着更智能、更自主的方向迈进，为未来AI助手的应用开辟了新的可能性。

周三，微软研究院推出了 Magma，这是一个集成的 AI 基础模型，结合了视觉和语言处理能力，可以控制软件界面和机器人系统。如果这些结果在微软内部测试之外依然有效，这可能标志着一个支持多模态的通用 AI 在现实和数字空间中进行交互操作的重要进展。

微软声称，Magma 是第一个不仅能处理多模态数据 (如文本、图像和视频)，还能对其进行原生操作的 AI 模型——无论是导航用户界面还是操控物理对象。该项目是微软、KAIST、马里兰大学、威斯康星麦迪逊大学和华盛顿大学研究人员合作的成果。

我们已经见过其他基于大语言模型的机器人项目，如 Google 的 PALM-E 和 RT-2，或微软的 ChatGPT for Robotics，它们都将大语言模型用作接口。然而，与许多需要单独模型来进行感知和控制的传统多模态 AI 系统不同，Magma 将这些能力整合到一个基础模型中。

微软将 Magma 定位为朝着代理式 AI 迈出的一步，这意味着系统可以代表人类自主制定计划并执行多步骤任务，而不仅仅是回答关于所见内容的问题。

微软在其研究论文中写道："给定一个描述性目标，Magma 能够制定计划并执行行动来实现它。通过有效地从免费获取的视觉和语言数据中转移知识，Magma 将语言、空间和时间智能结合起来，以应对复杂的任务和场景。"

微软并不是唯一追求代理式 AI 的公司。OpenAI 一直在通过 Operator 等项目实验 AI 代理，该项目可以在网页浏览器中执行 UI 任务，而 Google 则通过 Gemini 2.0 探索多个代理项目。

空间智能

虽然 Magma 建立在基于 Transformer 的大语言模型技术之上，将训练 Token 输入神经网络，但它与传统的视觉语言模型 (如 GPT-4V) 不同，它超越了所谓的"语言智能"，还包括"空间智能" (规划和行动执行)。通过对图像、视频、机器人数据和 UI 交互的混合训练，微软声称 Magma 是一个真正的多模态代理，而不仅仅是一个感知模型。

Magma 模型引入了两个技术组件：Set-of-Mark，通过为交互元素（如 UI 中的可点击按钮或机器人工作空间中的可抓取物体）分配数字标签来识别可在环境中操作的对象；以及 Trace-of-Mark，用于从视频数据中学习移动模式。微软表示，这些功能使模型能够完成导航用户界面或指导机器人手臂抓取物体等任务。

微软 Magma 研究员 Jianwei Yang 在 Hacker News 的评论中解释说，"Magma"代表"M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch)"，这是因为有人指出"Magma"已经被一个现有的矩阵代数库使用，可能会在技术讨论中造成混淆。

相比之前模型的改进

在 Magma 的介绍中，微软声称 Magma-8B 在各项基准测试中表现出色，在 UI 导航和机器人操作任务中展现了强大的结果。

例如，它在 VQAv2 视觉问答基准测试中得分为 80.0，高于 GPT-4V 的 77.2，但低于 LLaVA-Next 的 81.8。它在 POPE 测试中的得分为 87.4，领先所有对比模型。在机器人操作方面，Magma 据报道在多个机器人操作任务中表现优于开源视觉语言动作模型 OpenVLA。

一如既往，我们对 AI 基准测试持谨慎态度，因为许多测试尚未经过科学验证，无法证明其能够测量 AI 模型的有用特性。一旦其他研究人员能够访问公开发布的代码，对微软的基准测试结果进行外部验证就成为可能。

与所有 AI 模型一样，Magma 并非完美。根据微软的文档，它在需要随时间推移进行多个步骤的复杂决策方面仍然面临技术限制。该公司表示，将通过持续研究来改进这些能力。

Yang 表示，微软将在下周在 GitHub 上发布 Magma 的训练和推理代码，允许外部研究人员在此基础上继续研究。如果 Magma 实现其承诺，它可能会推动微软的 AI 助手超越有限的文本交互，使其能够自主操作软件并通过机器人执行现实世界的任务。

Magma 也表明 AI 文化可以如何快速变化。就在几年前，这种代理式的讨论还让许多人感到恐惧，他们担心这可能导致 AI 接管世界。虽然一些人仍然担心这种结果，但在 2025 年，AI 代理已成为主流 AI 研究的常见话题，而且这种研究的进行通常不会引发暂停所有 AI 开发的呼声。

来源：Arstechnica

0赞

好文章，需要你的鼓励

微软新的 AI 代理可以控制软件和机器人

来源：Arstechnica

2025

02/21

16:30

分享

点赞

智能体驱动全球创新浪潮，微软携手前沿伙伴迈进消费电子新未来

达索系统在CES 2026上展示AI驱动的医疗创新， 重塑精准、可预测与个性化医疗

Arm 发布 20 项技术预测：洞见 2026 年及未来发

美光推出全球首款面向客户端计算的 PCIe 5.0 QLC SSD

SanDisk重塑经典SSD品牌：WD Black和Blue正式更名为Optimus系列

福特汽车准备在车载系统中引入AI智能助手

ChatGPT推出健康模式：结合医疗数据提供个性化建议

福特推出AI数字助理及新一代BlueCruise自动驾驶技术

联想Legion Pro可卷曲概念机展现移动大屏游戏新体验

印度和新加坡在智能体AI采用方面超越全球同行

华硕CES 2026新品：更小巧的ProArt GoPro笔记本和升级版Zenbook Duo

n8n警告CVSS满分漏洞影响自托管和云版本

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

达索系统在CES 2026上展示AI驱动的医疗创新，重塑精准、可预测与个性化医疗