周三,微软研究院推出了 Magma,这是一个集成的 AI 基础模型,结合了视觉和语言处理能力,可以控制软件界面和机器人系统。如果这些结果在微软内部测试之外依然有效,这可能标志着一个支持多模态的通用 AI 在现实和数字空间中进行交互操作的重要进展。
微软声称,Magma 是第一个不仅能处理多模态数据 (如文本、图像和视频),还能对其进行原生操作的 AI 模型——无论是导航用户界面还是操控物理对象。该项目是微软、KAIST、马里兰大学、威斯康星麦迪逊大学和华盛顿大学研究人员合作的成果。
我们已经见过其他基于大语言模型的机器人项目,如 Google 的 PALM-E 和 RT-2,或微软的 ChatGPT for Robotics,它们都将大语言模型用作接口。然而,与许多需要单独模型来进行感知和控制的传统多模态 AI 系统不同,Magma 将这些能力整合到一个基础模型中。
微软将 Magma 定位为朝着代理式 AI 迈出的一步,这意味着系统可以代表人类自主制定计划并执行多步骤任务,而不仅仅是回答关于所见内容的问题。
微软在其研究论文中写道:"给定一个描述性目标,Magma 能够制定计划并执行行动来实现它。通过有效地从免费获取的视觉和语言数据中转移知识,Magma 将语言、空间和时间智能结合起来,以应对复杂的任务和场景。"
微软并不是唯一追求代理式 AI 的公司。OpenAI 一直在通过 Operator 等项目实验 AI 代理,该项目可以在网页浏览器中执行 UI 任务,而 Google 则通过 Gemini 2.0 探索多个代理项目。
空间智能
虽然 Magma 建立在基于 Transformer 的大语言模型技术之上,将训练 Token 输入神经网络,但它与传统的视觉语言模型 (如 GPT-4V) 不同,它超越了所谓的"语言智能",还包括"空间智能" (规划和行动执行)。通过对图像、视频、机器人数据和 UI 交互的混合训练,微软声称 Magma 是一个真正的多模态代理,而不仅仅是一个感知模型。
Magma 模型引入了两个技术组件:Set-of-Mark,通过为交互元素(如 UI 中的可点击按钮或机器人工作空间中的可抓取物体)分配数字标签来识别可在环境中操作的对象;以及 Trace-of-Mark,用于从视频数据中学习移动模式。微软表示,这些功能使模型能够完成导航用户界面或指导机器人手臂抓取物体等任务。
微软 Magma 研究员 Jianwei Yang 在 Hacker News 的评论中解释说,"Magma"代表"M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch)",这是因为有人指出"Magma"已经被一个现有的矩阵代数库使用,可能会在技术讨论中造成混淆。
相比之前模型的改进
在 Magma 的介绍中,微软声称 Magma-8B 在各项基准测试中表现出色,在 UI 导航和机器人操作任务中展现了强大的结果。
例如,它在 VQAv2 视觉问答基准测试中得分为 80.0,高于 GPT-4V 的 77.2,但低于 LLaVA-Next 的 81.8。它在 POPE 测试中的得分为 87.4,领先所有对比模型。在机器人操作方面,Magma 据报道在多个机器人操作任务中表现优于开源视觉语言动作模型 OpenVLA。
一如既往,我们对 AI 基准测试持谨慎态度,因为许多测试尚未经过科学验证,无法证明其能够测量 AI 模型的有用特性。一旦其他研究人员能够访问公开发布的代码,对微软的基准测试结果进行外部验证就成为可能。
与所有 AI 模型一样,Magma 并非完美。根据微软的文档,它在需要随时间推移进行多个步骤的复杂决策方面仍然面临技术限制。该公司表示,将通过持续研究来改进这些能力。
Yang 表示,微软将在下周在 GitHub 上发布 Magma 的训练和推理代码,允许外部研究人员在此基础上继续研究。如果 Magma 实现其承诺,它可能会推动微软的 AI 助手超越有限的文本交互,使其能够自主操作软件并通过机器人执行现实世界的任务。
Magma 也表明 AI 文化可以如何快速变化。就在几年前,这种代理式的讨论还让许多人感到恐惧,他们担心这可能导致 AI 接管世界。虽然一些人仍然担心这种结果,但在 2025 年,AI 代理已成为主流 AI 研究的常见话题,而且这种研究的进行通常不会引发暂停所有 AI 开发的呼声。
好文章,需要你的鼓励
谷歌深度思维团队开发出名为MolGen的AI系统,能够像经验丰富的化学家一样自主设计全新药物分子。该系统通过学习1000万种化合物数据,在阿尔茨海默病等疾病的药物设计中表现出色,实际合成测试成功率达90%,远超传统方法。这项技术有望将药物研发周期从10-15年缩短至5-8年,成本降低一半,为患者更快获得新药治疗带来希望。
继苹果和其他厂商之后,Google正在加大力度推广其在智能手机上的人工智能功能。该公司试图通过展示AI在移动设备上的实用性和创新性来吸引消费者关注,希望说服用户相信手机AI功能的价值。Google面临的挑战是如何让消费者真正体验到AI带来的便利,并将这些技术优势转化为市场竞争力。
哈佛医学院和微软公司合作开发了一个能够"听声识病"的AI系统,仅通过分析语音就能预测健康状况,准确率高达92%。该系统基于深度学习技术,能够捕捉声音中与疾病相关的微妙变化,并具备跨语言诊断能力。研究团队已开发出智能手机应用原型,用户只需完成简单语音任务即可获得健康评估,为个性化健康管理开辟了新途径。