周三,微软研究院推出了 Magma,这是一个集成的 AI 基础模型,结合了视觉和语言处理能力,可以控制软件界面和机器人系统。如果这些结果在微软内部测试之外依然有效,这可能标志着一个支持多模态的通用 AI 在现实和数字空间中进行交互操作的重要进展。
微软声称,Magma 是第一个不仅能处理多模态数据 (如文本、图像和视频),还能对其进行原生操作的 AI 模型——无论是导航用户界面还是操控物理对象。该项目是微软、KAIST、马里兰大学、威斯康星麦迪逊大学和华盛顿大学研究人员合作的成果。
我们已经见过其他基于大语言模型的机器人项目,如 Google 的 PALM-E 和 RT-2,或微软的 ChatGPT for Robotics,它们都将大语言模型用作接口。然而,与许多需要单独模型来进行感知和控制的传统多模态 AI 系统不同,Magma 将这些能力整合到一个基础模型中。
微软将 Magma 定位为朝着代理式 AI 迈出的一步,这意味着系统可以代表人类自主制定计划并执行多步骤任务,而不仅仅是回答关于所见内容的问题。
微软在其研究论文中写道:"给定一个描述性目标,Magma 能够制定计划并执行行动来实现它。通过有效地从免费获取的视觉和语言数据中转移知识,Magma 将语言、空间和时间智能结合起来,以应对复杂的任务和场景。"
微软并不是唯一追求代理式 AI 的公司。OpenAI 一直在通过 Operator 等项目实验 AI 代理,该项目可以在网页浏览器中执行 UI 任务,而 Google 则通过 Gemini 2.0 探索多个代理项目。
空间智能
虽然 Magma 建立在基于 Transformer 的大语言模型技术之上,将训练 Token 输入神经网络,但它与传统的视觉语言模型 (如 GPT-4V) 不同,它超越了所谓的"语言智能",还包括"空间智能" (规划和行动执行)。通过对图像、视频、机器人数据和 UI 交互的混合训练,微软声称 Magma 是一个真正的多模态代理,而不仅仅是一个感知模型。
Magma 模型引入了两个技术组件:Set-of-Mark,通过为交互元素(如 UI 中的可点击按钮或机器人工作空间中的可抓取物体)分配数字标签来识别可在环境中操作的对象;以及 Trace-of-Mark,用于从视频数据中学习移动模式。微软表示,这些功能使模型能够完成导航用户界面或指导机器人手臂抓取物体等任务。
微软 Magma 研究员 Jianwei Yang 在 Hacker News 的评论中解释说,"Magma"代表"M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch)",这是因为有人指出"Magma"已经被一个现有的矩阵代数库使用,可能会在技术讨论中造成混淆。
相比之前模型的改进
在 Magma 的介绍中,微软声称 Magma-8B 在各项基准测试中表现出色,在 UI 导航和机器人操作任务中展现了强大的结果。
例如,它在 VQAv2 视觉问答基准测试中得分为 80.0,高于 GPT-4V 的 77.2,但低于 LLaVA-Next 的 81.8。它在 POPE 测试中的得分为 87.4,领先所有对比模型。在机器人操作方面,Magma 据报道在多个机器人操作任务中表现优于开源视觉语言动作模型 OpenVLA。
一如既往,我们对 AI 基准测试持谨慎态度,因为许多测试尚未经过科学验证,无法证明其能够测量 AI 模型的有用特性。一旦其他研究人员能够访问公开发布的代码,对微软的基准测试结果进行外部验证就成为可能。
与所有 AI 模型一样,Magma 并非完美。根据微软的文档,它在需要随时间推移进行多个步骤的复杂决策方面仍然面临技术限制。该公司表示,将通过持续研究来改进这些能力。
Yang 表示,微软将在下周在 GitHub 上发布 Magma 的训练和推理代码,允许外部研究人员在此基础上继续研究。如果 Magma 实现其承诺,它可能会推动微软的 AI 助手超越有限的文本交互,使其能够自主操作软件并通过机器人执行现实世界的任务。
Magma 也表明 AI 文化可以如何快速变化。就在几年前,这种代理式的讨论还让许多人感到恐惧,他们担心这可能导致 AI 接管世界。虽然一些人仍然担心这种结果,但在 2025 年,AI 代理已成为主流 AI 研究的常见话题,而且这种研究的进行通常不会引发暂停所有 AI 开发的呼声。
好文章,需要你的鼓励
西部数据闪存业务分拆后,SanDisk宣布将停用广受欢迎的WD Black和Blue品牌,推出全新的SanDisk Optimus系列NVMe产品线。WD Blue驱动器将更名为SanDisk Optimus,而高端WD Black驱动器将分别更名为Optimus GX和GX Pro。尽管品牌变更,底层硬件和供应链保持不变。然而受全球内存短缺影响,预计2026年第一季度客户端SSD价格可能上涨超过40%。
上海AI实验室开发RePro训练方法,通过将AI推理过程类比为优化问题,教会AI避免过度思考。该方法通过评估推理步骤的进步幅度和稳定性,显著提升了模型在数学、科学和编程任务上的表现,准确率提升5-6个百分点,同时大幅减少无效推理,为高效AI系统发展提供新思路。
福特汽车在2026年消费电子展上宣布将在车辆中引入AI助手技术。该AI助手最初将在福特和林肯智能手机应用中推出,从2027年开始成为新车型的原生功能。福特希望通过AI技术实现车辆个性化体验,提供基于位置、行为和车辆能力的智能服务。同时,福特将采用软件定义车辆架构,推出自研的高性能计算中心,提升信息娱乐、驾驶辅助等功能。
MIT团队开发的VLASH技术首次解决了机器人动作断续、反应迟缓的根本问题。通过"未来状态感知"让机器人边执行边思考,实现了最高2.03倍的速度提升和17.4倍的反应延迟改善,成功展示了机器人打乒乓球等高难度任务,为机器人在动态环境中的应用开辟了新可能性。