微软公司在旧金山举行的Build年度开发者大会上宣布了一系列重要更新,涵盖AI模型扩展与智能体AI基础设施,旨在为开发者和企业用户在部署过程中提供更丰富的数据与上下文支持。
微软IQ正式发布
此次大会上,微软将Microsoft IQ正式推向市场。这是一个统一智能层,专为让AI智能体和微软Copilot具备上下文感知能力并根据组织需求实现个性化而设计。与通用聊天机器人不同,Microsoft IQ通过将基础模型与企业深层数据和业务逻辑相连接,从而有效减少模型幻觉问题。
Microsoft IQ包含多个核心组件。Work IQ是面向智能体的智能层,能够捕捉用户在Microsoft 365中的工作方式,整合企业内外部信息源,涵盖人员、邮件、文档和会议等内容及其相互关系。Work IQ的API接口将于6月16日开放,为智能体提供数据直接访问能力。Fabric IQ基于Microsoft Fabric托管,提供语义数据基础,充当"本体论"角色,用于组织结构化业务数据。Foundry IQ则通过从维基、政策文件、合同及实时网络等非结构化文档中检索信息,将上述组件整合贯通。
此外,微软还发布了该家族的最新成员Web IQ——一款面向智能体的快速真实世界定位工具,基于网页搜索构建,支持多种模型,并原生兼容模型上下文协议(MCP)。微软表示,Web IQ返回相关信息块的速度比次优方案快约2.5倍。
构建智能体AI的"大脑"
智能体的运作依赖AI智能的整合,这也意味着需要持续推进前沿AI模型的能力边界。微软超级智能团队此次发布了由七款自研模型组成的新家族,其中首款推理模型MAI-Thinking-1备受关注。
推理模型会在输出结果前通过链式思考对过程进行"推演"。MAI-Thinking-1拥有350亿活跃参数、12.8万Token上下文窗口,以低Token成本实现高效能表现。微软称,在盲测中,独立评测者对其表现的偏好高于Anthropic公司的Sonnet 4.6,在SWE Bench Pro编程能力测试中也可与Opus 4.6相媲美。
MAI-Thinking-1专为处理复杂多步骤指令、长上下文推理和代码生成而优化,目前已在微软AI Foundry平台以私人预览版形式上线。与此同时,微软还发布了该模型的轻量快速版本(flash variant),以速度与效率为设计核心。
新模型家族中还包括MAI-Image-2.5及其轻量版,支持文本生图与图像生图两种能力,用户不仅可以用语言描述需求,还能直接提供草图或视觉参考图来引导生成效果。该模型已在PowerPoint中上线,并正在OpenDrive上逐步推出。
其他新模型还包括:MAI-Transcribe-1.5,支持43种语言的高精度转录,流式传输功能即将上线;MAI-Voice-2及其轻量版,新增支持超过15种语言,具备复现新语音选项的能力;MAI-Code-1,一款专为GitHub精调的超高效推理编码模型,集成于Copilot和VS Code,面向开发者群体。
此外,微软还推出了代号为"MDASH"的新产品——名称源自对AI系统频繁在生成文本中添加破折号这一现象的调侃。这款多模型智能体安全系统部署了100余个智能体,通过分析数据流动方式、业务逻辑运作机制及漏洞利用链,在开发者门户中以上下文感知的方式发现代码中可被利用的漏洞并提供修复建议。
前沿智能体走向企业用户
常驻自主运行的智能体概念于2025年11月随OpenClaw项目首次亮相,这一开源项目展示了如何通过为AI模型提供"心跳"机制,使其实现持续、专注的工作能力。
在此基础上,微软发布了Scout——一款面向前沿客户的新型个人智能体,支持全时在线运行。Scout基于OpenClaw和Work IQ构建,能够理解用户的工作方式,调用用户计算机及所在组织的现有工具(如Teams和Outlook),并主动处理会议准备、日程冲突和日常事务,无需用户主动发起指令。
与OpenClaw智能体类似,Scout支持本地或云端智能运行,可根据个人需求进行定制,并能自主在本地系统执行任务,逐步适应用户的日常使用习惯。微软表示,随着Scout能力的不断扩展和更广泛的推出,公司将陆续分享更多相关进展。
Q&A
Q1:Microsoft IQ是什么?它和普通聊天机器人有什么区别?
A:Microsoft IQ是微软推出的统一智能层,旨在让AI智能体和Copilot具备上下文感知与组织级个性化能力。与普通聊天机器人不同,它通过将基础模型与企业数据和业务逻辑深度连接,减少模型幻觉问题,并包含Work IQ、Fabric IQ、Foundry IQ和Web IQ等多个组件,覆盖从用户行为到结构化数据再到非结构化文档的全方位信息整合。
Q2:MAI-Thinking-1的性能怎么样?和其他模型比如何?
A:MAI-Thinking-1是微软首款自研推理模型,拥有350亿活跃参数和12.8万Token上下文窗口,专为复杂多步骤指令、长上下文推理和代码生成优化。微软称,在盲测中独立评测者更偏好它而非Anthropic的Sonnet 4.6,并在SWE Bench Pro编程测试中可与Opus 4.6相媲美,目前已在AI Foundry以私人预览版形式上线。
Q3:Scout智能体能做什么?和普通AI助手有何不同?
A:Scout是微软发布的全时在线个人智能体,基于OpenClaw和Work IQ构建。它能主动处理会议准备、日程冲突等日常任务,无需用户每次手动发起指令。Scout支持本地或云端运行,可调用Teams、Outlook等组织工具,并通过学习用户习惯实现个性化定制,是一种更主动、更自主的AI助手形态。
好文章,需要你的鼓励
伊朗裔英国导演Ash Koosha耗时两个半月,以不足2000美元的成本,借助AI技术完成了一部关于伊朗反政府抗议镇压事件的75分钟剧情片《紫罗兰之梦》。该片即将在纽约翠贝卡电影节首映,成为首部入围顶级电影节的全AI真人故事片。导演认为,AI技术可大幅降低独立电影制作门槛,有望重塑整个影视行业格局。
耶路撒冷希伯来大学研究团队提出PhyGenHOI框架,将人体运动生成与物理仿真结合,让虚拟人物与三维物体之间的接触互动同时满足视觉自然性和物理真实性。
MIT与MIT-IBM计算研究实验室联合开发了专为图表理解设计的数据集ChartNet,包含逾百万张多样化图表及对应代码、文字描述、数值表格和问答对。研究团队利用两步合成数据生成流程,从单张图表出发可扩展出数百种变体。实验表明,基于ChartNet训练的小型开源视觉语言模型在数据提取、图表摘要等任务上显著超越体量更大的商业模型,有望帮助预算有限的中小企业低成本接入AI图表分析能力。
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。