微软正在将"氛围编程"概念扩展到工作场景,推出了名为"氛围工作"的新功能,为在线Office套件添加AI智能体来帮助用户完成工作任务。
周一,微软宣布为Word和Excel添加基于OpenAI的智能体模式,该模式可以基于现有材料创建文档,从电子表格中提取数据用于报告和财务分析,用户只需输入几句提示语即可完成。
对于Word用户,微软承诺提供"氛围写作"功能,该功能可以利用现有文档来组装报告和提案,检查草稿的清晰度和风格,并在过程中提出改进建议。
Excel智能体专门设计用于处理现有电子表格并分析数据、构建报告和可视化数据。微软表示,它和OpenAI能够"理解Excel"并产生相对准确的结果。
根据微软官方博客文章,微软Excel智能体模式在既定的SpreadsheetBench基准测试中获得了57.2%的准确率,但这明显低于人类在相同测试中平均71.3%的表现。虽然微软声称智能体模式优于其他AI引擎,但仍存在显著差距,这可能导致更多质量不佳的工作内容充斥我们的收件箱。
微软产品副总裁Trevor O'Brien为这一结果辩护:"我们不是为基准测试而优化,而是为Excel中的真实用户工作而优化。这意味着要解决混乱、模糊和复杂的任务,反映人们实际的工作方式。虽然SpreadsheetBench是一个强有力的信号,但它并不能完全体现Excel的强大功能——比如动态数组、数据透视表、图表和格式设置——或者客户对可刷新、可审核和可验证解决方案的需求。"
微软还在Copilot中推出了新的Office智能体,但使用的是Anthropic而非OpenAI引擎。通过基于聊天的格式,用户可以根据网络上公开可用的信息生成Word文档和PowerPoint演示文稿。
微软亚洲AI企业副总裁张琦声称,生成的幻灯片将是"有品味的",这要归功于代码使用了"品味驱动开发(TDD)范式"。他表示,在通用AI助手(GAIA)基准测试中,Office智能体超越了竞争对手Genspark、Manus和OpenAI自己的Deep research工具。
这是微软一周内第二次展现对Anthropic的青睐。上周三,微软在Copilot Studio和Researcher智能体中添加了Claude Opus 4.1和Sonnet 4作为模型选项,微软还暗示将有更多合作。
这种日益密切的关系表明微软正在远离OpenAI——这家它已投入超过100亿美元的公司。虽然微软有自己的AI开发项目,但它表现出越来越愿意尝试其他选择,甚至将Grok添加到Azure中用于编程目的。
微软于周一为Frontier项目Copilot 365客户在网页版提供Excel和Word的智能体模式,并计划未来将其添加到桌面应用程序中。目前,微软仅向拥有Microsoft 365个人或家庭订阅的美国客户提供Copilot中的Office智能体功能。
Q&A
Q1:微软的"氛围工作"模式是什么功能?
A:微软的"氛围工作"模式是为在线Office套件添加的AI智能体功能,包括Word的"氛围写作"和Excel的数据分析功能。Word智能体可以利用现有文档组装报告和提案,检查草稿并提出改进建议;Excel智能体则能处理电子表格、分析数据、构建报告和可视化数据,用户只需输入简单的提示语即可完成这些任务。
Q2:微软Excel智能体的准确率如何?
A:根据微软官方数据,Excel智能体模式在SpreadsheetBench基准测试中的准确率为57.2%,明显低于人类平均71.3%的表现。微软产品副总裁解释称,他们不是为基准测试而优化,而是为解决真实工作中的复杂任务而设计,基准测试无法完全体现Excel的所有强大功能。
Q3:微软为什么开始使用Anthropic而不是OpenAI?
A:微软在新的Office智能体中使用了Anthropic而非OpenAI引擎,这是微软一周内第二次展现对Anthropic的青睐。这种变化表明微软正在远离OpenAI——尽管已向其投入超过100亿美元。微软展现出越来越愿意尝试其他AI选择的态度,甚至将Grok添加到Azure中用于编程目的。
好文章,需要你的鼓励
研究人员正探索AI能否预测昏迷患者的医疗意愿,帮助医生做出生死决策。华盛顿大学研究员Ahmad正推进首个AI代理人试点项目,通过分析患者医疗数据预测其偏好。虽然准确率可达三分之二,但专家担心AI无法捕捉患者价值观的复杂性和动态变化。医生强调AI只能作为辅助工具,不应替代人类代理人,因为生死决策依赖具体情境且充满伦理挑战。
哥伦比亚大学研究团队开发了MathBode动态诊断工具,通过让数学题参数按正弦波变化来测试AI的动态推理能力。研究发现传统静态测试掩盖了AI的重要缺陷:几乎所有模型都表现出低通滤波特征和相位滞后现象,即在处理快速变化时会出现失真和延迟。该方法覆盖五个数学家族的测试,为AI模型选择和部署提供了新的评估维度。
麻省理工学院研究发现过度依赖AI会导致认知债务,削弱基本思维能力。研究表明交替进行无辅助思考和AI支持工作的模式能保持认知敏锐度。这种认知高强度间歇训练模仿体能训练中的HIIT模式,通过短时间高强度思考与恢复期交替进行,可以强化大脑神经回路,防止认知衰退,提升独立思考能力。
这项研究首次发现AI推理模型存在"雪球效应"问题——推理过程中的小错误会逐步放大,导致AI要么给出危险回答,要么过度拒绝正常请求。研究团队提出AdvChain方法,通过训练AI学习"错误-纠正"过程来获得自我纠错能力。实验显示该方法显著提升了AI的安全性和实用性,用1000个样本达到了传统方法15000个样本的效果,为AI安全训练开辟了新方向。