微软正在将"氛围编程"概念扩展到工作场景,推出了名为"氛围工作"的新功能,为在线Office套件添加AI智能体来帮助用户完成工作任务。
周一,微软宣布为Word和Excel添加基于OpenAI的智能体模式,该模式可以基于现有材料创建文档,从电子表格中提取数据用于报告和财务分析,用户只需输入几句提示语即可完成。
对于Word用户,微软承诺提供"氛围写作"功能,该功能可以利用现有文档来组装报告和提案,检查草稿的清晰度和风格,并在过程中提出改进建议。
Excel智能体专门设计用于处理现有电子表格并分析数据、构建报告和可视化数据。微软表示,它和OpenAI能够"理解Excel"并产生相对准确的结果。
根据微软官方博客文章,微软Excel智能体模式在既定的SpreadsheetBench基准测试中获得了57.2%的准确率,但这明显低于人类在相同测试中平均71.3%的表现。虽然微软声称智能体模式优于其他AI引擎,但仍存在显著差距,这可能导致更多质量不佳的工作内容充斥我们的收件箱。
微软产品副总裁Trevor O'Brien为这一结果辩护:"我们不是为基准测试而优化,而是为Excel中的真实用户工作而优化。这意味着要解决混乱、模糊和复杂的任务,反映人们实际的工作方式。虽然SpreadsheetBench是一个强有力的信号,但它并不能完全体现Excel的强大功能——比如动态数组、数据透视表、图表和格式设置——或者客户对可刷新、可审核和可验证解决方案的需求。"
微软还在Copilot中推出了新的Office智能体,但使用的是Anthropic而非OpenAI引擎。通过基于聊天的格式,用户可以根据网络上公开可用的信息生成Word文档和PowerPoint演示文稿。
微软亚洲AI企业副总裁张琦声称,生成的幻灯片将是"有品味的",这要归功于代码使用了"品味驱动开发(TDD)范式"。他表示,在通用AI助手(GAIA)基准测试中,Office智能体超越了竞争对手Genspark、Manus和OpenAI自己的Deep research工具。
这是微软一周内第二次展现对Anthropic的青睐。上周三,微软在Copilot Studio和Researcher智能体中添加了Claude Opus 4.1和Sonnet 4作为模型选项,微软还暗示将有更多合作。
这种日益密切的关系表明微软正在远离OpenAI——这家它已投入超过100亿美元的公司。虽然微软有自己的AI开发项目,但它表现出越来越愿意尝试其他选择,甚至将Grok添加到Azure中用于编程目的。
微软于周一为Frontier项目Copilot 365客户在网页版提供Excel和Word的智能体模式,并计划未来将其添加到桌面应用程序中。目前,微软仅向拥有Microsoft 365个人或家庭订阅的美国客户提供Copilot中的Office智能体功能。
Q&A
Q1:微软的"氛围工作"模式是什么功能?
A:微软的"氛围工作"模式是为在线Office套件添加的AI智能体功能,包括Word的"氛围写作"和Excel的数据分析功能。Word智能体可以利用现有文档组装报告和提案,检查草稿并提出改进建议;Excel智能体则能处理电子表格、分析数据、构建报告和可视化数据,用户只需输入简单的提示语即可完成这些任务。
Q2:微软Excel智能体的准确率如何?
A:根据微软官方数据,Excel智能体模式在SpreadsheetBench基准测试中的准确率为57.2%,明显低于人类平均71.3%的表现。微软产品副总裁解释称,他们不是为基准测试而优化,而是为解决真实工作中的复杂任务而设计,基准测试无法完全体现Excel的所有强大功能。
Q3:微软为什么开始使用Anthropic而不是OpenAI?
A:微软在新的Office智能体中使用了Anthropic而非OpenAI引擎,这是微软一周内第二次展现对Anthropic的青睐。这种变化表明微软正在远离OpenAI——尽管已向其投入超过100亿美元。微软展现出越来越愿意尝试其他AI选择的态度,甚至将Grok添加到Azure中用于编程目的。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。