微软推出了一系列Microsoft 365新功能,让知识工作者仅通过文本提示就能生成复杂的Word文档或Excel电子表格。微软宣布了两款不同的产品,分别使用不同的模型并从不同工具中访问。
智能体模式内置于Word和Excel中,由OpenAI的GPT-5大语言模型驱动,允许用户通过提示创建复杂的文档和电子表格。之所以称为"智能体"模式,是因为它不仅仅从单一步骤的提示开始工作,而是规划多步骤工作并运行验证循环,以确保质量。
目前该功能只在Word和Excel的网页版中可用,但计划稍后推向原生桌面应用程序。
还有一个名称相似的Copilot办公智能体。基于Anthropic模型,这一功能内置于微软的Copilot AI助手聊天机器人中,同样可以从提示生成文档,具体来说是Word或PowerPoint文件。
办公智能体不像智能体模式那样执行所有步骤,但微软相信它相比之前基于OpenAI的文档生成功能有了显著改进,用户此前抱怨那些功能容易出现各种问题和不足。该功能首先在Microsoft 365订阅者的Frontier计划中提供。
微软表示,这些功能将让知识工作者从事一种被称为"氛围工作"的实践,这是对现已确立的"氛围编程"术语的一种改编。
无处不在的氛围化
氛围编程是完全通过大语言模型聊天机器人提示来开发应用程序的过程。你在聊天界面中解释想要什么,要求它生成相应的代码。然后运行代码,如果有问题,解释问题并要求修复,反复迭代直到获得可用的应用程序。
对于某些简单应用程序,你可以通过这种方式生成有用的东西。然而,当扩展到更复杂的应用程序时,这种方法往往完全失效,而且几乎肯定会引入问题,这些问题比你自己编写应用程序时不太容易发现,从而导致深层技术债务等问题。
如果你只是为小型本地企业制作简单网站之类的东西,那可能没问题。但开发社区一致认为,在企业规模上这是一条危险的路径。
如果你在Microsoft Word中进行"氛围工作"或"氛围写作",你做的是同样的事情,只是针对文本文档:告诉它你希望文档说什么,阅读它,接受建议,然后要求进一步更改,直到满意为止。
这是否有意义显然取决于你在写什么类型的文档。对于某些内容,只要有人在过程中阅读,应该没问题。其他的可能在没有人工触摸的情况下无法达到预期目的。PowerPoint演示文稿也是如此。
对电子表格进行这种操作可能风险更大;某些类型电子表格中错误的数学或数据可能带来非常高的财务或法律后果,就像氛围编程一样,在表面层面可能很难发现问题。
这正是微软在Excel中添加AI功能时不如其他一些应用程序那么激进的原因。公平地说,微软承认这里存在重要差距:今天公告中的SpreadsheetBench表显示,Excel智能体模式中的Copilot获得了57.2%的分数,而人类通常能获得71.3%。因此,就像氛围编程一样,你需要高度选择性地决定何时以及如何使用它,并确保有经验的人仔细审计输出。
但想法是,仅仅因为它不适用于每种电子表格,并不意味着为低风险工作提供易于使用的选项没有意义。
谨慎使用
这些工具(以及改进的后续版本)可能会让知识工作者的生活稍微轻松一些,但一如既往,这些工作者需要理解基于大语言模型工具工作原理的一些基本原理,以及它们的优势和劣势,以便明智地决定何时尝试通过"氛围工作"节省时间,何时不这样做。
话虽如此,氛围编程受欢迎的一个重要原因是它允许缺乏经验的开发者(或根本不是开发者的人)绕过知识差距;不是每个人都知道编程语言的所有语法和细微差别,更不用说在给定库中可以调用哪些函数等等。
类似的情况也可能适用于专业级写作,但差距似乎没有那么大,所以有些人可能觉得"氛围工作"是在寻找问题的答案。
据说OpenAI和其他一些主要AI公司正在开发基于其模型的生产力工具,所以我们也可以将此视为微软试图保持领先地位,确保不会被新兴公司超越的尝试。
Q&A
Q1:微软的智能体模式是什么?有什么特别之处?
A:智能体模式是内置于Word和Excel中的AI功能,由OpenAI的GPT-5大语言模型驱动。它的特别之处在于不仅仅执行单一步骤,而是能够规划多步骤工作并运行验证循环来确保质量,让用户仅通过文本提示就能生成复杂的文档和电子表格。
Q2:"氛围工作"具体是什么意思?
A:"氛围工作"是微软提出的概念,类似于"氛围编程"。就是通过AI聊天机器人告诉它你希望文档内容是什么,然后阅读生成的内容,接受建议,再要求进一步更改,反复迭代直到满意为止的工作方式。
Q3:用AI生成Excel表格安全吗?
A:存在一定风险。微软的测试显示,Excel智能体模式的Copilot只获得了57.2%的分数,而人类通常能获得71.3%。对于涉及财务或法律后果的重要电子表格,错误数据可能带来严重后果,因此需要有经验的人仔细审计输出结果。
好文章,需要你的鼓励
Y Combinator合伙人Ankit Gupta与Anthropic预训练负责人Nick Joseph最近进行了一次深度对话。
土耳其伊斯坦布尔Newmind AI团队开发出首个专门针对土耳其语的AI幻觉检测系统Turk-LettuceDetect,能够逐字识别AI生成内容中的虚假信息。该系统使用三种不同的AI模型,在包含17790个样本的数据集上训练,最佳模型达到72.66%的检测准确率。这项研究填补了土耳其语AI安全检测的空白,为8000万土耳其语使用者提供了更可靠的AI交互体验。
9月13日的PEC 2025 AI创新者大会暨第二届提示工程峰会上,“年度提问二:新工作时代:AI工作流由谁主导?”从企业实践到技术实现、从业务落地到战略决策,展开了一场高密度的思想碰撞与经验分享,将AI工作流背后的难题和解决路径彻底揭开。
法国研究团队开发了"推理核心"训练环境,专门培养AI的基础推理能力。该系统包含18个核心任务,涵盖逻辑推理、规划、因果分析等领域,能无限生成新题目并精确控制难度。与传统依赖固定题库的方法不同,推理核心专注于培养通用认知能力,并使用专业工具验证答案。GPT-5测试显示任务具有挑战性,为AI推理能力发展开辟新路径。