微软推出了一系列Microsoft 365新功能,让知识工作者仅通过文本提示就能生成复杂的Word文档或Excel电子表格。微软宣布了两款不同的产品,分别使用不同的模型并从不同工具中访问。
智能体模式内置于Word和Excel中,由OpenAI的GPT-5大语言模型驱动,允许用户通过提示创建复杂的文档和电子表格。之所以称为"智能体"模式,是因为它不仅仅从单一步骤的提示开始工作,而是规划多步骤工作并运行验证循环,以确保质量。
目前该功能只在Word和Excel的网页版中可用,但计划稍后推向原生桌面应用程序。
还有一个名称相似的Copilot办公智能体。基于Anthropic模型,这一功能内置于微软的Copilot AI助手聊天机器人中,同样可以从提示生成文档,具体来说是Word或PowerPoint文件。
办公智能体不像智能体模式那样执行所有步骤,但微软相信它相比之前基于OpenAI的文档生成功能有了显著改进,用户此前抱怨那些功能容易出现各种问题和不足。该功能首先在Microsoft 365订阅者的Frontier计划中提供。
微软表示,这些功能将让知识工作者从事一种被称为"氛围工作"的实践,这是对现已确立的"氛围编程"术语的一种改编。
无处不在的氛围化
氛围编程是完全通过大语言模型聊天机器人提示来开发应用程序的过程。你在聊天界面中解释想要什么,要求它生成相应的代码。然后运行代码,如果有问题,解释问题并要求修复,反复迭代直到获得可用的应用程序。
对于某些简单应用程序,你可以通过这种方式生成有用的东西。然而,当扩展到更复杂的应用程序时,这种方法往往完全失效,而且几乎肯定会引入问题,这些问题比你自己编写应用程序时不太容易发现,从而导致深层技术债务等问题。
如果你只是为小型本地企业制作简单网站之类的东西,那可能没问题。但开发社区一致认为,在企业规模上这是一条危险的路径。
如果你在Microsoft Word中进行"氛围工作"或"氛围写作",你做的是同样的事情,只是针对文本文档:告诉它你希望文档说什么,阅读它,接受建议,然后要求进一步更改,直到满意为止。
这是否有意义显然取决于你在写什么类型的文档。对于某些内容,只要有人在过程中阅读,应该没问题。其他的可能在没有人工触摸的情况下无法达到预期目的。PowerPoint演示文稿也是如此。
对电子表格进行这种操作可能风险更大;某些类型电子表格中错误的数学或数据可能带来非常高的财务或法律后果,就像氛围编程一样,在表面层面可能很难发现问题。
这正是微软在Excel中添加AI功能时不如其他一些应用程序那么激进的原因。公平地说,微软承认这里存在重要差距:今天公告中的SpreadsheetBench表显示,Excel智能体模式中的Copilot获得了57.2%的分数,而人类通常能获得71.3%。因此,就像氛围编程一样,你需要高度选择性地决定何时以及如何使用它,并确保有经验的人仔细审计输出。
但想法是,仅仅因为它不适用于每种电子表格,并不意味着为低风险工作提供易于使用的选项没有意义。
谨慎使用
这些工具(以及改进的后续版本)可能会让知识工作者的生活稍微轻松一些,但一如既往,这些工作者需要理解基于大语言模型工具工作原理的一些基本原理,以及它们的优势和劣势,以便明智地决定何时尝试通过"氛围工作"节省时间,何时不这样做。
话虽如此,氛围编程受欢迎的一个重要原因是它允许缺乏经验的开发者(或根本不是开发者的人)绕过知识差距;不是每个人都知道编程语言的所有语法和细微差别,更不用说在给定库中可以调用哪些函数等等。
类似的情况也可能适用于专业级写作,但差距似乎没有那么大,所以有些人可能觉得"氛围工作"是在寻找问题的答案。
据说OpenAI和其他一些主要AI公司正在开发基于其模型的生产力工具,所以我们也可以将此视为微软试图保持领先地位,确保不会被新兴公司超越的尝试。
Q&A
Q1:微软的智能体模式是什么?有什么特别之处?
A:智能体模式是内置于Word和Excel中的AI功能,由OpenAI的GPT-5大语言模型驱动。它的特别之处在于不仅仅执行单一步骤,而是能够规划多步骤工作并运行验证循环来确保质量,让用户仅通过文本提示就能生成复杂的文档和电子表格。
Q2:"氛围工作"具体是什么意思?
A:"氛围工作"是微软提出的概念,类似于"氛围编程"。就是通过AI聊天机器人告诉它你希望文档内容是什么,然后阅读生成的内容,接受建议,再要求进一步更改,反复迭代直到满意为止的工作方式。
Q3:用AI生成Excel表格安全吗?
A:存在一定风险。微软的测试显示,Excel智能体模式的Copilot只获得了57.2%的分数,而人类通常能获得71.3%。对于涉及财务或法律后果的重要电子表格,错误数据可能带来严重后果,因此需要有经验的人仔细审计输出结果。
好文章,需要你的鼓励
研究人员基于Meta前首席AI科学家Yann LeCun提出的联合嵌入预测架构,开发了名为JETS的自监督时间序列基础模型。该模型能够处理不规则的可穿戴设备数据,通过学习预测缺失数据的含义而非数据本身,成功检测多种疾病。在高血压检测中AUROC达86.8%,心房扑动检测达70.5%。研究显示即使只有15%的参与者有标注医疗记录,该模型仍能有效利用85%的未标注数据进行训练,为利用不完整健康数据提供了新思路。
西湖大学等机构联合发布TwinFlow技术,通过创新的"双轨道"设计实现AI图像生成的革命性突破。该技术让原本需要40-100步的图像生成过程缩短到仅需1步,速度提升100倍且质量几乎无损。TwinFlow采用自我对抗机制,无需额外辅助模型,成功应用于200亿参数超大模型,在GenEval等标准测试中表现卓越,为实时AI图像生成应用开辟了广阔前景。
AI云基础设施提供商Coreweave今年经历了起伏。3月份IPO未达预期,10月收购Core Scientific计划因股东反对而搁浅。CEO Michael Intrator为公司表现辩护,称正在创建云计算新商业模式。面对股价波动和高负债质疑,他表示这是颠覆性创新的必然过程。公司从加密货币挖矿转型为AI基础设施提供商,与微软、OpenAI等巨头合作。对于AI行业循环投资批评,Intrator认为这是应对供需剧变的合作方式。
中山大学等机构联合开发的RealGen框架成功解决了AI生成图像的"塑料感"问题。该技术通过"探测器奖励"机制,让AI在躲避图像检测器识别的过程中学会制作更逼真照片。实验显示,RealGen在逼真度评测中大幅领先现有模型,在与真实照片对比中胜率接近50%,为AI图像生成技术带来重要突破。