微软很快就会让 Copilot 代理程序通过图形用户界面操作电脑,就像人类一样 —— 通过点击按钮、选择菜单,甚至在屏幕上填写表单。
周三,Windows 帝国宣布计划在 Copilot Studio — 微软搭建和部署 AI 代理的平台 — 之内启用电脑操作。这将免去员工必须亲自点击按钮和填写表单的麻烦,同时仍保持企业数据集中存储在微软云上 —— 雷德蒙德坚称这些数据不会用于训练其模型。
正如 Copilot 业务及行业部门企业副总裁 Charles Lamanna 在公司市场宣传资料中解释的:“电脑操作使得代理程序能够通过点击按钮、选择菜单、以及在屏幕上的输入框内键入文字来与网站和桌面应用程序互动。”
“这使得代理程序即便在没有可直接连接系统的 API 时也能处理任务。如果人可以使用该应用程序,代理程序也可以。”
据我们了解,AI 代理程序本质上是一些软件,它们能够与其他软件及用户进行交流,并利用生成式 AI 来做出决策和生成输出。
如今, Microsoft Copilot Studio 使客户能够创建 AI 驱动的代理程序来自动执行某些任务,但这些代理目前仅适用于特定服务,例如 SharePoint。而全新类型的代理程序则应当更加灵活。例如,你可以创建一个代理程序,并提示它执行一系列步骤,其中包括浏览以前未见过的网站、提取部分数据,并将这些数据传递给桌面应用程序。
Lamanna 提出了一些新型 Copilot 代理程序可能派上用场的场景,例如将来自多个来源的大量数据自动输入到一个中央数据库、自动收集用于研究的市场数据,或者利用 AI 文字及图像识别能力处理发票。
OpenAI为其最新模型赋能
微软并非唯一致力于使代理程序对普通人更有用的 AI 提供商。周三,OpenAI 推出了一套被称为 o3 和 o4-mini 的全新 AI 模型,据称它们是迄今为止最“聪明”的模型。它们的独特之处在于能够在 ChatGPT 内部自主使用并组合各种工具,以解决复杂的多步骤任务。
“这是我们的推理模型首次能够像代理一样在 ChatGPT 内部使用并组合所有工具 —— 包括网络搜索、使用 Python 分析所上传的文件和其他数据、深入推理视觉输入,甚至生成图像,”这家 AI 巨头表示。
举例来说,OpenAI 提出一个提示:“加州今年夏天的能耗与去年相比如何?”作为回应,o3 将发起一次网络搜索以获取公共事业数据,然后编写 Python 代码来创建能耗预测,接着生成一张图表或图片,并附上预测说明。换句话说,它能够无需人工协调或外部整合层,就自动完成涉及不同系统的多步骤任务。
OpenAI 表示,o4-mini 是一款体积更小、专为高速且节省成本的推理而优化的模型,并声称其在 AIME 2024 和 2025 的基准测试中名列前茅。
另外,OpenAI 还推出了 OpenAI Codex CLI,一款基于终端的编程代理程序。“Codex CLI 是为那些已经习惯使用终端,并希望获得类似 ChatGPT 水平的推理能力以及实际运行代码、操作文件和迭代更新能力的开发者而打造的 —— 所有操作均在版本控制之下,”该工具的 GitHub 仓库如此解释。
微软称,与预设的编程指令不同,AI 自动化在遇到障碍或界面出现意外变化时能够即时调整,而不是直接报错崩溃,而是利用内置的推理能力来应对困难。
Lamanna 声称:“电脑操作可自动适应应用程序和网站的变化。它会利用内置的推理能力实时进行调节,自主修复问题,从而确保工作不中断。”
一位 Copilot Studio 产品经理在社交媒体帖子中表示,希望这种推理过程不会涉及意外删除或违反政策的问题,正如一位关切的用户所担忧的那样。
然而,将计算任务交由 Copilot 处理可能会涉及意想不到的费用。与云服务类似,采用 AI 大规模计算的方法所产生的费用不易预测,如果某些任务计算需求较高,费用可能会让人感到惊讶。
对费用的担忧已被使用 OpenAI 的电脑操作 API 以及 Anthropic 的电脑操作 API 的用户提起。
微软正通过需要注册的早期访问研究预览,将电脑操作功能引入 Copilot Studio 用户。预计下个月在 Microsoft Build 2025 上将有更多相关信息。
好文章,需要你的鼓励
当前软件工程团队正在试验基于AI代理的编码工具和大语言模型,以提高开发速度和质量。然而,AI编码工具的效果很大程度上取决于使用方式。开发者需要提供结构化的问题描述、明确的执行要求和相关上下文,同时建立适当的防护机制。AI不仅能处理重复性任务,还能识别和评估替代方案,从被动助手演进为工作流程推进器。成功的关键在于将AI视为合作伙伴而非快捷工具,并将其整合到软件交付的全生命周期中。
NVIDIA研究团队开发出名为Lyra的AI系统,能够仅凭单张照片生成完整3D场景,用户可自由切换观察角度。该技术采用创新的"自蒸馏"学习方法,让视频生成模型指导3D重建模块工作。系统还支持动态4D场景生成,在多项测试中表现优异。这项技术将大大降低3D内容创作门槛,为游戏开发、电影制作、VR/AR应用等领域带来重大突破。
Salesforce发布企业级AI智能体平台Agentforce 360,将AI智能体融入几乎所有应用中。该平台采用混合推理引擎Atlas,结合大语言模型的概率思维和业务规则的精确性,支持语音交互和深度集成。以Slack为主要界面,提供Agentforce Builder开发环境,能将非结构化文档转换为可查询记录。Salesforce内部已部署该系统,每周处理180万次对话,主动服务活动增长40%。
谷歌DeepMind团队创新性地让Gemini 2.5模型在无需训练的情况下学会理解卫星多光谱图像。他们将复杂的12波段卫星数据转换为6张可理解的伪彩色图像,配以详细文字说明,使通用AI模型能够准确分析遥感数据。在多个基准测试中超越现有模型,为遥感领域AI应用开辟了全新道路。