微软公司今天宣布对其Windows 11内置的Copilot人工智能助手进行一系列重要升级。
其中部分功能增强已经普遍可用,而其他功能将通过微软的Windows Insider测试程序提供。
在支持Copilot的所有市场中,Windows 11用户现在都可以使用Copilot Vision,这是一个具备计算机视觉功能的助手版本。用户可以请求它提供如何操作新下载应用程序界面的指导。Copilot Vision还可以生成文本、提供图形设计建议并执行其他任务。
此前,用户只能通过语音指令与Copilot Vision互动。微软计划推出聊天机器人界面,增加对文本指令的支持。与此同时,标准版Copilot也将获得新的语音控制功能。用户现在可以通过说"嘿,Copilot"来激活它,并通过说"再见"来结束对话。
第二组AI增强功能将通过微软的Windows Insider功能测试程序提供。这些新增功能的亮点是Copilot Actions的新版本,这是微软在3月份首次预览的AI智能体。该工具可以代表用户自动执行多步骤任务。
3月份首次推出的初始版本只能执行基于浏览器的任务。作为今天宣布的更新的一部分,Copilot Actions将获得与主机计算机上文件交互的能力。这一升级将使用户能够自动执行诸如从本地PDF文档中提取信息等任务。
Copilot还获得了访问存储在OneDrive和Google Drive中文件的能力。微软消费者首席营销官尤素夫·迈赫迪在今天的博客文章中写道:"一旦您选择连接某项服务,Copilot就可以使用您自己的词汇来查找和理解您的个人内容,从而更容易在多个平台上查找和记住您已连接的个人内容中的详细信息。"
另一项通过Windows Insider程序推出的增强功能将使编辑操作系统设置变得更加容易。它将使用户能够用自然语言描述他们希望进行的更改,并让Copilot打开相关的设置页面。
这些新的自动化功能还将伴随其他多项改进。微软计划在Windows 11任务栏中添加一个按钮,使一键启动Copilot成为可能。该公司还将推出Windows 11与Zoom、Manus AI智能体服务以及名为Filmora的视频编辑应用程序的集成。
Q&A
Q1:Copilot Vision是什么?它有哪些新功能?
A:Copilot Vision是具备计算机视觉功能的Copilot助手版本。它可以为用户提供新下载应用程序的界面操作指导,生成文本,提供图形设计建议并执行其他任务。微软还计划为其添加聊天机器人界面,支持文本指令交互。
Q2:Copilot Actions能做什么样的自动化任务?
A:Copilot Actions是微软的AI智能体,可以代表用户自动执行多步骤任务。最新版本不仅能执行基于浏览器的任务,还能与主机计算机上的文件交互,比如从本地PDF文档中提取信息,并且可以访问OneDrive和Google Drive中的文件。
Q3:Windows 11的Copilot还有哪些新的交互方式?
A:Windows 11的Copilot新增了多种交互方式:用户可以通过说"嘿,Copilot"来激活助手,说"再见"来结束对话;用自然语言描述希望进行的系统设置更改;以及通过即将添加到任务栏的按钮实现一键启动。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。