微软再次将AI技术引入Windows 11,推出了包括其争议性Recall功能的继任者在内的多项新功能,这个名为Copilot Vision的屏幕流传输远程处理后台驱动程序更加令人担忧。
"AI正在改变我们使用PC的方式,"微软声称,虽然有些人可能同意这一观点,但并非所有人都认为这是一个积极的改变。
微软补充道:"Windows 11是AI的家园,为消费者在Copilot+ PC上提供当今最广泛、最强大的AI体验——具有独特的AI超能力,如Recall(预览版)、Click to Do(预览版)和改进的Windows搜索,以及与PC交互的突破性新方式,如Windows上的Copilot Vision。"
Copilot Vision是微软争议性Recall功能的扩展,Recall功能最初只在具有足够计算能力的神经协处理器的Copilot+系统上提供。与因严重安全缺陷而被撤回并经历长时间延迟才重新推出的Recall一样,Copilot Vision旨在分析用户在计算机上的所有操作。
启用后,该功能通过持续截屏并将其提供给光学字符识别系统和大语言模型进行分析——但与本地运行的Recall不同,Copilot Vision会将数据发送到微软服务器。
根据微软发言人在4月份的说法,用户数据不会长期存储,除了与Copilot助手本身的对话记录,并且"不会用于模型训练或广告个性化"。
微软对Vision的愿景是,用Copilot团队的话说,最终成为"真正的伴侣",提供"对您目标的更深入理解以及帮助您实现目标的清晰、逐步指导能力"。
虽然屏幕监控只在用户明确激活它作为Copilot会话的一部分时才会发生,不像始终在后台运行的Recall,但它也被设计得比以前的版本更加主动——这对许多读者来说,会让人想起Clippy及其从Microsoft Office 97开始的动画助手队伍。
在撰写本文时,微软仅在美国提供Copilot Vision,并承诺(或威胁)很快将在非常具体的"非欧洲国家"推出——这似乎是对欧盟AI法案的致敬。然而,这并不意味着那些边界之外的人完全逃脱。该公司对Windows 11的最新更新(其官方支持生命周期内唯一的主流操作系统版本)带来了一系列其他AI功能,包括操作系统的第一个"智能体"AI,现在可以代表用户调整系统设置。
基于名为Mu的本地语言模型,仅适用于运行Qualcomm Snapdragon硬件的Copilot+系统,Intel和AMD支持将随后推出,该智能体承诺代表用户采取行动。与以前版本中简单搜索如何更改屏幕分辨率或连接蓝牙设备不同,该智能体接受自然语言指令——如"连接到我的蓝牙设备"或"将我的屏幕分辨率更改为1920 x 1080"——并提供自己执行任务的功能,前提是它知道如何操作。
微软Windows应用科学副总裁兼工程师Vivek Pradeep在Mu的测试版发布时解释道:"我们的目标是在设置中创建一个由AI驱动的智能体,它能理解自然语言并无缝更改相关的可撤销设置。我们的目标是将这个智能体集成到现有的搜索框中,以获得流畅的用户体验,为众多可能的设置要求超低延迟。"
Pradeep承认:"管理大量的Windows设置本身就带来了挑战,特别是功能重叠的问题。例如,即使是'增加亮度'这样的简单查询也可能涉及多个设置更改——如果用户有双显示器,这是指增加主显示器还是副显示器的亮度?为了解决这个问题,我们改进了训练数据,优先考虑最常用的设置,同时继续为更复杂的任务改进体验。"
微软没有说明的是,对于一个专门定制为足够小以便在设备上运行的模型,它如何解决语言模型固有的未解决的"幻觉"问题——即在将用户提示转换为Token流并返回最具统计可能性的Token作为延续的过程中,模型输出的Token变成一个答案形状的对象,但不幸的是,完全脱离现实。对于聊天机器人式的大语言模型实现,这意味着错误答案;对于采取行动的智能体AI,这可能意味着灾难,正如Replit平台的一位用户最近沮丧地发现的那样。
微软还为其"Click to Do"发布了新的操作,在欧洲经济区以外的国家作为预览版提供,该功能可以听用户大声朗读段落以提高阅读技能,在Microsoft Word中使用Copilot的生成式AI功能,将任何选定的文本作为提示,激活具有可调视觉效果、文本转语音、音节分解功能和图片词典的"沉浸式阅读器"模式,以及在Microsoft Teams中触发消息和安排请求。
该公司的AI推进并不止于此。它还在照片应用中添加了AI驱动的"重新打光"功能,旨在模拟在现有照片中添加最多三个虚拟光源的效果。曾经简单的鼠标教学工具画图也获得了自己的AI更新,具有"贴纸生成器"功能,可将文本提示转换为卡通图像,以及"对象选择"功能,旨在使在繁忙图像中选择单个元素变得更容易。甚至取代简单截图的截图工具也未能幸免,获得了Copilot+独有的"完美截图"功能,该功能可根据屏幕内容自动调整捕获区域大小——还有一个颜色选择器工具,这可以说根本不需要任何机器学习。
最新的Windows 11更新并不全是关于AI的,尽管考虑到微软日益绝望的关注点,你会被原谅如此认为。它还带来了经典蓝屏死机(BSoD)的终结,这个熟悉的景象一直追溯到最初的Windows 1.0——在Windows 3.0中曾短暂改为黑色,Windows NT 3.1是第一个拥有在蓝色背景上显示关键系统错误的"真正"BSoD的版本。现在BSoD变成了黑屏死机,至少保留了经典的缩写。
新的BSoD不仅仅代表数字涂装的新外衣。微软表示,新的错误界面将不那么冗长且更易读,同时该公司还添加了一个名为"快速机器恢复"的系统,取代了早期的"启动修复"。
当该功能在今年早些时候作为测试版发布时,微软的Riddhi Ameser写道:"通过快速机器恢复,当广泛的中断影响设备正常启动时,微软可以通过Windows RE恢复环境向受影响的设备广泛部署有针对性的修复——自动化修复并快速让用户进入生产状态,无需复杂的手动干预。"
不过,所有这些功能可能需要一段时间才能普及到您的桌面。微软正在通过其"受控功能推出"系统在接下来的一个月内提供这些功能——该系统旨在通过防止同时向每个用户发送有问题的更新来防止广泛中断。
那些出于某种原因急于尝鲜的人被建议在Windows更新中启用"尽快获取最新更新"复选框;那些不愿在操作系统中添加更多AI臃肿软件的人几乎只能选择寻找微软产品之外的替代方案。
微软推出新款Surface Laptop 5G
在向Windows用户推送更多AI功能的同时,微软还展示了新硬件Surface Laptop 5G——当然,它具有Copilot+支持。
Surface Laptop 5G围绕13.8英寸显示屏构建,比该公司刷新的13英寸Surface Laptop和12英寸Surface Pro更大,配备Intel Core Ultra(第二代)处理器供选择,每个处理器都配有40万亿次运算每秒(TOPS)的神经协处理器用于本地AI模型,以及可选的内置5G蜂窝调制解调器——"将在2025年晚些时候提供"——该公司警告说,这意味着"用户与Microsoft 365 Copilot和其他云工具保持持续连接"。
更多信息可在微软官网获取。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。