在去年因大量负面反馈而暂时搁置具有争议的 Windows Recall 功能后,Microsoft 又重新出发 - 现在悄悄地将这款截屏应用程序加入到 Copilot+ PC 的 Windows 11 预览版通道中,这表明该功能即将正式发布。
去年 5 月,Microsoft 在其 Build 开发者大会上推出了 Recall 功能。该功能会每隔几秒钟自动截取桌面截图,并将其存储在本地数据库中,这样用户就可以后续浏览这些记录,回忆(即"recall")自己在特定时间点在电脑上的操作。
这项功能计划进一步发展,允许用户通过 AI 搜索数据库,根据搜索词查找特定操作,同时还可以捕获应用程序活动、即时消息和其他通信内容、浏览的网站、按键记录以及任何其他可用数据,所有这些都可以通过 AI 驱动的搜索进行回溯。
如果你上周做过某事但记不清具体细节,你可以通过 Recall 调出并重现。当时,Microsoft 表示该功能将在即将推出的 Copilot+ PC 上默认启用。AI 将与数据库一起在本地运行,使用 PC 的硬件加速。
这项功能的优点是你可以回溯几天前的工作或学习内容,这可能会很方便。但缺点之一是你的 PC 现在会记录你的所有操作,如果有人入侵或窃取你的设备,并能够以你的身份使用它,他们不仅可以监控未来的活动,还可以重现你之前的操作。
微软试图通过声称其 AI 会自动在浏览器中编辑敏感信息(如密码和财务数据)来平息不可避免的隐私争议,但这仅限于使用 Edge 浏览器的情况。
Microsoft Research 首席科学家 Jaime Teevan 被推出来宣传 Recall 是 AI 时代的必需品。与此同时,安全研究人员如 Alex Hagenah 轻松绕过了该软件的数据保护,开发出了名为 TotalRecall 的概念验证工具,可以从 Recall 的 SQLite 数据库中提取和显示数据。
在来自信息安全专家、IT 管理员、隐私倡导者和其他各方的反对声音之后,微软在去年 6 月暂停了该功能的发布。
但似乎一个糟糕的想法总是难以抑制。到了 11 月,Microsoft 又悄悄地重新尝试 — 这次默认关闭 Recall 功能,并将其限制在运行 Windows Insider Dev 通道版本的 Copilot+ PC 上,特别是那些使用 Qualcomm 芯片的设备。随后又支持了 Intel 和 AMD 的 Copilot+ 设备。
OpenAI 似乎也很感兴趣
拥有一个可以记住和分析用户行为的应用程序似乎不仅是 Microsoft 的想法 - OpenAI 也加入了这个行列。
"我们大大改进了 ChatGPT 的记忆功能 - 它现在可以引用你所有的过去对话!"联合创始人 Sam Altman 说。
"我认为这是一个令人惊喜的好功能,它指向了一个我们感到兴奋的方向:AI 系统可以在你的生活中了解你,并变得极其有用和个性化。"
这项功能现在已为专业版用户默认开启,并将很快向 Plus 用户开放。
周四,Microsoft 将 Windows 11 Build 26100.3902 推送到发布预览通道 - 这是正式发布前的最后一站 - 是的,Recall 功能包含在其中。Microsoft 表示 Recall 将是一个选择性加入的功能,"将逐步推出",所以你可能需要等待它在你的 PC 上激活。
"Recall (预览版) 将从 2025 年初开始在大多数市场提供,并将在今年晚些时候推广到欧洲经济区。针对特定语言进行了优化(英语、简体中文、法语、德语、日语和西班牙语)",发布说明中表示。
最新的 Recall 版本可以与主要浏览器配合使用,包括 Edge、Firefox、Opera 和 Google Chrome。截图和从中提取的上下文数据,以及似乎正在使用的其他应用程序的数据,都会在本地加密保存。访问截图档案需要 Windows Hello 认证,而且你需要配备 NPU 的 Microsoft Copilot+ PC 来处理 AI 处理需求。
微软坚称所有数据都保存在 PC 的本地存储中。
"Recall 不会与 Microsoft 或第三方共享截图或相关数据,"它说,"也不会在同一设备的不同 Windows 用户之间共享。"
"Windows 在保存截图之前会征求你的许可。你始终掌控着主动权,可以随时删除截图、暂停或关闭它们。未来任何用户共享数据的选项都将需要用户完全知情并明确同意。"
也许这些改变足以让 Microsoft 管理层会议之外的人相信 Recall 是个好主意,但我们对此表示怀疑。许多用户可能准备好要"考虑离婚了",引用某位奥地利裔美国人的话。(R)
好文章,需要你的鼓励
东北大学与快手科技联合研发的UNITE系统为多模态信息检索带来突破性进展。这项发表于2025年5月的研究首次系统分析了模态特定数据如何影响检索性能,并提出创新的模态感知掩码对比学习技术,有效解决不同模态间的竞争关系。UNITE能同时处理文本、图像、视频及其组合,在40多项测试中超越现有方法,即使与参数规模更大的模型相比也表现出色。研究发现视频-文本对在通用检索中表现优异,而文本-文本和文本-图像对对指令遵循任务至关重要,为未来多模态系统研究提供了宝贵指南。
这篇研究论文揭示了多模态大语言模型(MLLMs)存在严重的模态偏差问题,即模型过度依赖文本信息而忽视图像等其他模态。研究团队通过理论分析和实验证明,这种偏差主要源于三个因素:数据集不平衡、模态骨干能力不对称以及训练目标设计不当。他们提出了系统的研究路线图和解决方案,包括增强视觉模态在数据集中的贡献、改变模型关注点和应用偏好优化策略。未来研究方向则包括开发更客观的评估指标、探索更多模态组合中的偏差问题以及应用可解释AI技术深入分析偏差机制。
ComfyMind是香港科技大学研究团队开发的一个协作式AI系统,旨在解决当前开源通用生成系统面临的稳定性和规划挑战。该系统基于ComfyUI平台,引入了两项关键创新:语义工作流接口(SWI)和带本地反馈执行的搜索树规划机制。SWI将低级节点图抽象为语义函数,而搜索树规划将生成过程视为分层决策任务。实验表明,ComfyMind在ComfyBench、GenEval和Reason-Edit三个基准测试中均大幅超越开源基线,并达到与GPT-Image-1相当的性能,为开源通用生成AI开辟了新路径。
这项研究介绍了一种名为"热带注意力"的新型注意力机制,专为解决神经网络在组合算法推理中的困境而设计。传统注意力机制使用softmax函数产生平滑的概率分布,无法精确捕捉组合算法所需的锐利决策边界。