我们早已知道 Microsoft 即将正式推出 Recall,而现在这家软件厂商已将该功能适用于全部 Copilot Plus PC。Recall 是一项能够截取你在 Copilot Plus PC 上几乎所有操作快照的功能,将于今日与经过改进的基于 AI 的 Windows 搜索界面一同上线,同时推出与 Google 的 Circle to Search 非常相似的 Click to Do 功能。
Recall 原本计划与 Copilot Plus PC 一同于去年六月推出,但由于安全研究人员提出的担忧,该功能被推迟。Microsoft 曾计划于十月开始公开测试 Recall,但随后又将测试推迟至十一月,以便有更多时间进一步增强安全性。Microsoft 现在已经用了过去 10 个月时间彻底提升 Recall 的安全性,并将其设计为一种可选择开启的体验,若你担心隐私影响,完全无需开启。
Recall 时间轴允许你滚动浏览 PC 上的所有快照。
“当我们推出 Recall 时,我们旨在解决一个常见的烦恼:希望能够从上次离开的地方继续。” Microsoft Windows Experiences 事业部公司副总裁 Navjot Virk 解释道。Recall 旨在改进你对 PC 的搜索方式,通过截取已分类的快照,使你能轻松搜索模糊的记忆而非单纯依赖文件名。
我去年花了几周时间测试 Recall,发现它既令人毛骨悚然,又十分聪明而引人注目。从技术角度看,它对 Windows 搜索界面是一次重大改进,因为它能够以更自然的方式理解图像和内容。但这确实带来了隐私上的雷区,因为你突然开始在 PC 上存储更多关于使用情况的信息,而且你仍需仔细管理被屏蔽的应用和网站。
安全研究员 Kevin Beaumont(最早对 Recall 提出警告之一)最近测试了最终版本,发现“Microsoft 已经付出了巨大的努力来确保 Recall 的安全性。” 数据库现已进行加密,Recall 默认尝试过滤敏感数据,而且这一功能现已变成可选择体验。
Beaumont 也指出,敏感应用和网站的过滤效果有时存在不稳定甚至时会出现瑕疵。他还表示,你可以通过一个简单的四位数 PIN 解锁选项以及 Windows Hello 来访问 Recall,而无需强制使用更安全的面部识别或指纹识别。Microsoft 的 Recall 官网声称 “你必须至少启用一种 Windows Hello 的生物识别登录选项(面部识别或指纹识别)才能启动和使用 Recall。”
新的基于 AI 的 Windows 搜索界面
与 Recall 同步,今天在 Copilot Plus PC 上 Windows 搜索也获得了一些 AI 改进。你现在可以使用文件资源管理器、Windows 搜索框或设置中的自然语言查询。这意味着,代替仅搜索文件名或特定设置,你现在可以描述图像或文档,从而获取相应的结果。如果你在寻找已保存的某个棕色狗狗的图像,你只需输入 “棕色狗狗”,无需记住文件名或图像创建日期。
Microsoft 今日还推出了 Click to Do 功能,其运作方式与 Google 的 Circle to Search 十分相似。你可以通过按下 Windows 键+左键单击来激活该功能,它将对你屏幕上的文本或图像提供相应操作,包括对文本进行摘要,或能够迅速从图像中移除对象。
Click to Do 允许你对图像和文本进行操作。
Recall、改进后的 Windows 搜索以及 Click to Do 功能今日将在所有 Copilot Plus PC 上推出,但 Click to Do 中的文本操作目前仅限于 Qualcomm 驱动的设备,而采用 AMD 和 Intel 的 Copilot Plus PC 将在 “未来几个月” 内获得该功能。Recall 和 Click to Do 应支持多种语言和区域,不过 Microsoft 表示,两项功能在今年晚些时候之前不会在欧盟国家以及冰岛、列支敦士登和挪威上线。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。