Google 在去年年底率先推出深入研究功能后,现在正式向所有用户开放这项工具。从今天开始,Gemini 用户可以在超过 45 种语言中免费使用深入研究功能 — 无需订阅 Gemini Advanced。对于不熟悉的用户来说,深入研究功能允许你要求 Gemini 就复杂主题创建全面但易读的报告。
相比 Google 的新 AI 模式,深入研究的运行速度较慢,这是有意为之的设计。在开始搜索与你的提示相关信息之前,Gemini 会先制定一个研究计划。当 Google 首次宣布深入研究功能时,它由公司功能强大但成本较高的 Gemini 1.5 Pro 模型驱动。随着今天的功能扩展,Google 已将深入研究升级为使用新的 Gemini 2.0 Flash Thinking 实验模型 — 这个听起来有点拗口的名字其实就是一个可以将问题分解为一系列中间步骤的思维链系统。
对于这次升级,Google 表示:"这提升了 Gemini 在所有研究阶段的能力 — 从规划和搜索到推理、分析和报告 — 创建更高质量、更详细且富有洞察力的多页报告。"
如果深入研究功能听起来很熟悉,那是因为包括 ChatGPT 在内的多个聊天机器人现在都提供这项功能。然而,Google 一直走在行业前列。它不仅是最早提供这项工具的公司之一,而且现在也比 OpenAI 等竞争对手更早向所有用户广泛开放这项功能。
另外,Google 今天还宣布推出一项名为 Gemini 个性化的实验性功能。同样使用 Flash Thinking 模型,这不仅让公司能够将深入研究功能带给更多用户,还能让 Gemini 根据你使用的 Google 应用和服务信息来调整其响应。
Google 表示:"经你许可,Gemini 现在可以根据你的过往搜索记录定制回复,为你节省时间并提供更精准的答案。"在未来几个月内,Gemini 将能够从更多 Google 服务中获取上下文信息,包括 Photos 和 YouTube。"这将使 Gemini 能够提供更个性化的见解,从你的活动和偏好中获得更广泛的理解,从而提供真正与你产生共鸣的回答。"
要启用此功能,请在 Gemini Apps 界面的模型下拉菜单中选择"个性化 (实验性)"。Google 解释说,Gemini 只会在认为信息可能有用时才利用你的搜索历史。如果你觉得这项功能有侵犯隐私的问题,可以通过横幅中的链接轻松关闭它。从今天开始,Gemini 和 Gemini Advanced 用户可以在网页版上使用这项功能,移动版本将随后推出。
好文章,需要你的鼓励
这项研究提出了R1-Searcher++框架,通过两阶段训练策略使大语言模型能像人类一样灵活利用内部知识和外部信息。该方法创新性地采用强化学习激励模型优先使用内部知识,并引入记忆机制将检索到的信息转化为内部知识,实现动态知识获取。实验表明,R1-Searcher++不仅在多步问答任务上表现优异,还大幅减少了检索次数,显著提高了推理效率。
这项研究提出了AutoRefine,一种革新性的强化学习框架,为大语言模型引入了"边思考边搜索和完善"的全新范式。与传统方法不同,AutoRefine在连续搜索调用之间添加知识完善步骤,让模型能够有效过滤和组织信息。通过结合答案正确性和检索质量双重奖励,该方法在七项问答基准测试中平均提升6.9%的准确率,特别在复杂多跳推理场景中表现突出,解决了现有检索增强推理的核心局限性。
这项研究揭示了一种新型网络安全威胁:利用普通网络广告攻击AI网页代理。中科院研究团队开发的AdInject攻击无需特殊权限,仅通过精心设计的广告内容就能误导AI代理点击恶意链接,成功率高达90%以上。研究使用严格的黑盒模型,更符合现实场景,暴露了当前AI代理面临的实际安全漏洞。实验还表明,即使添加专门的防御提示,这类攻击仍能成功率超过50%,凸显了设计更强大防御机制的紧迫性。
东北大学与快手科技联合研发的UNITE系统为多模态信息检索带来突破性进展。这项发表于2025年5月的研究首次系统分析了模态特定数据如何影响检索性能,并提出创新的模态感知掩码对比学习技术,有效解决不同模态间的竞争关系。UNITE能同时处理文本、图像、视频及其组合,在40多项测试中超越现有方法,即使与参数规模更大的模型相比也表现出色。研究发现视频-文本对在通用检索中表现优异,而文本-文本和文本-图像对对指令遵循任务至关重要,为未来多模态系统研究提供了宝贵指南。