Google 正在继续努力让更多人使用 Gemini,为此它提供了更多的 AI 计算资源。今天,Google 发布了一系列 Gemini 2.0 模型的改进,作为升级的一部分,一些 AI 最先进的功能现在对免费用户开放。你可以使用改进后的 Deep Research 获取某个主题的深入信息,而且 Google 最新的推理模型可以浏览你的搜索历史,以提升它对你个人特征的理解。这会带来什么问题呢?
与大多数大型 AI 公司一样,Google 提供了多种不同的模型。Gemini 2.0 Flash Thinking Experimental 是该公司最强大的多步推理模型,能够处理复杂主题并让你了解其"思考"过程。Google 在最新一轮更新中为这个模型增加了许多功能,支持更大的 100 万 Token 上下文窗口、文件上传和更快的输出。它还支持更多 Google 应用的连接,包括日历、笔记、任务和照片。
为了让 Gemini 更加个性化,Google 还将 Flash Thinking Experimental 连接到了一个新的数据源:你的搜索历史。Google 强调这是一个需要用户主动选择加入的功能,并且可以随时禁用。Gemini 甚至会显示一个横幅,提醒你它已连接到你的搜索历史。如果你授予访问权限,AI 据称可以更好地理解你,并提供更相关的推荐。让 Gemini 访问这些个人数据可能会让人感到有些奇怪,但 Google 已经知道你在互联网上搜索什么了。让 AI 看一眼并不会让你失去更多隐私。这显然只是 Google 个性化 AI 努力的开始。
Gemini 2.0 也将应用到 Deep Research,这是 Google 的一款 AI 工具,可以针对特定主题或问题创建详细报告。该工具会代表你浏览网络,花时间组织回答。基于 Gemini 2.0 的新版本将展示更多收集数据的过程,Google 声称最终产品的质量会更高。
你不必完全相信 Google 的说法 —— 即使你没有付费使用高级 AI 功能,也可以亲自尝试。Google 将免费提供 Deep Research,但使用次数是有限的。该公司表示,所有人每月都可以免费使用 Deep Research "几次"。这就是我们得到的所有细节,所以不要一开始就过度使用 Deep Research。
最后,Google 也向免费账户推出了 Gems 功能。Gems 类似于可以针对特定任务设置的自定义聊天机器人。Google 提供了一些默认选项,如学习教练和头脑风暴助手,但你可以发挥创意,制作几乎任何类型的机器人 (在 Google LLC 规定的限制和适用法律范围内)。
一些新推出的免费功能需要大量的推理处理能力,这并不便宜。即使在有限的基础上,将最昂贵的模型免费提供无疑会增加 Google 在 AI 方面的损失。目前还没有人找到如何从生成式 AI 中赚钱的方法,但 Google 似乎愿意花更多钱来确保市场份额。
好文章,需要你的鼓励
这项研究提出了R1-Searcher++框架,通过两阶段训练策略使大语言模型能像人类一样灵活利用内部知识和外部信息。该方法创新性地采用强化学习激励模型优先使用内部知识,并引入记忆机制将检索到的信息转化为内部知识,实现动态知识获取。实验表明,R1-Searcher++不仅在多步问答任务上表现优异,还大幅减少了检索次数,显著提高了推理效率。
这项研究提出了AutoRefine,一种革新性的强化学习框架,为大语言模型引入了"边思考边搜索和完善"的全新范式。与传统方法不同,AutoRefine在连续搜索调用之间添加知识完善步骤,让模型能够有效过滤和组织信息。通过结合答案正确性和检索质量双重奖励,该方法在七项问答基准测试中平均提升6.9%的准确率,特别在复杂多跳推理场景中表现突出,解决了现有检索增强推理的核心局限性。
这项研究揭示了一种新型网络安全威胁:利用普通网络广告攻击AI网页代理。中科院研究团队开发的AdInject攻击无需特殊权限,仅通过精心设计的广告内容就能误导AI代理点击恶意链接,成功率高达90%以上。研究使用严格的黑盒模型,更符合现实场景,暴露了当前AI代理面临的实际安全漏洞。实验还表明,即使添加专门的防御提示,这类攻击仍能成功率超过50%,凸显了设计更强大防御机制的紧迫性。
东北大学与快手科技联合研发的UNITE系统为多模态信息检索带来突破性进展。这项发表于2025年5月的研究首次系统分析了模态特定数据如何影响检索性能,并提出创新的模态感知掩码对比学习技术,有效解决不同模态间的竞争关系。UNITE能同时处理文本、图像、视频及其组合,在40多项测试中超越现有方法,即使与参数规模更大的模型相比也表现出色。研究发现视频-文本对在通用检索中表现优异,而文本-文本和文本-图像对对指令遵循任务至关重要,为未来多模态系统研究提供了宝贵指南。