几个月前,Google 为其 Gemini AI 聊天机器人添加了推理模式功能。现在,随着 Google 加倍注重上下文响应,Gemini 2.0 闪电思维实验版的功能范围进一步扩展到聊天体验的其他方面。
公司宣布将使 Gemini 变得更加个性化、互联和实用。同时,也将其互联网信息搜索功能 Deep Research 向更多 Gemini 用户开放。
Deep Research 现在将由 Gemini 2.0 闪电思维实验版提供支持。Google 在博客文章中表示,通过增加闪电思维的能力,Deep Research 现在可以让用户"实时了解它是如何解决研究任务的"。公司表示,这种组合将通过提供更多细节和见解来提高 Deep Research 报告的质量。
在此次更新之前,Gemini 1.5 Pro 为 Deep Research 提供支持,且仅适用于每月 20 美元的 Google One AI Premium 计划用户。然而,VentureBeat 的 Carl Franzen 发现即使是这个相对较弱的版本也是一个有用的研究助手。
更个性化的 Gemini
Gemini 2.0 闪电思维实验版还将支持一项名为个性化的新功能。
个性化功能顾名思义:通过引用之前的对话或搜索,响应将更加贴合用户需求。为了实现这种程度的个性化,Gemini 将连接到用户的 Google 应用和服务,包括搜索和照片。Google 强调,只有在得到许可的情况下才会使用来自 Google 应用的信息。
Gemini 应用产品管理高级总监 Dave Citron 在博客文章中表示:"在未来几个月中,Gemini 将通过连接其他 Google 应用和服务(包括照片和 YouTube)来扩展其对你的理解能力。这将使 Gemini 能够提供更个性化的见解,从更广泛地了解你的活动和偏好中获取信息,提供真正与你产生共鸣的回应。"
由于 Gemini 2.0 闪电思维实验版已集成到个性化功能中,用户可以看到模型在回答查询或完成请求时所使用的数据源概况。
Gemini Advanced 用户可以切换他们希望聊天机器人记住的其他偏好,比如指示它参考过去的对话或提醒它饮食限制。这使 Gemini 能够提供更自然和相关的回应。
当然,Google 并不是唯一认识到个性化和相关响应重要性的公司。去年 11 月,Anthropic 推出了其 Styles 功能,允许用户自定义 Claude 与他们交谈的方式。
更多互联应用
由于个性化需要访问更多用户数据,可以将其视为面向 Gemini 用户而非整个组织的 RAG,Google 将更多服务连接到 Gemini 2.0 闪电思维实验版。
该模型可以访问日历、笔记、任务和照片等应用。
Citron 表示:"通过这种思维模型,Gemini 可以更好地处理复杂请求,比如涉及多个应用的提示,因为新模型可以更好地推理整体请求,将其分解为不同步骤,并在过程中评估自身进度。"
Google 表示,在几周内,Gemini 将能够查看 Google 相册中的照片,并根据用户的图片回答问题。它可以根据最近旅行的照片制定旅行计划,并回忆诸如驾驶证到期日期等信息,或者你是否在商店拍过牛奶的照片。
集成应用程序以为聊天机器人响应提供更多上下文一直是 AI 公司的一大趋势。在企业领域,这表现为让聊天机器人访问开发环境或电子邮件。ChatGPT 可以打开大多数 IDE,因此开发人员可以从 VSCode 中带入他们的代码并向 ChatGPT 查询相关问题。Google 的编码助手 Code Assist 也连接到 IDE。
Google 不断增加的应用程序和服务集成以及 Gemini 的个性化突显了上下文和数据在使这些聊天机器人更有用方面的重要性,即使查询仅仅是询问餐厅推荐。
好文章,需要你的鼓励
Meta宣布为Facebook Dating推出AI聊天机器人助手,帮助用户找到更匹配的对象。该AI可根据用户需求推荐特定类型的匹配者,并协助优化个人资料。同时推出Meet Cute功能,每周提供算法选择的"惊喜匹配"。尽管18-29岁用户匹配数同比增长10%,但相比Tinder的5000万日活用户仍有差距。AI功能已成为约会应用标配,Match Group等竞争对手也在大力投资AI技术。
字节跳动团队提出RewardDance框架,首次系统性解决视觉生成中的奖励模型扩展问题。该框架通过将奖励预测转为生成式任务,并将模型规模扩展至260亿参数,同时集成任务指令、参考样例和推理能力,有效解决了"奖励作弊"问题。实验显示,在文本生成图像任务中质量提升10.7分,视频生成性能改善49%,达到行业领先水平,为AI视觉创作提供了更强大可靠的技术基础。
Neo4j认为已找到让生成式AI访问图数据库记录的方法。图数据库专注于数据点之间的关系建模和查询,在欺诈检测、推荐引擎等场景中表现出色。2024年4月,ISO批准了图查询语言GQL标准,Neo4j的Cypher查询语言完全符合该标准。现代工具提供拖拽式工作流程,GenAI可作为自然语言接口,将用户请求转换为Cypher查询。
ByteDance团队开发的Mini-o3系统通过深度多轮推理突破了传统AI视觉理解的局限。该系统能像人类侦探般进行几十轮的视觉探索,在困难的视觉搜索任务上准确率达48%,相比现有模型提升显著。核心创新包括挑战性的Visual Probe数据集、多样化推理策略训练和突破性的过轮掩码技术,实现了测试时思考轮数的自然扩展。