上个月,Google 发布 Gemini 2.5 引起轰动,此前在与 OpenAI 等公司的竞争中处于追赶地位的 Google,一跃成为 AI 领域的领跑者。这个首个实验性模型仅仅是个开始。Google 正在其生态系统的更多场景中部署改进后的 AI,从面向开发者的 Vertex AI 到面向消费者的 Gemini 应用都包括在内。
Gemini 模型推出速度如此之快,以至于很难把握 Google 的产品线规划。随着公司开始将其产品迁移到新分支,情况变得更加明朗。在 Google Cloud Next 大会上,公司宣布了 Gemini 2.5 Flash 的初步可用性。这个模型基于与 Gemini 2.5 Pro 相同的代码,但运行速度更快、成本更低。
目前在 Gemini 应用中还看不到 Gemini 2.5 Flash —— 它首先在 Vertex AI 开发平台上启用。Pro 版本的实验性广泛发布帮助 Google 收集数据并了解人们如何与新模型交互,这些经验有助于 2.5 Flash 的开发。
Flash 版本比 Pro 版本的参数量更小,尽管 Google 不愿透露具体的参数数量。Flash 模型能为简单的提示提供更快的答案,这也降低了成本。我们知道 2.5 Pro (实验版) 是首个实现动态思考的 Gemini 模型,这种技术允许模型调节回答时的模拟推理量。2.5 Flash 也是一个具备思考能力的模型,而且更加先进。
我们最近与 Google 的 Tulsee Doshi 交谈时了解到,2.5 Pro (实验版) 在响应简单查询时仍然容易"过度思考"。但计划是在最终发布版本中进一步改进动态思考,团队也希望给开发者更多控制该特性的能力。这些改进似乎在 Gemini 2.5 Flash 中得到了实现,它包含了"动态且可控的推理"。
最新的 Gemini 模型将根据提示的复杂程度选择"思考预算"。这有助于减少 2.5 Flash 的等待时间和处理时间。开发者甚至可以精细控制预算,在适当的情况下降低成本并加快速度。Gemini 2.5 模型在未来几周还将为 Vertex AI 增加监督调优和上下文缓存功能。
除了 Gemini 2.5 Flash 的推出,更大的 Pro 模型也有了新的用途。Google 最大的 Gemini 模型现在为其 Deep Research 工具提供支持,该工具此前运行的是 Gemini 2.0 Pro。Deep Research 让你只需输入一个提示就能深入探索某个主题。该工具会在互联网上收集数据并综合生成详细报告。
升级到 Gemini 2.5 后,Google 表示 Deep Research 的准确性和实用性都得到了提升。上图显示了 Google 声称相比 OpenAI 的深度研究工具具有的优势。这些统计数据基于用户评估(而非综合基准测试),显示用户对 Gemini 2.5 Pro 报告的偏好超过 2:1。
Deep Research 在非付费账户上可以有限使用,但无法使用最新模型。搭载 2.5 Pro 的 Deep Research 目前仅限 Gemini Advanced 订阅用户使用。不过,我们预计不久后 Gemini 应用中的所有模型都将升级到 2.5 分支。借助动态推理和新的 TPU,Google 可能开始降低目前让生成式 AI 无法盈利的高昂成本。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。