在去年的谷歌I/O大会上,Gemini 2.5系列还是焦点所在,而如今一年过去,谷歌已相继发布了3.0和3.1系列,现在又迈入了3.5时代。Gemini 3.5 Flash今日起正式向谷歌旗下众多产品推送,谷歌再次宣称该模型的表现全面超越上一代Pro版本。
这一"每代Flash追平甚至超越前代Pro"的规律,已成为谷歌过去一年模型迭代的明显趋势。但谷歌团队表示,这次发布尤为特殊。Gemini 3.5 Flash据称在具备前沿级智能的同时,还拥有足够高的运行效率,有望让复杂的智能体任务真正实现规模化落地。Gemini产品管理高级总监Tulsee Doshi表示,Gemini 3.5 Flash的技术创新已贯穿多款谷歌产品,而这仅仅是一个开始。
众所周知,生成式AI目前仍是一个"烧钱"领域,各大AI厂商都在寻找提升效率的路径。这一问题在构建需要长时间运行以完成复杂任务的智能体应用时尤为突出。Gemini 3.5 Flash或许是迈向可行方案的重要一步。该模型每秒可输出近300个Token,而其在基准测试中的得分却与体量更大的前沿模型(如3.1 Pro)相当,后者的生成速度仅为前者的四分之一。
据Doshi介绍,团队在Gemini 3.5 Flash的预训练阶段进行了大量改进,而来自开发者实际使用反馈的洞察也正在产生显著成效。
"在后训练阶段,我们真正开始挖掘用户反馈的价值,例如来自Antigravity项目的反馈,"Doshi说,"这正是你在代码性能和工具调用性能方面所看到的进步。我们希望这种阶梯式提升能持续下去,让3.5 Pro更上一层楼,下一代Flash也能追平同期Pro的表现。"
谷歌在新模型上重点发力代码生成能力,这是AI智能体应用的核心切入点。Terminal Bench和SWE-Bench Pro两项测试均显示出显著提升——3.5 Flash大幅领先旧版Flash模型,并较Gemini 3.1 Pro实现了小幅但可量化的进步。其得分已与OpenAI体量更大、价格更昂贵的GPT-4.5处于同一水平。
智能体工作流中的一大障碍,在于生成式模型如何操控为人类设计的操作界面。Doshi坦言这并非易事:"诸如界面控制之类的操作成本较高,因为模型需要扫描页面、判断点击位置,并通过多步骤完成操作。我认为Flash之所以能做到这一点,正是得益于质量与成本的平衡。"
谷歌的AI评估结果同样印证了这些进步。在谷歌目前的基准测试集中,OSWorld-Verified专门测试模型在真实计算环境中处理通用任务的能力。结果与代码方面的提升如出一辙:Gemini 3.5 Flash大幅超越旧版Flash模型,甚至比Gemini 3.1 Pro略胜一筹,与GPT-4.5基本持平。
Gemini 3.5 Flash已在谷歌内部完成部署,Doshi指出其影响显著。"我们一直在用一套内部指标来评估,专门衡量谷歌员工的编码方式,也就是观察模型在我们自有代码库上的实际表现,"Doshi说,"你会发现3.1 Pro和3.5 Flash之间存在质的飞跃。"
谷歌去年推出的Antigravity IDE也随之升级至2.0版本,并支持Gemini 3.5 Flash。此次更新将支持多个并行工作流,本质上是由Gemini 3.5 Flash派生出的多个子智能体。谷歌表示,这一能力之所以成为可能,正是因为新模型在Token生成上极为高效。
除Antigravity外,Gemini 3.5 Flash还将陆续登陆Gemini应用、API接口、AI Studio、Android Studio以及谷歌全系企业产品。至于Pro版本,谷歌表示已进入内部测试阶段,预计下个月正式发布。
Gemini Spark:智能体形态的3.5 Flash
各大公司正逐渐将"智能体"取代"AI"成为新的技术热词。借助Gemini Spark,谷歌向用户推出了首个专属AI智能体。Spark在谷歌云端全天候运行,无需占用用户本地计算资源,也不依赖任何特定设备或浏览器标签。它贯穿用户整个谷歌生态,调用Gemini Flash 3.5同步执行多个智能体工作流。
那么,AI智能体究竟是什么?Doshi这样解释:"我将智能体理解为模型与调度框架(软件接口)的组合,使其能够真正代表用户采取行动。"
使用Spark时,你只需给出指令,剩下的事由AI来处理。它可以随时间推移持续工作,从你的谷歌云端硬盘文件、Gmail邮件等处获取上下文信息。你可以让它监控特定邮件并将其汇总成每日简报,或追踪你的会议内容并生成摘要和待办事项。Spark还可以向你发送通知或提出追问以更好地满足需求,谷歌也强调,它在执行"高风险操作"前会主动请求用户确认。
Doshi表示,她在过去几周的内部测试期间已将Gemini Spark用于日常工作和生活。她分享了两个具体案例:在I/O大会筹备期间,她用Spark汇总了3.5 Flash的评估数据和各项指标,自动生成了一份汇报幻灯片。"效果出乎意料地好,所花时间也比我自己做要少得多,"她说。
在个人生活方面,她创建了一个追踪孩子发育里程碑的智能体,该智能体不仅能分析数据,还会建议值得关注的其他指标。"我有点像在用对待AI模型的方式来对待我的孩子,"Doshi打趣道,"我知道这听起来有点奇怪,但真的很有帮助。"
或许不少人会对将大量个人数据交给运行在谷歌云端的AI模型感到顾虑,但如果这些功能真正变得实用,用户的观念或许会随之转变。毕竟,如今人们与谷歌共享数据的诸多方式,在十年前也曾是难以想象的。
Spark将于下周起向AI Ultra订阅用户推送。谷歌新增了Ultra套餐中的一个新层级,提供最新功能的访问权限,月费为100美元——对大多数人而言仍是不小的开销。不过,原有的200美元/月套餐(已较此前降价50美元)依然保留,适合需要更高Token额度的用户。谷歌表示,未来计划将Spark逐步开放给所有用户,包括未付费的Gemini用户。
Gemini Omni:迈向全能模型(的第一步)
去年I/O上亮相的Veo 3视频生成模型令人印象深刻,而今年又有新的视频生成器登场。Gemini Omni Flash将在Gemini应用、YouTube和Flow等产品中取代Veo的地位。谷歌表示,Omni从设计之初便以真正的多模态为目标,可接受任意形式的输入,并生成图像、文本、视频或音频等任意类型的输出。不过,目前绝大多数能力尚未完全开放,谷歌先从视频入手,这也是Omni取代Veo的原因。
Omni Flash虽与Gemini 3.5系列有所相似,但并非明确归属于该分支,而是谷歌的一次全新尝试,或许预示着公司AI产品的全新走向。"Gemini的愿景从一开始就是多模态输入、多模态输出,"Doshi说,"Omni是朝这一愿景迈出的重要一步。"
目前,用户仍需根据需求连接对应的模型:图像生成对应Nano Banana,音乐创作对应Lyria,开发者也必须接入各自对应的API,且并非所有工具都集成了所有模型。未来,一切或许都将流经Omni这样的统一模型,但目前仍处于早期阶段,Gemini团队对于Omni的演进路径尚未完全确定。
未来几个月将是关键窗口期,谷歌将观察Omni模型扩展更多输出类型后的表现,并与旗下其他模型进行比较。"我们可能会发现,某些特定使用场景仍然更适合专用定制模型,"Doshi说,"能否在接下来几个月内将一切整合进统一体验,目前还没有定论。"
首个Omni版本为Flash模型,体量小于前沿级Pro模型。谷歌有意在某个时间点推出Omni Pro版本,但目前尚无具体时间表。如果Omni的多模态能力最终成熟落地,这些模型或将成为未来Gemini版本的基础架构,助力谷歌简化整体AI生态。
Q&A
Q1:Gemini 3.5 Flash的生成速度有多快?和其他模型比怎么样?
A:Gemini 3.5 Flash每秒可输出近300个Token,是Gemini 3.1 Pro生成速度的约四倍。尽管速度大幅提升,但其在Terminal Bench、SWE-Bench Pro等基准测试中的得分与3.1 Pro相当,甚至略有超越,且与OpenAI的GPT-4.5处于同一水平。这使其在保持前沿级智能的同时,大幅降低了运行成本,对需要长时间运行的智能体任务尤其有利。
Q2:Gemini Spark是什么?怎么用?
A:Gemini Spark是谷歌推出的首个专属AI智能体,基于Gemini 3.5 Flash运行,全天候运行于谷歌云端,无需占用用户本地设备资源。用户可以向Spark下达指令,它会自动调取Gmail、谷歌云端硬盘等数据来执行任务,例如生成邮件摘要、追踪会议内容、自动整理报告等。Spark目前将首先向AI Ultra订阅用户(月费100美元)开放,未来计划推广至所有用户。
Q3:Gemini Omni和现有的Gemini模型有什么区别?
A:Gemini Omni是谷歌面向真正多模态能力打造的新模型,目标是实现"任意输入、任意输出",涵盖文本、图像、视频和音频。而现有Gemini模型通常各有专责,比如图像生成走Nano Banana、音乐创作走Lyria。Omni Flash目前主要用于视频生成,将在部分产品中取代Veo,未来谷歌计划逐步扩展其输出类型,并可能推出体量更大的Omni Pro版本。
好文章,需要你的鼓励
Locus Robotics宣布收购加拿大温哥华机器人公司Nexera Robotics,将其专有的NeuraGrasp末端执行器技术整合至Locus Array平台。NeuraGrasp融合AI抓取智能、计算机视觉及专利软膜结构,可动态适应不同形状、材质、重量的商品,显著扩大了可自主拣选的SKU类型范围。此次收购将加速Locus Robotics在移动操控领域的技术路线图,推动仓储全流程自动化履约能力迈上新台阶。
ServiceNow研究团队构建的EVA-Bench框架,通过AI对AI的音频通话测试,量化评估语音客服系统在准确性和对话体验两个维度的真实表现,揭示现有系统普遍存在的可靠性缺口。
人形机器人正从原型验证迈向早期商业部署,汽车制造与物流领域预计成为未来十年核心需求市场。IDTechEx预测,相关市场规模将于2030年代初达到约250亿美元,2036年年出货量接近180万台。硬件成本持续下降,均价有望从2024年的约11.47万美元降至2030年的约3.7万美元。高利用率场景下运营成本有望低于5美元/小时,投资回收期可缩短至约6个月。但大规模商业化的关键,仍在于软件能力、任务泛化与系统集成的持续突破。
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。