谷歌在今年一年一度的I/O开发者大会上,宣布了旗下Gemini应用的多项重大更新。除了引人注目的界面重新设计之外,谷歌还为Gemini带来了两款全新AI模型,并正在测试一个能够自动完成后台任务的常驻AI智能体。
以下是本次I/O大会上Gemini宣布的全部重要更新。
速度更快、能力更强的Gemini 3.5 Flash正式上线
谷歌最新旗舰AI模型将登陆Gemini应用。谷歌表示,全新的Gemini 3.5 Flash在速度与效率上均超越同类主流AI模型,同时具备生成"更丰富、更具交互性"的网页用户界面与图形的能力。此外,在辅助开发实用AI智能体方面,该模型也实现了"重大飞跃"——根据谷歌的测评数据,其在编程与智能体基准测试中的表现已超过Gemini 3.1 Pro。
Gemini 3.5 Flash仅是Gemini 3.5系列的首款产品,谷歌计划于下个月正式推出3.5 Pro版本。
Gemini迎来"Neural Expressive"全新视觉设计
除了新模型之外,谷歌还为Gemini应用带来了一套名为"Neural Expressive"的全新设计语言。升级后的应用拥有更流畅的动画效果、更鲜明的色彩搭配、全新的字体排版,以及点击按钮时的触感反馈。
谷歌同时对Gemini的回复展示方式进行了优化,最重要的信息将优先呈现在顶部,并配以图片、交互式时间轴、旁白视频和动态图表。此外,谷歌还简化了从文字输入切换至语音交互模式Gemini Live的操作流程,该模式即将支持更多地区方言。"Neural Expressive"新设计将陆续在网页版、Android及iOS版Gemini应用中全面铺开。
Gemini Omni Flash:任意输入皆可生成视频
谷歌在Gemini应用中引入了一种全新类型的模型,未来将实现"接受任意输入、生成任意内容"。该系列的首款产品Gemini Omni Flash目前支持结合图片、音频、视频与文字等多种输入方式来生成视频。谷歌表示,Gemini Omni能够创建具有更真实物理效果的场景,并具备对"下一步内容"进行推理的能力。
与此同时,谷歌还推出了全新的Avatars功能,用户可以使用自己的声音,创建以数字化身形象出现的视频。用户还可以通过在Gemini应用中对话的方式,对Gemini Omni的生成内容进行编辑。Gemini Omni Flash目前正在向Google AI Plus、Pro及Ultra订阅用户开放,覆盖Gemini应用与Google Flow平台,同时也将在YouTube Shorts及YouTube创作者应用上免费提供。
Gemini Spark:谷歌推出常驻后台AI智能体
谷歌正式推出Gemini Spark,这是一款"始终在线"的AI智能体,可在用户处理其他事务的同时,在后台自动完成各类任务。Gemini Spark与今年早些时候引发科技圈广泛关注的开源AI智能体平台OpenClaw理念相近。
Gemini Spark能够执行发送邮件、扫描月度信用卡账单以识别隐藏订阅费用、整理会议记录摘要等任务。它基于Gemini 3.5 Flash运行,可接入Docs、Sheets、Slides等Google Workspace应用,以及Canva、Instacart、OpenTable等第三方应用。此外,该AI智能体还可以通过macOS版Gemini应用访问本地文件。
Gemini Spark本周已向受邀测试用户开放,并计划于下周面向美国地区的Google AI Ultra订阅用户启动公测。
Gemini Daily Brief:一站式日程简报助手
谷歌还为Gemini应用带来了一款名为"Daily Brief"的全新AI智能体。它能够整合用户已连接至Gemini的各类应用中的信息,汇总来自日历的待办事项与来自Gmail的最新消息,生成一份个性化的每日简报。
谷歌表示,Daily Brief将依据用户的目标对简报内容进行整理与优先级排序,用户还可以通过点赞或点踩来对简报质量进行反馈。Daily Brief从本周二起面向美国地区的Google AI Plus、Pro及Ultra订阅用户正式推出。
Q&A
Q1:Gemini 3.5 Flash相比之前的版本有哪些提升?
A:Gemini 3.5 Flash是谷歌最新旗舰AI模型,速度和效率均优于同类主流AI模型,支持生成更丰富、更具交互性的网页界面与图形。在编程和AI智能体基准测试中,其表现已超过Gemini 3.1 Pro,同时这也是Gemini 3.5系列的首款产品,后续还将推出3.5 Pro版本。
Q2:Gemini Spark智能体具体能帮用户做什么?
A:Gemini Spark是一款"始终在线"的后台AI智能体,用户在处理其他事务时,它可以自动完成多种任务,包括发送邮件、扫描信用卡账单识别隐藏订阅费用、整理会议记录等。它基于Gemini 3.5 Flash运行,支持接入Google Workspace及Canva、Instacart等第三方应用,macOS用户还可通过它访问本地文件。
Q3:Gemini Omni Flash生成视频的功能有哪些特点?
A:Gemini Omni Flash支持融合图片、音频、视频与文字等多种输入方式来生成视频,生成的场景具有更真实的物理效果,并能对后续内容进行智能推理。此外还配备了Avatars功能,用户可用自己的声音制作数字化身视频,并通过对话方式编辑生成结果。该功能向Google AI订阅用户开放,同时也在YouTube Shorts上免费提供。
好文章,需要你的鼓励
Locus Robotics宣布收购加拿大温哥华机器人公司Nexera Robotics,将其专有的NeuraGrasp末端执行器技术整合至Locus Array平台。NeuraGrasp融合AI抓取智能、计算机视觉及专利软膜结构,可动态适应不同形状、材质、重量的商品,显著扩大了可自主拣选的SKU类型范围。此次收购将加速Locus Robotics在移动操控领域的技术路线图,推动仓储全流程自动化履约能力迈上新台阶。
ServiceNow研究团队构建的EVA-Bench框架,通过AI对AI的音频通话测试,量化评估语音客服系统在准确性和对话体验两个维度的真实表现,揭示现有系统普遍存在的可靠性缺口。
人形机器人正从原型验证迈向早期商业部署,汽车制造与物流领域预计成为未来十年核心需求市场。IDTechEx预测,相关市场规模将于2030年代初达到约250亿美元,2036年年出货量接近180万台。硬件成本持续下降,均价有望从2024年的约11.47万美元降至2030年的约3.7万美元。高利用率场景下运营成本有望低于5美元/小时,投资回收期可缩短至约6个月。但大规模商业化的关键,仍在于软件能力、任务泛化与系统集成的持续突破。
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。