进入 AI 智能体时代,谷歌今日正式发布 Gemini Spark,这是一款全天候运行的个人 AI 助手,旨在帮助用户管理数字生活并代为处理实际工作。
Gemini Spark 底层搭载最新发布的 Gemini 3.5 Flash 模型,并借助谷歌更新后的 Antigravity 平台来统筹协调各类 AI 智能体。它深度集成于谷歌旗下用户日常使用的产品生态,包括 Gmail、Docs、Slides 等,能够帮助用户查找信息、理解上下文、学习个性化日常习惯,并协助用户快速掌握最新动态。
Spark 最大的特点在于,即便用户离开电脑或手机,它仍会在后台持续运行。用户可以将其配置为一名数字秘书,由其接手复杂任务,例如整理收件箱、搜索信息,以及关注那些容易被淹没在信息洪流中的内容。
通过 Spark,用户可以设置触发条件,例如监控信用卡账单以提醒新增订阅费用或隐性收费。用户还可以指派智能体监视收件箱,持续跟踪工作或生活中的最新动态,帮助用户掌握同事动向、重要截止日期,或生成每日摘要,让用户专注于手头工作。
Spark 甚至能够跨邮件和聊天记录整合会议原始笔记,自动生成包含相关内容的 Docs 文档,并在启动新项目时起草配套邮件,帮助用户始终掌握全局。
谷歌表示,Spark 目前仅接入谷歌自身生态,但即将推出第三方连接器支持。Canva、OpenTable 和 Instacart 的模型上下文协议(MCP)接入今日正式上线,谷歌还表示未来数周内将宣布更多第三方合作伙伴。
此外,Spark 还规划了多项新功能,包括通过短信和邮件与 Spark 交互、创建自定义子智能体,以及操控本地浏览器等能力。
由于 Spark 是一款功能强大的智能体助手,谷歌强调用户将始终保持完全控制权。用户可自主决定何时开启、授权哪些应用接入,而涉及消费或发送邮件等高风险操作,系统也会在执行前主动征求用户确认。
Gemini 应用迎来全面焕新
谷歌对 Gemini 应用及整体交互体验进行了重新设计,引入名为"Neural Expressive"的新设计语言,融合流畅动画、鲜明色彩与触感反馈,提升了整体直观性。
据谷歌介绍,全新视觉效果以流动感和美观性为核心设计目标,让用户能直观感受到界面正处于"思考"状态,从而提升互动参与感。
Gemini Live 语音对话功能现已直接集成至应用与界面之中。用户可随时在文字与语音之间自由切换——既可以在 Gemini 界面中输入详细问题,也可以随时发起简短的语音对话,并在两种模式间灵活来回切换。
谷歌表示,此次改进将让用户可以按照自己的节奏与 Gemini 交流,根据表达需求自由选择方式,不必担心思路被中断。
为提升回复质量,谷歌还引入了最新模型架构,以更好地理解对话语境。例如,Gemini 将根据情况判断是否需要详细展开,还是给出简短回复,或者融入丰富图像、互动时间轴、带旁白的视频以及动态图表等多种形式。
用户还可选择开启"每日简报"功能。开启后,一个智能体将根据用户的收件箱、日历、搜索记录及其他偏好,为其生成个性化的早间摘要,作为每天信息获取的第一站。该简报不仅仅是简单的内容汇总,还会根据用户的具体目标进行整理和优先级排序,甚至给出即时的下一步行动建议。用户也可通过点赞或点踩快速调整其推送偏好。
谷歌透露,公司对 macOS 版 Gemini 桌面应用有着重要规划,计划将 Spark 引入该应用,使其能够处理桌面本地文件上的复杂任务,其运作方式类似于 Anthropic 的 Claude Cowork,并具备自动化工作能力。
在桌面应用的语音体验方面,谷歌也在持续创新。用户无需在思考时刻意回避"嗯""啊""就是说"等口语词。只需自然说话,Gemini 便会结合屏幕上的上下文内容,将随意流淌的语言转化为精准的草稿,并即时将零散的想法重新整理,在光标所在位置直接呈现用户的真实意图。
全新交互设计今日起面向网页端、Android 及 iOS 同步推出。"每日简报"功能面向谷歌 AI Plus 及以上级别订阅用户开放。macOS 版应用已向全体用户开放下载,Gemini Spark 及新版语音功能预计于今夏上线。Gemini Spark 将于本周率先向可信测试用户开放,下周起以 Beta 版形式向美国地区谷歌 AI Ultra 订阅用户推出。
Q&A
Q1:Gemini Spark 是什么?它能做什么?
A:Gemini Spark 是谷歌推出的全天候 AI 智能体助手,底层采用 Gemini 3.5 Flash 模型。它能够在用户离开设备后继续在后台运行,帮助用户整理收件箱、监控账单、跟踪工作动态、汇总会议笔记并起草邮件等,相当于一名随时待命的数字秘书。
Q2:Gemini Spark 支持哪些第三方应用接入?
A:目前 Gemini Spark 已支持通过模型上下文协议(MCP)接入 Canva、OpenTable 和 Instacart 三个第三方平台,谷歌表示未来数周内还将宣布更多合作伙伴。此外,谷歌还计划为 Spark 增加短信交互、自定义子智能体及本地浏览器操控等新功能。
Q3:Gemini Spark 什么时候可以使用?向哪些用户开放?
A:Gemini Spark 将于发布当周率先向可信测试用户开放,下周起以 Beta 版形式向美国地区谷歌 AI Ultra 订阅用户推出。macOS 桌面端的 Spark 功能及新版语音特性计划于今年夏季上线。"每日简报"功能则面向谷歌 AI Plus 及以上级别订阅用户开放。
好文章,需要你的鼓励
Anthropic首次将其最强AI模型向普通用户开放,但设有严格安全限制。Claude Fable 5在软件工程、知识工作和视觉任务方面表现突出,但在网络安全、生物、化学等高风险领域会自动屏蔽响应并回退至Claude Opus 4.8。该模型通过API和企业计划提供访问,定价为每百万输入令牌10美元、输出令牌50美元。Anthropic同时要求对所有流量保留30天数据,以防范新型越狱攻击。
香港科技大学等机构构建SpatialAct基准,测试视觉语言模型能否在3D场景中将空间理解转化为可靠行动,揭示AI存在显著的推理与行动鸿沟。
根据Salesforce与YouGov联合调查,美国工人比全球平均水平高出43%成为AI怀疑者,超过半数美国工人对AI持怀疑态度。与印度、泰国等新兴经济体80%以上的AI信任度相比,美国仅约50%。原因不仅在于担忧失业,还包括AI工具输出质量差、培训不足及数据基础薄弱等问题。研究显示,成功的AI应用需要高质量数据、员工培训与实验文化的共同支撑。
这项研究发现AI统一多模态模型中存在显著"模态鸿沟":文字知识编辑成功率高达92%,但图像生成验证准确率最高仅18.5%,并提出推理增强方法改善跨模态知识传递。