在 WWDC 2026 大会上,苹果发布了 Siri AI 以及新一代 Apple Intelligence 功能,其底层由谷歌 Gemini 系列模型提供技术支持。苹果表示,双方已"展开深度合作,充分借助 Gemini 系列模型背后的技术",由此催生了面向 Apple Intelligence 的"新一代苹果基础模型",以及被称为"Siri AI"的全新助手体验。
从 Siri 到 Siri AI 的跨越,正如谷歌助手向 Gemini 应用的演进。苹果如今具备了现代 AI 助手的核心能力:个人上下文理解、应用操作、屏幕感知、图像理解以及广泛的世界知识获取,同时支持多轮对话。
在视觉呈现上,苹果相当于 Gemini 浮层界面的是灵动岛,回答内容从屏幕顶部展开,而非 Android 上的底部弹出。回复文本和相关视觉内容均在此显示,用户可向下滑动让答案占满全屏。从胶囊形开口处向下滑动是进入新体验的另一种方式,也可长按侧边按钮或使用"嘿 Siri"唤醒词。苹果还提供了独立的 Siri 应用,用于展示对话历史,其主页以类似 Google Keep 卡片流的形式呈现历史对话。
苹果发布了更具表现力的 Siri 语音,提供多种声音选项,并可通过"语速"和"表现力"两个滑块进行调节。而谷歌在 I/O 2026 大会上宣布,Gemini 即将支持地区方言。
苹果听写功能迎来重大精准度提升,能够"更准确地捕捉用户所说的内容,包括拼写、标点和大小写"。相比之下,即将登陆 Gemini Intelligence 设备的 Gboard Rambler 更进一步——用户"无需在开口前斟酌措辞",谷歌会理解语义、上下文和语气,并将内容整理成简洁且符合个人风格的信息。
苹果为相机应用新增了"Siri"模式。与谷歌 Lens 的 AI 模式或在 Gemini 中添加图片相比,苹果提供的是更有引导性的体验。
Safari 利用 Apple Intelligence 将标签页按主题自动整理,谷歌 Chrome 在 2024 年也曾测试过这一功能。此外,苹果浏览器还推出了"提醒我"功能,可自动监控指定网页的变化。Gemini 用户可通过定时操作或 Spark 实现类似效果,但 Safari 的体验更为直观:用户只需用自然语言描述想查找的内容,关闭标签页后,一旦 Safari 检测到页面变化,便会主动推送通知。
密码应用结合 Apple Intelligence 与 Safari,可"智能体式地"自动访问各网站并修复密码问题;谷歌也在去年发布了 Chrome 中类似的密码智能体。Safari 的另一项新功能"描述扩展"初步触及了生成式 UI 的边界——用户只需用自然语言描述需求,Safari 便能创建专属的自定义扩展,按需调整网页显示效果。
信息:Apple Intelligence 可"理解对话上下文,并提供一键式建议,让用户更轻松地完成创建提醒或备注等操作"。谷歌信息在 AI 之前便已具备此类能力,Pixel 上的 Magic Cue 还能在用户收到相关文字消息时主动推送照片。
日历:添加事件时,苹果提供文本输入框,支持对话式创建,Gemini 也可实现同样功能。
电话:"通话上下文"可主动从各应用中调取相关信息,苹果给出的场景示例是拨打航空公司电话时确认码自动出现——这与谷歌 Magic Cue 的逻辑相同。
家庭应用:Apple Intelligence 将多条提醒整合为一条持续更新的通知,家庭应用还可对摄像头片段进行摘要,并支持语义搜索——这与 Gemini 驱动的谷歌 Home 功能相近。
快捷指令:支持将自然语言提示词转化为快捷指令,Android 目前尚无系统级的同类功能。
图像娱乐场:现已支持生成照片级真实感图像,苹果未披露底层模型。Gemini 应用同样具备此类功能,但独立应用提供了更有引导性的体验。
照片:借助更强大的 Apple Intelligence 图像模型,"净化"功能(更逼真的区域填充)和"延展"功能(图像扩展)的质量均大幅提升;"空间重构"功能则可改变照片的拍摄视角,仿佛"在原始场景中重新定位了镜头"。
与谷歌类似,苹果的订阅服务可解锁更多使用权限,目前明确的限制是图像生成有每日次数上限,"因为这些功能依赖于强大的服务器模型"。
助手:Siri AI 提供的体验与 Chrome 中 Gemini 侧边栏类似,可与屏幕上正在显示的内容进行交互,苹果举例说明了对电子书进行摘要的场景。
Siri AI 现已扩展至更多地区和语言,非英语语言用户也可使用更多功能,包括韩语、葡萄牙语和法语。
以下为部分核心功能对比一览:
苹果 Siri AI 与 Android 谷歌 Gemini 功能对比
功能 | Siri AI / Apple Intelligence | Gemini / Android
AI 语音助手 | Siri AI,支持富有表现力的语音及自定义语速 | Gemini 应用/助手,即将支持地区方言
屏幕感知 | 通过 Siri 实现应用操作与屏幕上下文感知 | 应用内 Gemini 浮层/侧边栏
图像理解 | 相机模式,提供引导式 AI 体验 | 谷歌 Lens + Gemini AI 模式
标签页整理 | Safari 按主题整理标签页 | Chrome 于 2024 年测试过此功能
网页监控 | Safari"提醒我"功能,监控页面变化 | Gemini 定时操作 / Spark
自然语言浏览 | 用自然语言告诉 Safari 你在找什么 | Chrome 中集成 Gemini 搜索
密码管理 | AI 智能体自动修复 Safari 密码 | Chrome 密码智能体(2024 年发布)
自定义浏览器扩展 | 在 Safari 中描述并创建扩展 | Chrome 暂不支持
消息上下文 | 根据对话上下文提供智能建议 | 谷歌信息(AI 之前已有)+ Magic Cue
日历事件 | 对话式创建事件 | Gemini 集成至谷歌日历
通话上下文 | 通话期间自动显示确认码 | Pixel 上的 Magic Cue
家居自动化 | AI 通知摘要 + 摄像头片段摘要 | Gemini 驱动的谷歌 Home
快捷指令/自动化 | 自然语言转快捷指令 | Android 暂无系统级同类功能
图像生成 | 图像娱乐场支持照片级真实感图像 | Gemini 应用(图像生成)
照片编辑 | 净化、延展、空间重构 | 谷歌相册(魔法橡皮擦等)
AI 听写 | 大幅提升准确度,支持标点感知 | Gboard Rambler(即将登陆 Gemini Intelligence 设备)
订阅权限 | 服务器端图像生成有每日次数上限 | Gemini Advanced 订阅
以上对比涵盖 17 项功能,双方差距并不像许多人预想的那样悬殊。在过去相当长的时间里,Android/谷歌在 AI 能力上具有明显领先优势。如今,苹果已在多个领域追平甚至反超。
Q&A
Q1:Siri AI 和以前的 Siri 有什么区别?
A:Siri AI 是苹果与谷歌深度合作的成果,底层基于 Gemini 系列模型技术打造。相比旧版 Siri,Siri AI 具备个人上下文理解、应用操作、屏幕感知、图像理解及广泛世界知识获取能力,同时支持多轮连续对话。整体升级幅度类似谷歌助手向 Gemini 应用的跨代演进。
Q2:苹果快捷指令的自然语言功能,Android 有没有类似的?
A:目前 Android 系统层面尚无与苹果快捷指令自然语言转换能力完全对应的功能。苹果允许用户直接用自然语言提示词生成快捷指令,属于系统级功能;而 Android 目前还没有这样的系统级等价方案,虽然 Gemini 可以在应用内完成一定的任务自动化,但并未形成统一的系统级快捷指令体系。
Q3:苹果的图像生成功能和 Gemini 相比有什么优势?
A:苹果图像娱乐场现已支持照片级真实感图像生成,提供更有引导性的独立应用体验;Gemini 应用同样具备图像生成能力,功能上相近。苹果的优势在于专属应用界面更直观,但两者在图像生成功能上均设有使用限制,苹果的图像生成有每日次数上限,谷歌则通过 Gemini Advanced 订阅提供进阶权限。
好文章,需要你的鼓励
苹果在WWDC上正式发布iOS 27,首个开发者测试版随即上线。新系统对AirPods设置界面进行了全面重构:原本冗长混乱的开关列表被整合为结构清晰的分类菜单,每个选项配有图标,便于快速识别。主设置页面也因此大幅精简。AirPods设置仍位于iPhone设置顶部,仅在设备连接时显示。此次改版显著提升了使用体验,但独立AirPods应用仍未出现。
论文提出ReasonMatch-Bench基准评测AI跨视角空间匹配能力,并通过动态课程强化学习方法DCRL显著提升多模态大模型的宽基线匹配性能,超越多个顶尖商业AI。
Arista Networks推出7060XE7系列,这是一款专为机架级AI基础设施设计的1.6T网络平台产品组合。该系列基于Broadcom Tomahawk 6芯片构建,支持气冷、液冷及混合冷却技术,运行Arista EOS操作系统,具备低延迟和智能数据包缓冲能力。产品涵盖多种配置,部分型号将于2027年第一季度上市。该系列还支持MRC多路径可靠连接协议及SONiC等开源软件,已获得微软Azure、Meta、AMD等头部厂商的生态验证。
这项研究提出MMG2Skill框架,让AI智能体能将互联网人类教程转化为可执行技能文件,并通过失败轨迹自动迭代修正,在桌面操作、游戏和卡牌三类任务上全面超越直接使用原始教程的方式。