苹果正将谷歌巨型Gemini模型塞入iPhone以重塑Siri

苹果计划将谷歌Gemini大模型引入iPhone，以打造更智能的Siri。受限于手机硬件性能不足，庞大的AI模型难以在本地运行，新版Siri将采用端云混合架构，复杂任务将转至谷歌或Nvidia云端处理。为兼顾隐私，苹果与Nvidia合作采用"保密计算"技术，在云端对数据加密处理。此举意味着苹果引以为傲的本地AI隐私优势将有所妥协，新版Siri预计在今年WWDC前后发布。

在日常使用科技产品时，生成式AI几乎已经无处不在，但苹果在这方面的布局相对滞后——这并非完全出于主动选择。自2024年首次承诺推出AI增强版Siri以来，苹果已多次推迟相关发布计划。不过，随着与谷歌达成合作协议，搭载Gemini能力的全新Siri有望于今年晚些时候正式亮相。在即将到来的全球开发者大会（WWDC）前夕，苹果一直在努力将强大的AI能力引入智能手机这一算力相对受限的运行环境。然而，结果可能并不令苹果粉丝满意。

隐私优先原则遭遇现实挑战

苹果长期以来将本地运行AI作为保护用户隐私的重要卖点，但最新报道显示，尽管苹果付出了相当努力，iPhone上的Gemini版Siri仍将在很大程度上依赖谷歌和英伟达的云端基础设施。据The Information报道，融合Gemini的Siri将采用设备端与云端混合运行的方式，这与苹果一贯强调本地AI处理的隐私立场形成了明显反差。

每当新芯片发布时，我们总能听到有关芯片AI能力优化的宣传——苹果也不例外，每次都着重强调神经引擎（Neural Engine）的升级。但尽管宣传语听起来气势磅礴，智能手机实际上并不具备运行大型AI模型的能力。事实上，大多数手机中的GPU处理AI Token的能力反而优于专为AI设计的NPU。苹果神经引擎等组件的设计初衷是实现高效的上下文感知处理，即便手机拥有更快的AI处理速度，其内存容量也不足以将超大规模模型完整加载。

即使是规模最大的AI模型，在实际使用中也只能算作中等水平的助手，这使得本地AI的实用性面临较大挑战。运行在手机上的AI模型体量较小，参数量最多也只有数十亿级别。而据The Information报道，谷歌最新的Gemini模型参数量已达到万亿级别。此外，设备端AI模型还会经过"量化"处理以降低精度，从而在提升运行速度的同时影响Token生成的准确率。综合来看，本地AI在智能程度上远不及云端模型，而即便是大型云端模型，有时也会出现明显的智能短板。

Gemini的"瘦身"之路

谷歌推出了专为移动设备优化的Gemini Nano版本，主要用于驱动Magic Cue、音频摘要等上下文感知功能。然而，Siri定位的是一个对话式助手——用户通过语音与其交互并完成各类任务，这与上述场景有本质区别，需要不同类型的模型来支撑。在Android平台上，谷歌甚至不尝试在本地完成这一过程，与Gemini的对话始终通过云端处理。

在与谷歌达成合作后，苹果显然着手对谷歌庞大的云端Gemini模型进行"蒸馏"处理。模型蒸馏是一种让小型、低资源消耗模型学习模仿大型高成本模型的技术方案。经过充分训练，这一过程能够可靠地迁移实用能力，同时剔除模型中相对次要的权重参数。这或许能让Siri在处理某些任务时依赖本地私有算力完成，但引入云端组件似乎已难以避免。

在云端处理用户AI数据，对苹果而言是一个棘手问题。在WWDC上，苹果很可能会着重宣传其多年积累的芯片设计经验，以及这些积累如何为AI能力奠定基础。然而，The Information透露，苹果在其基于M系列Mac芯片运行的私有云计算（Private Cloud Compute）基础设施上，甚至难以让谷歌未经蒸馏的原始Gemini大模型正常运行。

当更智能的Siri正式推出后，更复杂的任务请求很可能会被路由至谷歌的云端基础设施，而非苹果自身的系统。但这并不意味着它会运行在谷歌的TPU上。据报道，苹果已与英伟达签署协议，采用其保密计算（Confidential Computing）平台来承担这部分工作。该平台可在云端处理过程中对英伟达GPU上的数据保持全程加密，这或许有助于苹果在隐私保护问题上继续向用户表态。苹果甚至可能为整套系统保留"私有云计算"的品牌名称。

用户体验：无缝背后的代价

iPhone大概不会告诉你，每一条Siri请求究竟是由哪个版本的Gemini来处理的。设计混合AI系统（同时依赖本地与云端AI）的厂商，往往喜欢将这种体验描述为"无缝衔接"。不过，用户或许仍能察觉其中的差异。

我们都熟悉大型AI模型在生成Token时令人烦躁的延迟，这一问题在英伟达全加密保密计算方案中表现得尤为明显——其处理速度相较其他AI方案更慢。当Siri需要与远程服务器通信时，用户可能会更明显地感受到这种延迟。但话说回来，在顶级模型只能运行在价值数百万美元的服务器上的现实面前，本地AI所能实现的终究有限。

Q&A

Q1：苹果为什么不把Gemini完整模型直接放到iPhone上本地运行？

A：主要受限于手机的硬件条件。即使是苹果的神经引擎，也是为高效的上下文处理而设计，而非用于运行参数量达万亿级别的超大模型。手机的内存容量同样不足以将完整的Gemini模型加载到内存中。因此，苹果选择通过模型蒸馏技术生成一个更小的本地模型，同时将复杂任务转交云端处理。

Q2：苹果采用英伟达保密计算平台，用户隐私能得到保障吗？

A：英伟达的保密计算（Confidential Computing）平台可以在云端处理过程中对数据进行全程加密，即数据在英伟达GPU上处理时始终处于加密状态。这一机制有助于苹果在一定程度上维护其隐私保护承诺。不过，这种加密处理会带来额外的性能损耗，用户可能会感受到Siri响应速度的下降。

Q3：模型蒸馏技术是什么？苹果如何利用它来优化Gemini模型？

A：模型蒸馏是一种让小型模型学习模仿大型模型行为的训练技术。苹果利用这一方法，将谷歌庞大的云端Gemini模型"浓缩"成一个更轻量、更适合在iPhone本地运行的版本。经过蒸馏后的模型可以处理部分任务，无需联网，从而在一定程度上保护用户隐私；而更复杂的请求则仍会转至云端处理。

来源：Arstechnica

0赞

好文章，需要你的鼓励

苹果正将谷歌巨型Gemini模型塞入iPhone以重塑Siri

来源：Arstechnica

2026

05/29

15:07

分享

点赞

“驯服”千亿模型，鏖战“黑猴打瓦”，龙虾“一键接管” ，锐龙AI Max+ 395开启全能桌面AI主机“王炸”时刻

豪声电子泰国电声工厂初步投产：2500万泰铢项目进入产能爬坡

地瓜机器人将560TOPS端侧算力，加载到了20+头部团队机器人中

WAIC 2026主论坛（下午场）重磅揭晓！

AI评测初创公司Braintrust遭入侵，敦促所有客户轮换API密钥

牙科诊所软件漏洞修复：患者医疗记录曾遭泄露

关键基础设施巨头Itron确认遭遇网络攻击

Vercel数据泄露范围扩大，黑客早于已知时间节点已入侵

苹果与博通签署300亿美元协议，共同生产美国本土无线芯片

摩托罗拉领投BRINC 1.25亿美元，推动紧急救援无人机大规模扩张

AI赋能芯片设计：前景广阔，疑问犹存

Arm今夏将推出自研芯片，Meta成首批客户

创业合伙人关系深度解析：冲突、兼容与有效合作之道

Meta宣布裁员：不拥抱AI的员工将被淘汰

Anthropic推出Claude Opus 4.8：判断力更强、运行速度大幅提升

Claude Opus 4.8正式发布，智能体能力全面升级

Cerebras联合创始人：初创企业成功的关键在于"自信心"

厌倦"氛围编程"，开发者在代码中植入数据删除提示注入攻击

Stratos项目与AI园区新模式：围绕电网建设

CIO如何为回报不明确的新技术投资进行内部倡导

从"习以为常"到"陌生感"：为何员工抵触企业IT系统升级

Anthropic表示Mythos级AI模型即将向公众开放

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: