在日常使用科技产品时,生成式AI几乎已经无处不在,但苹果在这方面的布局相对滞后——这并非完全出于主动选择。自2024年首次承诺推出AI增强版Siri以来,苹果已多次推迟相关发布计划。不过,随着与谷歌达成合作协议,搭载Gemini能力的全新Siri有望于今年晚些时候正式亮相。在即将到来的全球开发者大会(WWDC)前夕,苹果一直在努力将强大的AI能力引入智能手机这一算力相对受限的运行环境。然而,结果可能并不令苹果粉丝满意。
隐私优先原则遭遇现实挑战
苹果长期以来将本地运行AI作为保护用户隐私的重要卖点,但最新报道显示,尽管苹果付出了相当努力,iPhone上的Gemini版Siri仍将在很大程度上依赖谷歌和英伟达的云端基础设施。据The Information报道,融合Gemini的Siri将采用设备端与云端混合运行的方式,这与苹果一贯强调本地AI处理的隐私立场形成了明显反差。
每当新芯片发布时,我们总能听到有关芯片AI能力优化的宣传——苹果也不例外,每次都着重强调神经引擎(Neural Engine)的升级。但尽管宣传语听起来气势磅礴,智能手机实际上并不具备运行大型AI模型的能力。事实上,大多数手机中的GPU处理AI Token的能力反而优于专为AI设计的NPU。苹果神经引擎等组件的设计初衷是实现高效的上下文感知处理,即便手机拥有更快的AI处理速度,其内存容量也不足以将超大规模模型完整加载。
即使是规模最大的AI模型,在实际使用中也只能算作中等水平的助手,这使得本地AI的实用性面临较大挑战。运行在手机上的AI模型体量较小,参数量最多也只有数十亿级别。而据The Information报道,谷歌最新的Gemini模型参数量已达到万亿级别。此外,设备端AI模型还会经过"量化"处理以降低精度,从而在提升运行速度的同时影响Token生成的准确率。综合来看,本地AI在智能程度上远不及云端模型,而即便是大型云端模型,有时也会出现明显的智能短板。
Gemini的"瘦身"之路
谷歌推出了专为移动设备优化的Gemini Nano版本,主要用于驱动Magic Cue、音频摘要等上下文感知功能。然而,Siri定位的是一个对话式助手——用户通过语音与其交互并完成各类任务,这与上述场景有本质区别,需要不同类型的模型来支撑。在Android平台上,谷歌甚至不尝试在本地完成这一过程,与Gemini的对话始终通过云端处理。
在与谷歌达成合作后,苹果显然着手对谷歌庞大的云端Gemini模型进行"蒸馏"处理。模型蒸馏是一种让小型、低资源消耗模型学习模仿大型高成本模型的技术方案。经过充分训练,这一过程能够可靠地迁移实用能力,同时剔除模型中相对次要的权重参数。这或许能让Siri在处理某些任务时依赖本地私有算力完成,但引入云端组件似乎已难以避免。
在云端处理用户AI数据,对苹果而言是一个棘手问题。在WWDC上,苹果很可能会着重宣传其多年积累的芯片设计经验,以及这些积累如何为AI能力奠定基础。然而,The Information透露,苹果在其基于M系列Mac芯片运行的私有云计算(Private Cloud Compute)基础设施上,甚至难以让谷歌未经蒸馏的原始Gemini大模型正常运行。
当更智能的Siri正式推出后,更复杂的任务请求很可能会被路由至谷歌的云端基础设施,而非苹果自身的系统。但这并不意味着它会运行在谷歌的TPU上。据报道,苹果已与英伟达签署协议,采用其保密计算(Confidential Computing)平台来承担这部分工作。该平台可在云端处理过程中对英伟达GPU上的数据保持全程加密,这或许有助于苹果在隐私保护问题上继续向用户表态。苹果甚至可能为整套系统保留"私有云计算"的品牌名称。
用户体验:无缝背后的代价
iPhone大概不会告诉你,每一条Siri请求究竟是由哪个版本的Gemini来处理的。设计混合AI系统(同时依赖本地与云端AI)的厂商,往往喜欢将这种体验描述为"无缝衔接"。不过,用户或许仍能察觉其中的差异。
我们都熟悉大型AI模型在生成Token时令人烦躁的延迟,这一问题在英伟达全加密保密计算方案中表现得尤为明显——其处理速度相较其他AI方案更慢。当Siri需要与远程服务器通信时,用户可能会更明显地感受到这种延迟。但话说回来,在顶级模型只能运行在价值数百万美元的服务器上的现实面前,本地AI所能实现的终究有限。
Q&A
Q1:苹果为什么不把Gemini完整模型直接放到iPhone上本地运行?
A:主要受限于手机的硬件条件。即使是苹果的神经引擎,也是为高效的上下文处理而设计,而非用于运行参数量达万亿级别的超大模型。手机的内存容量同样不足以将完整的Gemini模型加载到内存中。因此,苹果选择通过模型蒸馏技术生成一个更小的本地模型,同时将复杂任务转交云端处理。
Q2:苹果采用英伟达保密计算平台,用户隐私能得到保障吗?
A:英伟达的保密计算(Confidential Computing)平台可以在云端处理过程中对数据进行全程加密,即数据在英伟达GPU上处理时始终处于加密状态。这一机制有助于苹果在一定程度上维护其隐私保护承诺。不过,这种加密处理会带来额外的性能损耗,用户可能会感受到Siri响应速度的下降。
Q3:模型蒸馏技术是什么?苹果如何利用它来优化Gemini模型?
A:模型蒸馏是一种让小型模型学习模仿大型模型行为的训练技术。苹果利用这一方法,将谷歌庞大的云端Gemini模型"浓缩"成一个更轻量、更适合在iPhone本地运行的版本。经过蒸馏后的模型可以处理部分任务,无需联网,从而在一定程度上保护用户隐私;而更复杂的请求则仍会转至云端处理。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。