几乎过去几年的每一项技术创新都聚焦于一件事:生成式AI。许多这些所谓的革命性系统运行在数据中心昂贵的大型服务器上,但与此同时,芯片制造商正在大肆宣传他们为消费设备带来的神经处理单元(NPU)的强大功能。每隔几个月都是同样的情况:这个新NPU比上一个快30%或40%。这应该让你能做一些重要的事情,但没人真正解释那是什么。
专家设想着一个拥有设备端智能的安全个人AI工具的未来,但这与AI繁荣的现实相符吗?边缘端AI听起来很棒,但几乎每个重要的AI工具都在云端运行。那么你手机里的那块芯片到底在做什么?
什么是NPU
推出新产品的公司经常被夸大的形容词和模糊的营销术语所困扰,因此他们在解释技术细节方面做得很糟糕。对于大多数购买手机的人来说,为什么需要硬件来运行AI工作负载并不清楚,所谓的好处很大程度上是理论上的。
如今许多旗舰消费者处理器都是系统级芯片(SoC),因为它们在单个硅片上集成了多个计算元件——如CPU核心、GPU和图像控制器。这适用于高通的Snapdragon或谷歌的Tensor等移动部件,以及英特尔Core Ultra等PC组件。
NPU是芯片的一个较新添加,但它并非一夜间出现——有一个传承将我们带到了这里。NPU擅长它们所做的事情,因为它们强调并行计算,这在其他SoC组件中也很重要。
高通在其新产品发布会上投入大量时间讨论其Hexagon NPU。敏锐的观察者可能会记得这个品牌从该公司的数字信号处理器(DSP)产品线重新使用,这样做有充分的理由。
"我们进入AI处理的旅程大概从15或20年前开始,我们的第一个锚点是关注信号处理,"高通AI产品负责人Vinesh Sukumar说。DSP与NPU相比具有类似的架构,但它们更简单,专注于处理音频(如语音识别)和调制解调器信号。
随着我们称之为"人工智能"的技术集合发展,工程师开始将DSP用于更多类型的并行处理,如长短期记忆(LSTM)。Sukumar解释说,随着行业迷恋卷积神经网络(CNN),这种支撑计算机视觉等应用的技术,DSP开始专注于矩阵函数,这对生成式AI处理也至关重要。
虽然这里有架构传承,但说NPU只是花哨的DSP并不完全正确。"如果你从一般意义上谈论DSP,是的,[NPU]是一个数字信号处理器,"联发科助理副总裁Mark Odani说。"但它已经走了很长的路,在并行性、Transformer如何工作以及保持大量参数进行处理方面更加优化。"
尽管在新芯片中如此突出,NPU并不是在"边缘"运行AI工作负载的严格必要条件,这个术语用来区分本地AI处理与基于云的系统。CPU比NPU慢,但可以在不使用太多电力的情况下处理一些轻量级工作负载。同时,GPU通常可以处理比NPU更多的数据,但它们需要更多电力。根据高通的Sukumar,有时你可能想要这样做。例如,在游戏运行时运行AI工作负载可能偏向GPU。
"在这里,你的成功标准是在保持空间分辨率、像素的动态范围的同时,不能降低帧率,同时还能在该空间内为玩家提供AI推荐,"Sukumar说。"在这种用例中,在图形引擎中运行实际上是有意义的,因为这样你就不必在图形和像NPU这样的特定领域AI引擎之间不断切换。"
边缘生活很艰难
不幸的是,许多设备中的NPU处于闲置状态(不仅仅在游戏期间)。本地与云端AI工具的混合偏向于后者,因为那是大语言模型的天然栖息地。AI模型在强大的服务器上训练和微调,那里是它们运行最佳的地方。
基于服务器的AI,如Gemini和ChatGPT的完整版本,不像运行在你手机NPU上的模型那样受资源限制。考虑谷歌最新版本的设备端Gemini Nano模型,它有32k Token的上下文窗口。这比上一个版本有超过2倍的改进。然而,基于云的Gemini模型的上下文窗口高达100万Token,意味着它们可以处理更大量的数据。
基于云的和边缘AI硬件都将继续改进,但平衡可能不会向NPU有利的方向倾斜。"云总是比移动设备拥有更多计算资源,"谷歌Pixel团队高级产品经理Shenaz Zack说。
"如果你想要最准确的模型或最强力的模型,这些都必须在云端完成,"Odani说。"但我们发现,在许多用例中,比如总结一些文本或与语音助手交谈,很多这些事情可以适合在30亿参数内完成。"
将AI模型压缩到手机或笔记本电脑上涉及一些妥协——例如,通过减少模型中包含的参数。Odani解释说,基于云的模型运行数千亿个参数,这些权重决定了模型如何处理输入Token以生成输出。你现在无法在消费设备上运行类似的东西,所以开发者必须大幅缩减边缘模型的大小。Odani说联发科最新的第九代NPU可以处理大约30亿个参数——相差几个数量级。
手机或笔记本电脑中可用的内存量也是一个限制因素,所以移动优化的AI模型通常被量化。这意味着模型对下一个Token的估计以较低精度运行。假设你想在你的设备上运行更大的开放模型之一,如Llama或Gemma 7b。事实标准是FP16,称为半精度。在该级别,具有70亿参数的模型将占用13或14GB内存。降到FP4(四分之一精度)将模型在内存中的大小减少到几GB。
"当你压缩到,比如说,3到4GB之间,这对于像智能手机这样内存受限的外形因素的集成来说是一个最佳点,"Sukumar说。"生态系统和高通已经投入了大量资金来研究在不失去质量的情况下压缩模型的各种方式。"
在移动设备的这些限制下很难创建通用AI,但计算机——特别是智能手机——是数据的丰富来源,可以输入到模型中生成所谓有用的输出。这就是为什么大多数边缘AI都面向特定的狭窄用例,如分析截图或建议日历约会。谷歌说其最新的Pixel手机运行超过100个AI模型,包括生成式和传统的。
即使AI怀疑论者也能认识到格局正在快速变化。在缩小和优化手机或笔记本电脑AI模型的时间里,可能会出现新的云模型,使这项工作变得过时。这也是为什么第三方开发者在应用中缓慢利用NPU处理的原因。他们要么必须接入现有的设备端模型,这涉及限制和快速移动的开发目标,要么部署自己的自定义模型。目前两者都不是很好的选择。
信任问题
如果云端更快更容易,为什么要费力为边缘优化并用NPU消耗更多电力?依赖云端意味着接受对运营AI数据中心的人员的一定程度的依赖和信任,这可能并不总是合适的。
"我们总是以用户隐私作为要素开始,"高通的Sukumar说。他解释说,最好的推理不是一般性质的——它是基于用户兴趣和他们生活中发生的事情个性化的。微调模型以提供这种体验需要个人数据,在本地存储和处理这些数据更安全。
即使公司对其云服务的隐私说了正确的话,它们也远非保证。通用聊天机器人的友好氛围也鼓励人们透露很多个人信息,如果那个助手在云端运行,你的数据也在那里。OpenAI与《纽约时报》的版权斗争可能导致数百万私人聊天被移交给出版商。生成式AI的爆炸性增长和不确定的监管框架使得很难知道你的数据会发生什么。
"人们正在使用许多这些生成式AI助手就像治疗师一样,"Odani说。"你不知道有一天所有这些东西是否会在互联网上出现。"
并非每个人都如此担心。Zack声称谷歌建立了"世界上最安全的云基础设施",允许它在提供最佳结果的地方处理数据。Zack以Video Boost和Pixel Studio作为这种方法的例子,指出谷歌的云是使这些体验快速和高质量的唯一方法。该公司最近宣布了其新的Private AI Compute系统,声称它与本地AI一样安全。
即使这是真的,边缘还有其他优势——边缘AI比云服务更可靠。"设备端很快,"Odani说。"有时我在和ChatGPT交谈,我的Wi-Fi断了或什么的,它就跳过了一拍。"
托管基于云的AI模型的服务不仅仅是单个网站——今天的互联网是大规模相互依赖的,具有内容分发网络、DNS提供商、托管和其他服务,这些在故障情况下可能降级或关闭你最喜欢的AI。当Cloudflare最近遭受自我造成的中断时,ChatGPT用户恼怒地发现他们值得信赖的聊天机器人不可用。本地AI功能没有这个缺点。
云端主导
每个人似乎都同意需要混合方法来提供真正有用的AI功能(假设这些存在),在必要时将数据发送到更强大的云服务——谷歌、苹果和其他每个手机制造商都这样做。但追求无缝体验也可能掩盖你的数据发生了什么。通常情况下,你手机上的AI功能并不是以安全、本地的方式运行,即使设备有硬件来做到这一点。
例如,新的OnePlus 15。这款手机有高通全新的Snapdragon 8 Elite Gen 5,它有一个比上一个快37%的NPU,无论那值什么。即使有所有这些设备端AI能力,OnePlus严重依赖云端来分析你的个人数据。AI Writer和AI Recorder等功能连接到公司的服务器进行处理,OnePlus向我们保证这个系统是完全安全和私密的。
同样,摩托罗拉在夏天发布了新的可折叠Razr手机系列,装载了来自多个提供商的AI功能。这些手机可以使用AI总结你的通知,但除非你阅读条款和条件,否则你可能会惊讶有多少在云端发生。如果你购买Razr Ultra,那个总结在你的手机上发生。然而,RAM较少和NPU功率较少的较便宜型号使用云服务来处理你的通知。再次,摩托罗拉说这个系统是安全的,但更安全的选择是为其较便宜的手机重新优化模型。
即使OEM专注于使用NPU硬件,结果也可能令人失望。看看谷歌的Daily Hub和三星的Now Brief。这些功能应该处理你手机上的所有数据并生成有用的推荐和操作,但它们很少做除了显示日历事件之外的任何事情。事实上,谷歌已经暂时从Pixels中删除了Daily Hub,因为该功能做得太少,而谷歌是使用Gemini Nano的本地AI先驱。谷歌实际上在最近几个月将其移动AI体验的一些部分从本地转移到基于云的处理。
那些"强力"模型似乎正在获胜,当你与他们的私有计算云服务交互时,公司也获得了更多数据,这并没有坏处。
也许拿你能得到的
对本地AI有很大兴趣,但到目前为止,这还没有转化为你口袋里的AI革命。我们迄今看到的大多数AI进步都依赖于云系统日益增加的规模和在那里运行的通用模型。行业专家说,大量工作正在幕后进行,以缩小AI模型在手机和笔记本电脑上工作,但这需要时间才能产生影响。
与此同时,本地AI处理以有限的方式存在。谷歌仍然利用Tensor NPU为Magic Cue等功能处理敏感数据,三星真正充分利用了高通专注于AI的芯片组。虽然Now Brief的实用性值得质疑,但三星意识到对云的依赖可能如何影响用户,在系统设置中提供了一个切换,限制AI处理仅在设备上运行。这限制了可用AI功能的数量,其他功能工作得不够好,但你知道没有个人数据被共享。没有其他人在智能手机上提供这个选项。
三星发言人Elise Sembach说,该公司的AI努力建立在增强体验同时保持用户控制的基础上。"One UI中的设备端处理切换反映了这种方法。它为用户提供了本地处理AI任务的选项,以获得更快的性能、增加的隐私和即使没有网络连接也能可靠性,"Sembach说。
对边缘AI的兴趣可能是好事,即使你不使用它。为这个AI丰富的未来规划可以鼓励设备制造商投资更好的硬件——比如更多内存来运行所有这些理论AI模型。
"我们绝对建议我们的合作伙伴增加他们的RAM容量,"Sukumar说。确实,谷歌、三星和其他公司已经在很大程度上为了支持设备端AI而提升了内存容量。即使云端正在获胜,我们也会接受额外的RAM。
Q&A
Q1:NPU是什么?它与DSP有什么关系?
A:NPU(神经处理单元)是现代芯片中专门处理AI任务的组件,强调并行计算。它从数字信号处理器(DSP)发展而来,高通的AI之路从15-20年前的信号处理开始。虽然架构相似,但NPU在并行性、Transformer工作方式和处理大量参数方面更加优化。
Q2:为什么手机里有NPU,AI功能还是主要靠云端?
A:云端大语言模型拥有更多计算资源和参数。云端模型可运行数千亿参数,而手机NPU只能处理约30亿参数。同时手机内存限制使得模型需要大幅压缩,影响性能。加上开发者缺乏优化本地AI的动力,大多数AI功能仍依赖云端处理。
Q3:边缘AI相比云端AI有什么优势?
A:边缘AI主要优势包括更好的隐私保护(个人数据不上传云端)、更快响应速度(无需网络延迟)、更高可靠性(不受网络中断影响)。例如当Wi-Fi断网时,ChatGPT会中断,但本地AI不会受影响。同时避免了数据在云端可能面临的安全风险。
好文章,需要你的鼓励
阿里云正在携手伙伴将AI像水电一样输送到各行各业,而像奇奇科技这样的生态“毛细血管”,必须具备将这些“水电”接入企业“最后一公里”的能力。
浙江大学研究团队提出金字塔稀疏注意力技术,通过模仿人类视觉的自适应处理机制,为不同重要性的视频信息分配不同精度的计算资源。该方法在保持视频质量的同时将计算量降低至35%,在视频生成任务中即使在91%稀疏度下仍保持优异性能,为解决视频AI的计算瓶颈提供了突破性方案。
Gartner预测,到2029年,超过50%的企业将采用数字主权策略,以确保对数据和关键系统的国家控制。主权云将在这些策略中发挥关键作用,使企业能够在确保合规性的同时实现系统"云化"。企业正在采用私有云、主权云和本地数据中心等多种云私有化模式,主要驱动因素包括业务一致性、IT资源、成本和性能考量。
KAIST研究团队提出SAFE框架,解决大语言模型合作中的关键问题。通过主厨+助手分工模式,SAFE只在必要时触发模型合作,避免传统方法的"事事商量"低效模式。该方法基于语言兼容性和意见一致性两大判断标准,在数学推理等复杂任务中平均提升5.72%性能,运行速度接近单模型,为AI系统协作提供了高效实用的解决方案。