Gemma 4携手Arm:优化端侧AI,加速移动应用体验

谷歌发布的Gemma 4模型与Arm计算平台深度协同,推动端侧AI从云端依赖转向本地推理。基于Armv9架构的SME2指令集,Gemma 4在预填充阶段实现平均5.5倍加速,解码速度提升最高1.6倍。通过Arm KleidiAI软件加速层,开发者无需修改现有代码即可获得性能优化。以无障碍应用Envision为例,视障用户可在无网络环境下实现实时场景描述,兼顾低延迟与隐私保护。

实时助手功能、无缝通信与深度个性化,已成为全球数十亿智能手机用户的基本需求。在现代智能手机的功耗限制内运行的高性能端侧AI,对于大规模提供即时、智能的用户体验至关重要,也将进一步释放AI的未来潜力。

谷歌发布的Gemma 4加速了端侧AI的持续演进,帮助开发者便捷获取经过优化的性能表现,将日益强大的AI体验直接嵌入用户每天使用的应用程序中。而在全球智能手机规模上实现这些优势,离不开底层计算基础的支撑——在整个Android生态系统中,Arm是贯穿始终的核心架构。

Gemma 4进一步推动端侧AI发展,在提升性能与效率的同时,还扩展了对基于Arm设备上最受关注的多模态应用场景的支持,包括推理、智能体工作流,以及视觉与音频融合的使用场景。凭借跨文本、音频与图像的增强能力、更广泛的语言支持,以及实时辅助体验的基础架构,Gemma 4能够在不增加内存占用的前提下,直接在设备端实现更具响应性与情境感知能力的交互。

在Arm早期工程测试中,SME2技术在运行Gemma 4工作负载方面展现出令人期待的性能提升。针对Gemma 4 E2B(等效20亿参数)模型的初步测试显示,预填充(处理用户输入)环节平均加速5.5倍,解码(生成响应)环节最高提速1.6倍,充分展示了Armv9 CPU创新技术在端侧AI工作负载上的巨大潜力。上述工程测试已涵盖即将推出的谷歌XNNPACK与Arm KleidiAI补丁。

作为这些改进所能带来成果的早期示例,专注无障碍服务、面向盲人及低视力用户的应用程序Envision,评估了一种在本地提供更多服务的端侧方案。过去,Envision的场景解析依赖云端连接。在此次原型测试中,Gemma 4在搭载SME2功能的Arm CPU上本地运行,用户只需拍摄一张照片,即可直接在设备端获取详细的场景描述,无需网络连接,也无需将敏感数据上传至云端。

这些基于Arm CPU的探索实践,彰显了Arm计算平台在灵活性上的广泛优势,以及在CPU与异构计算路径上持续创新的潜力。

这一切带来的结果是:更低的延迟、更强的隐私保护,以及在任何网络环境下都能保持一致的用户体验。从依赖云端到本地推理的转变,对移动应用而言意义深远——它有望降低开发者的基础设施成本,提升用户使用的稳定性,并开辟实时应用的全新场景。

"Envision很高兴能与Arm和谷歌合作,将强大的无障碍体验直接带到智能手机上。在支持SME2的Arm CPU上本地运行Gemma 4等视觉理解模型,为盲人及低视力用户带来了可靠、低延迟的场景描述和视觉问答能力。对我们的用户群体而言,离线使用这些功能具有极其重要的意义,因为这意味着无论身处何处,技术都能正常工作;同时,在设备端完成更多处理也进一步保护了用户隐私。"——Envision首席执行官 Karthik Mahadevan

Envision是Gemma 4与Arm计算平台在移动端规模结合后所能实现成果的早期样本。随着越来越多的开发者接入Gemma 4,端侧AI将逐步从例外走向常态,成为默认的架构选择。

Armv9架构是迄今为止最安全、覆盖最广、最先进的指令集架构。Arm可扩展矩阵扩展2(SME2)是Armv9架构中的一组先进CPU指令集,是其中的关键技术——它能在智能手机的功耗范围内加速矩阵密集型AI工作负载。SME2已内置于最新Android智能手机设备搭载的Arm C1 CPU中,可解锁更高的持续性能并提升能效表现。

通过Arm KleidiAI——Arm的软件加速层,已集成至谷歌XNNPACK等主流运行时库以及谷歌LiteRT、MediaPipe等框架——SME2的优势可被移动开发者直接获取,无需对现有代码、模型或部署流程进行任何修改。因此,开发者只需面向基于SME2的Arm Android设备进行开发,即可自动获得开箱即用的性能优化。

在实际应用中,这些软件层面的提升直接转化为更优质的端侧体验:用户可以享受更快的响应速度、更流畅的持续交互以及更稳定可靠的端侧AI能力,同时还能保持良好的电池续航与热稳定性,即便模型能力持续增强也不例外。

"要在整个Android生态系统中高效部署Gemma 4,需要在硬件与软件层面展开深度协作。我们与Arm的合作体现了双方对推动端侧AI发展的共同承诺——将Armv9架构及SME2等内置加速技术的优势与Android操作系统深度融合,以大规模释放更强的性能与效率。我们携手合作,让开发者更轻松地为用户提供快速、响应灵敏且保护隐私的AI体验,且无需修改现有应用程序。"——谷歌Android工程总监 Sandeep Patil

随着越来越多的应用将AI迁移至设备端,Arm与谷歌致力于为开发者提供便捷的性能优化工具与清晰的指引,帮助Gemma 4加速所有基于Arm移动设备上的应用体验。

移动AI的未来,并非单纯取决于模型体量的增大,而在于模型能否在整个Android生态系统中高效、安全、广泛地大规模运行。通过这一合作,端侧AI的红利将惠及全球数十亿Android智能手机用户。

注:音频功能仅适用于E2B(等效20亿参数)和E4B(等效40亿参数)版本。

Q&A

Q1:Gemma 4在端侧AI方面有哪些性能提升?

A:根据Arm早期工程测试,在搭载SME2技术的设备上运行Gemma 4 E2B模型时,预填充环节平均加速5.5倍,解码环节最高提速1.6倍。这些提升来自Armv9架构中的SME2指令集,并通过Arm KleidiAI软件加速层自动生效,开发者无需修改现有代码或模型即可获得性能优化。

Q2:Arm的SME2技术是什么?它如何帮助Gemma 4运行?

A:SME2(可扩展矩阵扩展2)是Armv9架构中的一组先进CPU指令集,专为在智能手机功耗范围内加速矩阵密集型AI工作负载而设计。它已内置于最新Android手机采用的Arm C1 CPU中。通过Arm KleidiAI软件层与谷歌XNNPACK等运行时库的集成,开发者只需面向支持SME2的Arm设备开发,即可自动获得Gemma 4的性能优化,无需额外改动代码。

Q3:Gemma 4端侧运行对用户隐私有什么好处?

A:Gemma 4在设备端本地运行意味着用户数据无需上传至云端进行处理,有效降低了隐私泄露风险。以Envision应用为例,用户拍照后可直接在设备上获取场景描述,敏感图像数据不会离开本地设备。此外,本地推理还消除了对网络连接的依赖,即使在离线状态下也能正常使用,进一步提升了用户体验的稳定性与可靠性。

来源:Edge AI and Vision Alliance - Latest News

0赞

好文章,需要你的鼓励

2026

05/29

23:23

分享

点赞

邮件订阅