视觉大语言模型为何迫使边缘AI硬件重新思考

随着视觉大语言模型向设备端迁移,单纯的TOPS性能指标已不再足够。架构需要围绕真实工作负载、内存行为和持续利用率来构建。视觉LLM融合感知、语义和推理能力,但其模型规模、注意力机制和工作负载不规则性给边缘内存子系统带来巨大压力。传统CNN优化的NPU难以应对,需要从模型、系统调度和硬件支持三层协同优化,采用基于数据包的执行策略等新架构来提升实际利用率并降低内存访问开销。

随着以视觉为中心的大语言模型转向设备端部署,仅用原始TOPS来衡量性能已经不够。架构需要围绕真实工作负载、内存行为和持续利用率来构建,尤其是在边缘场景。

过去十年,大多数边缘AI芯片都是为了极其出色地完成一项工作而构建的:运行卷积网络来进行图像分类、检测和基本分割。随着多模态模型从研究阶段进入商业边缘系统,这种设计思路正变得不再充分。

视觉大语言模型在单一管道中融合了感知、语义和推理能力。它们可以理解场景,回答关于所见内容的问题,总结跨时间的事件,并越来越多地帮助决定下一步该做什么。摄像头、车辆、工业系统和医疗平台越来越多地要求在本地而非完全在云端实现这些能力。

在设备上运行这些模型具有明显优势。本地推理可以降低延迟,改善隐私保护,并减少对网络连接和云推理成本的依赖。但这也打破了第一代边缘加速器背后的许多假设。

内存而非算力成为瓶颈

乍一看,在边缘运行视觉大语言模型似乎是一个简单的扩展问题:采用现有的NPU或GPU,增加更多计算和内存。但实际上,团队很快发现瓶颈往往是内存流量和利用率,而不是理论算术吞吐量。

第一个问题是模型规模。现代基于Transformer的系统以数十亿参数来衡量,多模态系统还增加了视觉前端,将图像或视频转换为Token供下游推理使用。结果是庞大的权重占用、大量激活值以及不断增长的键值状态,所有这些都增加了内存容量和内存带宽压力。

第二个问题是注意力机制。底层的缩放点积注意力机制随上下文大约呈二次方增长,这意味着更长的提示、更丰富的多模态上下文和更大的Token数量会迅速压垮边缘内存子系统。即使峰值计算在纸面上看起来足够,许多系统也会因为数据移动成为实际限制而停滞。

第三个问题是工作负载的不规则性。视觉大语言模型不仅仅是附加了图像的Transformer。它们结合了视觉编码器、Transformer层、前馈块、归一化、向量操作和输出头,所有这些都具有不同的形状和重用模式。在对现代多模态图的内部评估中,在孤立基准测试中看起来高效的模型,一旦启用更长的上下文和完整的视觉管道,往往会显示出较差的利用率。

三层优化方法

Expedera的视觉大语言模型研究中一个更有用的结论是,边缘部署必须在三个层面进行优化:模型架构、系统级调度和专用硬件支持。这种框架很重要,因为它将讨论从单芯片解决方案思维转向软硬件协同设计。

在模型层面,团队可以考虑混合或非Transformer设计、蒸馏变体以及以较低成本保留关键能力的具身智能体模型等替代方案。在软件层面,量化、FlashAttention等分块方法以及推测解码有助于减少内存压力并改善延迟。但如果底层架构仍然假设规则的层行为和逐层执行,这些技术只能起到有限作用。

这就是专用硬件支持变得重要的地方。正确的加速器不仅需要根据峰值吞吐量进行评估,还要根据它在真实多模态图上维持利用率的能力以及控制外部内存流量的能力进行评估。

传统NPU的局限性

当今现场的许多NPU都是围绕以CNN为主的边缘视觉现实而设计的。隐含地,它们假设相对规则的层形状、可预测的分块行为以及权重、激活值和片上内存之间的可管理平衡。

这些假设在视觉大语言模型工作负载上崩溃了。严格的逐层执行往往会更频繁地将激活值溢出到外部内存,当图在视觉编码、注意力、前馈和向量密集型操作之间交替时,固定的执行模式效率较低。随着上下文窗口增长和多模态融合变得更加丰富,键值状态和激活值移动成为功耗和延迟的过大贡献者。

这也是为什么峰值TOPS正在成为边缘性能交付的较弱代理指标。如果一个设计在合成基准测试上看起来很强,但如果它无法在工作负载从一个阶段转移到另一个阶段时保持局部性和利用率,它在实际视觉大语言模型图上的表现可能仍然很差。

基于数据包的架构

对这个问题的一个回应是重新思考硬件中的执行单元。Expedera的Origin架构采用了这种方法,将其描述为基于数据包的AI处理架构。

数据包是神经网络的小型、依赖感知片段,它们垂直穿过图,而不是强制系统一次处理一个完整的层。这些数据包可以通过专门的处理资源进行路由,以低上下文切换开销重新排序,并在不再需要其激活值时退出。

这种抽象的变化有几个含义。首先,它可以提高持续利用率,因为硬件不太依赖于每一层都匹配理想的执行形状。其次,它可以通过允许更早地消耗和退出中间数据来减少昂贵的外部内存移动。第三,数据包化不会改变模型的底层数学,因此它被定位为执行策略而不是网络精度或模型语义的改变。

视觉大语言模型作为压力测试

视觉大语言模型是任何加速器的良好压力测试,因为它们将多种计算特性组合到单一推理路径中。典型的管道从视觉编码开始,进入具有注意力和前馈层的多模态推理,并以输出生成或动作选择结束。

这些阶段对硬件的要求并不相同。视觉前端重用了边缘视觉中熟悉的模式,但推理路径引入了与大语言模型相关的序列密集型、缓存密集型行为。输出和融合阶段通常依赖于向量和支持操作,这些操作在仅针对密集矩阵数学调优的硬件上服务不足。

基于数据包的架构非常适合这种异构性,因为它可以通过专门的前馈、注意力和向量块路由工作,而不是强制每个阶段使用相同的执行模型。更广泛地说,它反映了一个可能超越任何一个供应商的设计原则:以与现代多模态图实际执行方式相匹配的粒度表示工作。

评估标准需要演进

对于SoC架构师和软件团队来说,可以得出几个结论。首先是评估标准需要演进。峰值TOPS和TOPS/W仍然有用,但它们应该由特定工作负载的度量来补充,例如持续利用率、外部内存事务以及真实视觉大语言模型图上的尾部延迟。

其次是硬件灵活性比以往任何时候都更重要。架构应该针对包括传统CNN、基于Transformer的大语言模型、扩散管道和更新的多模态模型在内的组合进行测试,因为边缘产品在其生命周期内将越来越需要支持所有这些。

第三是硬件和软件不能再被视为独立的交付物。例如,Expedera的堆栈包括编译器、估算器、调度器和量化器,以及核心NPU架构,强化了更广泛的教训,即高效的视觉大语言模型部署依赖于端到端的协同设计。

工作负载优先的思维方式

视觉大语言模型将继续向边缘移动,因为产品价值太强大而无法忽视。能够理解所见内容、对本地上下文进行推理并在不将所有内容发送到云端的情况下做出响应的设备将提供更好的延迟、更强的隐私保护,并且通常具有更低的运营成本。

因此,核心硬件问题不再是在给定的功耗和面积预算内可以容纳多少TOPS。而是架构是否围绕真实的多模态工作负载行为构建,特别是内存移动、激活值生命周期、不规则图下的利用率以及有效调度所有这些所需的软件。

像Expedera基于数据包的Origin NPU这样的架构指向了一个可能的答案:以现代神经网络实际执行的方式表示工作,然后围绕这一现实构建计算、内存和软件。对于构建下一代边缘芯片的团队来说,这种工作负载优先的思维方式可能比任何单一的峰值性能数字更重要。

Q&A

Q1:视觉大语言模型在边缘设备部署时面临的主要瓶颈是什么?

A:主要瓶颈是内存流量和利用率,而不是理论算术吞吐量。具体包括三个问题:一是模型规模庞大,权重占用、激活值和键值状态都增加了内存压力;二是注意力机制随上下文呈二次方增长,会压垮边缘内存子系统;三是工作负载不规则,结合了视觉编码器、Transformer层、前馈块等不同形状和重用模式的组件,导致利用率较差。

Q2:为什么峰值TOPS不再是衡量边缘AI硬件性能的充分指标?

A:因为视觉大语言模型的工作负载特性已经改变。传统NPU假设规则的层形状和逐层执行,但视觉大语言模型在视觉编码、注意力、前馈和向量操作之间交替,工作负载不规则。一个在合成基准测试上峰值TOPS很高的设计,如果无法在工作负载转换时保持局部性和利用率,在实际多模态图上的表现可能很差。评估标准应该包括持续利用率、外部内存事务和尾部延迟等指标。

Q3:Expedera的基于数据包的架构有什么特点?

A:这种架构将神经网络分解为小型、依赖感知的数据包片段,让它们垂直穿过图,而不是逐层处理。数据包可以通过专门的前馈、注意力和向量块进行路由,以低开销重新排序,并在激活值不再需要时退出。这样可以提高持续利用率,减少外部内存移动,同时不改变模型的底层数学。它反映了以现代多模态图实际执行方式来表示工作的设计原则。

来源:Edge AI and Vision Alliance - Latest News

0赞

好文章,需要你的鼓励

2026

06/01

17:47

分享

点赞

邮件订阅