训练生成式AI模型本身已是一项成本高昂、能耗巨大的工作。随着超大规模数据中心和前沿研究机构竞相扩展边缘推理与智能体AI能力,GPU的部署正变得愈加复杂,尤其是在内存层面。
在数据中心中,对先进内存配置的需求日益迫切。不断增多的AI处理器正推动对高性能内存类型的强烈需求,业界期望借此突破长期制约生成式AI发展的"内存瓶颈"。
解决内存瓶颈的关键方案之一,是将垂直堆叠的高带宽内存(HBM)直接连接到处理器上——这也是英伟达芯片创新的一大标志。另一种方案则是针对推理优化的大容量片上SRAM网格,Groq的语言处理单元(LPU)是其中的代表,该技术近期因一项非独家技术授权协议以及人才转移而备受关注,据广泛报道,相关交易规模约为200亿美元,合作方为英伟达。
初创公司Cerebras在此基础上更进一步,其晶圆级引擎(Wafer-Scale Engine)将片上SRAM集成于巨型硅晶圆之上,模糊了处理器与内存之间的界限。2026年5月14日,Cerebras首个交易日收盘时,市值约达950亿美元。
与此同时,构建统一内存池的Compute Express Link(CXL)数据互联架构也正逐渐获得市场认可。CXL 3.0通过增强的一致性与互联能力,支持通过多级交换在多台主机间实现机架级内存池化与共享。
为何内存是瓶颈所在:带宽与容量的双重挑战
Omdia数据中心计算与网络首席分析师马诺吉·苏库马兰表示,内存瓶颈包含两个截然不同的维度:带宽与容量。"内存带宽是指从内存向处理单元传输数据的速度,"他指出。
随着数据在内存层级结构中流转,瓶颈问题愈加突出。从GPU片上SRAM到紧密连接的HBM(基于SDRAM构建),再到外部SRAM或DRAM,最终到达NAND闪存,带宽在每个层级往往会骤降数倍,通常在每个环节都接近一个数量级的下降。苏库马兰指出:"一旦大型AI模型存储于HBM或DRAM中,内存带宽便成为瓶颈。"这在实际中意味着价格高昂的GPU或其他AI处理器可能因等待数据而处于空闲状态。
高价GPU因等待任务而闲置——这显然不是财务部门希望听到的消息。
容量同样是一项难以回避的约束。苏库马兰强调,容量问题在AI推理的解码阶段、模型存储以及日益主导AI洞察输出方式的大规模推理任务中尤为突出。
HBM供需紧张:供应、成本与热管理的多重权衡
对于各类数据中心而言,采用高度专业化的分层内存架构已是大势所趋。全面落地刚刚起步,但这些解决方案已带来不可忽视的成本与运营挑战。
面对AI需求激增,半导体厂商已纷纷转向利润率更高的HBM生产。即便如此,供给仍难以跟上需求,导致各类芯片价格持续上涨——这一压力已在近期多家厂商和投资机构的财报评述中被明确提及。Mordor Intelligence的市场研究预测,高带宽内存市场规模将从2026年的39亿美元增长至2031年的124亿美元,复合年增长率约为20%中段,显示出强劲的持续增长预期。
挑战不止于成本与延缓项目推进的供应链问题。内存堆叠进一步加重了AI数据中心本已广受关注的功耗与热负荷,并在部署后增加了运维复杂度。即便是例行维护也变得更加棘手——内存封装的更换便是一例。
芯片厂商目前采用CoWoS(Chip-on-Wafer-on-Substrate)技术,通过中介层将GPU与HBM封装在一起。这一方式摒弃了传统的引脚封装,也使数据中心团队面临无法在现场对故障GPU进行维修的困境。插拔内存卡的时代已经过去,内存如今与GPU紧密相连、不可分割。
在大规模部署环境中,确保运营完整性并验证实际算力是否得到充分利用,是研发与部署团队在设计初期就必须正视的问题。在超大规模集群中,组件故障已是家常便饭,运营商需要为常态化的设备故障做好预案。"GPU的平均无故障时间(MTBF)约为20,000小时,"苏库马兰表示,"GPU卡上潜在的故障点已大幅增加。这意味着,如果你运营着一个拥有20,000块GPU的集群,平均每小时就会有一块GPU发生故障,这对数据中心运营商而言是一项巨大的挑战。"问题的根源可能涉及供电、高速互联、液冷或内存封装等多个方面。围绕GPU与内存的问题空间极为广泛,故障排查往往难度极大。
突破瓶颈的蓝图:参考设计与AI机柜方案
面对上述复杂性,生态系统中的各大厂商纷纷发布技术蓝图,帮助团队突破内存瓶颈。这些蓝图涵盖监控指导、故障自动切换策略(可将流量从故障GPU自动重定向),以及其他过去主要局限于高性能计算领域的工程最佳实践。
AMD、戴尔科技、HPE、英特尔、联想等芯片及基础设施厂商已相继推出AI设计框架与参考方案,Microway和超微(Supermicro)也提供了补充性参考设计。Equinix、Digital Realty等托管服务商现已提供交钥匙式AI基础设施机柜解决方案。CoreWeave、Lambda等专业云服务商也在其技术蓝图中展示了增强型内存架构。
英伟达自然仍是AI蓝图领域的标杆品牌,它不仅推动了AI的强势复兴,也在大规模训练的算力与内存优化方面广泛开展合作。在2026年GTC大会上,英伟达发布了一项面向AI推理的参考架构,其中Vera Rubin DSX AI工厂架构尤为引人注目。英伟达还通过MGX模块化平台向生态系统开放,以支持异构集成;值得注意的是,相关生态配置包括集成了Groq第三代LPU硬件的MGX兼容LPX推理机架,旨在优化推理密集型部署场景。
纵观各类技术蓝图,若干以内存为核心的技术手段反复出现:量化、分页注意力机制、拓扑感知以及连续批处理。
推理走向前台:KV缓存、预填充与解码阶段解析
业界的关注重心正从多年来的大语言模型训练优化,逐步转向生成式AI的推理阶段——推理正在边缘侧乃至终端设备上迅速扩展。推理过程通常分为预填充阶段和解码阶段。在预填充阶段,用户的提示词被并行处理,上下文得到确定,键值(KV)对被存储于KV缓存中;在解码阶段,模型利用KV缓存逐个Token预测并生成回复内容。
这两个阶段对内存的压力各有侧重。预填充阶段通常受算力制约,而解码阶段则受带宽制约,并通过KV缓存对内存容量提出巨大需求。
SHI International AI平台、基础设施及解决方案负责人拉米·杜尼亚斯表示:"推理工作负载面临独特的内存瓶颈挑战,因为它需要极低的延迟以及大规模的键值缓存容量,以支持长上下文和智能体AI应用。"
他告诉《数据中心知识》,运营商目前正在部署配备HBM的GPU,通过压缩和卸载优化KV缓存,并尝试在解码密集型阶段引入以SRAM为核心的加速器。现实中,训练集群被挪用于推理的情况屡见不鲜,但推理对内存的独特需求更适合专用设计。他的建议是:从一开始就优先构建灵活、模块化的基础设施,为先进的内存解聚合、面向未来的互联标准以及液冷方案做好准备。
以CXL构建内存池:KV服务器与低延迟互联网络
Penguin Solutions集成内存业务副总裁兼总经理萨蒂亚·艾耶尔表示,内存瓶颈在AI推理中比在训练中更为严峻,根本原因在于推理引擎必须应对高并发查询量。他将受限的GPU比作一位顶级主厨,却被一个切洋葱速度跟不上的助手拖累了发挥。
艾耶尔强调了CXL在即将到来的AI推理时代中的关键作用。这一协议套件让企业能够将内存作为共享资源统一调配。他补充说,随着CXL 3.0标准的持续演进,将真正实现跨多台服务器或系统的内存池化能力。
"如果我们不能通过CXL、KV服务器或其他创新方案解决内存瓶颈问题,那么我们所谈论的整个AI繁荣将无从实现,"他说道。
在2026年GTC大会上,Penguin宣布推出一款基于CXL的MemoryAI KV缓存服务器,旨在为GPU集群提供更低的延迟和更高的吞吐量。
软件层面的突围:TurboQuant、DeepSeek与KV压缩
CXL与内存芯片的硬件进步固然关键,但软件架构同样是突破内存瓶颈的重要战场。2025年围绕DeepSeek大语言模型的热潮,以及2026年谷歌TurboQuant所引发的广泛关注,充分彰显了新型软件路径所带来的深远影响。
TurboQuant专门针对容量瓶颈问题,能够将快速缓存中的KV内存压缩至每个值仅占3.5比特。与持续演进的硬件方案协同配合,此类技术有助于保障用户AI对话的流畅体验,同时提升稀缺HBM容量的利用率。
Q&A
Q1:HBM高带宽内存是什么?为什么AI训练和推理都需要它?
A:HBM(高带宽内存)是一种垂直堆叠、直接连接到处理器的高性能内存,能够提供远超传统DRAM的数据传输速度。在AI训练和推理中,模型参数量庞大,数据需要在内存和处理器之间频繁传输,HBM的高带宽特性可以有效缓解数据传输瓶颈,防止昂贵的GPU因等待数据而空转。目前HBM市场需求旺盛,预计2031年规模将达到124亿美元。
Q2:CXL技术在AI推理中具体解决什么问题?
A:CXL(Compute Express Link)是一种内存互联协议,允许多台服务器将内存作为共享资源统一管理,实现内存池化。在AI推理场景中,KV缓存需要消耗大量内存容量,单台服务器往往捉襟见肘。CXL 3.0支持跨多主机的机架级内存池化,有效扩展可用内存资源,降低延迟并提升吞吐量,例如Penguin Solutions推出的MemoryAI KV缓存服务器就基于这一技术构建。
Q3:TurboQuant如何帮助缓解AI推理的内存瓶颈?
A:TurboQuant是谷歌推出的一种软件层面的优化技术,专门针对AI推理中KV缓存的容量瓶颈。它通过量化压缩手段,将KV缓存中每个值的存储空间压缩至最低3.5比特,大幅降低对HBM容量的占用。这意味着在相同的硬件条件下,可以支持更长的上下文处理和更高的并发请求量,从而提升AI对话的流畅度和硬件整体利用率。
好文章,需要你的鼓励
随着AI编程工具的普及,越来越多的非开发者开始尝试自己构建应用。谷歌在I/O大会上宣布,AI Studio新增功能可让用户通过提示词快速生成原生Android应用,并直接导出到手机。此外,谷歌还推出了基于Gemini的自定义小组件功能,并提出"生成式UI"概念,让手机界面根据需求实时生成。与此同时,苹果据报道也在探索通过提示词创建快捷指令的功能,手机个性化体验或将迎来新突破。
新加坡国立大学构建了首个视频隐喻理解基准ViMU,含588段视频与2352道题,测试16个主流AI模型均未超过50%,揭示AI在视频潜台词理解上的系统性短板。
麻省理工学院劳动经济学家David Autor领衔的最新研究揭示,美国战后新兴工作岗位主要由30岁以下的年轻大学毕业生获益,且多集中于城市地区。研究显示,新型工作通常伴随工资溢价,但随着相关技能普及,这一优势会逐渐消退。研究还发现,需求侧驱动对新工作创造至关重要。面对AI浪潮,Autor认为AI在医疗等领域的应用方式,将决定其究竟是创造新岗位还是取代现有工作。
浙江大学等机构联合提出PanoWorld,通过球面空间交叉注意力和57万张全景图训练数据,让AI能直接理解360度全景图的空间结构,在导航和视觉搜索任务中大幅超越现有方法。