在AI领域,所有目光都聚焦在GPU上,这从英伟达令人震惊的4万亿美元市值就可以看出。然而,所有的AI训练和推理处理不仅仅需要GPU,还需要GPU之间的网络连接、为GPU供电和散热的基础设施,最重要的是,需要存储和内存来管理所有原始数据和模型。正如数学家克莱夫·亨比所说,"数据是新石油"。它驱动着世界经济,是AI的核心。没有数据,就没有AI。因此,存储和内存子系统(有时被称为AI数据层或AI数据管道)是系统最关键的组成部分之一。另一家美国公司美光科技正在迅速崛起,成为这一关键AI数据层的重要供应商。
披露声明:我的公司Tirias Research曾为AMD、英伟达、美光和本文提到的其他公司提供咨询服务。
AI数据层
服务器的内存和存储层次结构非常复杂,经过数十年的发展演进。为了跟上处理元件的性能以及日益复杂的工作负载(如AI)的需求,对提高内存性能和密度的持续需求推动了层次结构各个层面的创新。创新涵盖了从片上SRAM到紧密耦合的高带宽内存(HBM),再到系统主内存、池化内存资源以及SSD存储。对于AI工作负载而言,内存和存储已成为处理AI工作负载中关键的、非商品化的元素。只有三家主要供应商能够提供这两个主要组件:美光、三星和SK海力士,其中只有美光是美国公司。
美光的数据中心加速发展
虽然美光在消费级和嵌入式/物联网应用领域也占有重要地位,但其在数据中心的成功与AI的增长密切相关,特别是在高性能HBM内存和SSD存储方面。美光最初专注于一种名为混合内存立方体(HMC)的替代内存技术,并在大约七年前转向HBM。该公司在HBM2和HBM2E方面的初期挑战使其落后于竞争对手。然而,美光利用英伟达Hopper一代AI GPU加速器的突破性增长,通过HBM3和HBM3E代产品在不到一年的时间里夺得了第二名的位置,并且在AMD和英伟达的下一代AI GPU加速器方面似乎处于领先地位。美光的HBM3E被集成到AMD最新的Instinct MI350平台中,据报道,该公司已在向重要客户出货HBM4,用于未来的AI平台。
利用公司专有的1-beta制程节点用于HBM3E和HBM4代产品,结合先进的中介层和芯片堆叠技术,美光的HBM产品提供业界最高带宽,性能效率比三星和SK海力士的产品高出30%。与美光在移动和计算领域与其他重要客户合作的方式类似,该公司与包括AMD和英伟达在内的AI加速器客户密切合作,确保最佳性能、质量和可制造性,从而赢得了下一代高性能AI平台领先内存供应商的地位。
除了投资新的内存和存储架构外,美光还制定了2000亿美元的制造扩张计划,包括在爱达荷州、弗吉尼亚州和日本扩建设施,以及在纽约建设新的晶圆厂综合体。这一扩张不仅将满足AI客户的需求,还将支持美国的本土制造推进计划。
总结思考
虽然内存和存储通常被归类为两个不同的细分市场,但它们形成了一个单一的子系统或数据层。这个数据层对于满足AI工作负载的性能和可扩展性要求至关重要。AI的需求如此之高,以至于数据层必须与处理层协同设计,以确保最佳性能。因此,在数据中心AI方面,内存和存储不是可以轻易被低成本替代品替换的商品。数据层是整个AI平台和AI数据中心的独特组成部分。
美光通过其高性能HBM、DRAM和SSD的组合提供完整的AI数据层解决方案。此外,美光已经证明它拥有在很短时间内成为该领域领导者的技术和资源,这使其对整个电子生态系统以及美国政府的本土化愿景都具有重要价值。
Q&A
Q1:什么是AI数据层?它在AI系统中的作用是什么?
A:AI数据层是指存储和内存子系统,有时也被称为AI数据管道。它是AI系统最关键的组成部分之一,负责管理所有原始数据和模型。由于数据是AI的核心,没有数据就没有AI,因此AI数据层对于满足AI工作负载的性能和可扩展性要求至关重要。
Q2:美光科技在AI内存市场的竞争优势是什么?
A:美光利用专有的1-beta制程节点和先进的中介层、芯片堆叠技术,其HBM产品提供业界最高带宽,性能效率比三星和SK海力士高出30%。美光与AMD、英伟达等AI加速器客户密切合作,确保最佳性能和质量,已成为下一代高性能AI平台的领先内存供应商。
Q3:美光科技的制造扩张计划包括哪些内容?
A:美光制定了2000亿美元的制造扩张计划,包括在爱达荷州、弗吉尼亚州和日本扩建现有设施,以及在纽约建设新的晶圆厂综合体。这一扩张不仅将满足AI客户日益增长的需求,还将支持美国政府推进的本土制造计划。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。