探秘万亿美元AI工厂:英伟达GTC背后的基础设施战争

人工智能产业正在经历史上最大规模的基础设施建设,与云时代不同,AI时代正在变得工业化。公司们不仅在编写代码,还在争夺电力、半导体产能、内存供应和大规模集群。这个系统被称为AI工厂,通过将原材料转化为AI模型和推理服务来制造智能。万亿美元的供应链竞赛已经开始,未来十年将由那些提前锁定关键资源的公司主导。

每年人工智能行业都会聚集在英伟达公司的GPU技术大会上,期待看到更快的图形处理单元、更大的模型以及下一波AI软件创新浪潮。

确实,所有这些都会在现场展示。

但如果你一直关注我们过去几年在theCUBE上的对话,你就会知道真正的故事不仅仅发生在台上——而是在幕后。

现在正在展开的是科技行业自云计算诞生以来见过的最大规模基础设施建设。但与主要是软件革命的云计算时代不同,AI时代正迅速变成完全不同的东西。

它正在变得工业化。

竞相领导这个新时代的公司不仅仅是在编写代码。他们在确保电力供应、预订半导体产能、锁定内存供应,并部署旨在大规模生产智能的大型集群。

我们称这个系统为AI工厂。

随着我们进入GTC大会,更深层的叙述不仅仅关于下一代GPU架构。而是关于全球基础设施竞赛——一场万亿美元的供应链战争——目的是建造将在未来十年制造智能的工厂。

更有趣的是,这个工厂不再局限于超大规模数据中心。它开始向外扩展到我们称之为超融合边缘的领域,AI更接近数据创建和决策制定的地方。

从中心化AI到分布式智能工厂网络的转变,可能最终定义行业的下一个阶段。

AI工厂:制造智能

在过去几年中,我们一直在描述计算基础设施设计方式的转变。

传统数据中心存储数据并运行应用程序。

AI基础设施做着根本不同的事情:它制造智能。AI工厂是一个垂直整合的系统,旨在将原始输入——电力、硅、内存和数据——转换为输出,如AI模型、推理服务、自动化和推理系统。

领导这一转型的公司包括英伟达、亚马逊、微软、谷歌、Meta等。这些公司总共在AI基础设施上投资数千亿美元。我们的一些报告估计表明,这个周期的下一阶段可能接近1万亿美元的资本投资。

GTC将展示这一架构的最新组件——但最重要的故事在供应链的更深层。

GPU增值悖论

这个周期中最奇怪的经济动态之一是我称之为的GPU增值悖论。在传统技术市场中,硬件快速贬值。

但在AI时代,似乎出现了相反的情况。以广泛部署的英伟达H100 GPU为例。这些芯片不是随着时间推移而失去经济价值,而是随着它们服务的模型变得更强大,其生产力在增加。

随着前沿模型的改进,服务这些模型的计算所产生的价值也在上升。这就是为什么一些AI实验室锁定多年GPU合约,价格约为每小时2.40美元,远高于估计的建造成本。

AI计算已成为数字经济中最受限制的资源。这使得GPU更像生产性资本资产,而不是传统的信息技术硬件。

隐藏的限制:内存

GPU可能在GTC上获得头条新闻,但AI工厂的真正瓶颈可能是内存。

现代AI系统严重依赖长上下文推理,这意味着模型可以处理大量文本、代码和多模态数据序列。这种能力需要大量的高带宽内存或HBM。

HBM在物理上是昂贵的:

它消耗比标准动态随机访问内存或DRAM多三到四倍的晶圆面积。

它需要先进的封装技术。

它直接与消费电子供应链竞争。

我们的数据表明,到2026年,超大规模运营商多达30%的资本支出可能仅用于内存。

这种转变已经在重塑整个行业的半导体分配,内存供应越来越优先用于AI基础设施。

光刻技术天花板

要了解AI扩展的终极限制,你必须深入到更上游。

半导体生态系统中真正的守门人是ASML控股公司,这家荷兰极紫外光刻机制造商。这些工具是生产最先进芯片所必需的。

每台机器成本超过3.5亿美元,包含数十万个组件,依赖于数千个专业供应商的供应链。更重要的是,产量有限。ASML在本十年末每年大约可以制造70到100台极紫外工具。

这个产量有效地限制了世界扩展先进半导体生产的速度。你可以以指数速度创新软件。但你不能轻易扩展生产硅的工业制造系统。

电力:准入门槛限制

AI工厂的另一个关键输入是能源。前沿AI集群现在需要大量电力——通常以吉瓦为单位测量。然而,电力不一定是硬性扩展限制。

这是一个成本问题。为了绕过电网限制和多年的许可时间表,超大规模运营商和AI实验室越来越多地部署表后电力系统。这些包括天然气涡轮机、模块化微电网、燃料电池和工厂建造的数据中心模块。

即使能源成本增加,经济学仍然支持早期部署,因为前沿AI模型的边际价值如此之高。在AI竞赛中,速度往往比效率更重要。

超融合边缘的崛起

虽然超大规模AI工厂正在获得头条新闻,但在基础设施堆栈的更远端正在发生另一个重要转变。AI工厂正在向边缘扩展。

企业越来越多地部署本地化AI系统来支持实时决策制定,环境包括:工厂、医院、零售店、物流中心和智慧城市。这些环境需要低延迟、数据主权和即使在云连接有限时也能持续运行。

这就是超融合边缘进入画面的地方。超融合边缘平台将网络、计算、存储、安全和AI推理整合到统一的边缘基础设施中。

组织不是部署孤立的设备,而是部署分布式迷你AI工厂,能够运行本地化推理并与中心化AI集群同步。在这种架构中,超大规模AI工厂训练模型,而超融合边缘系统在现实世界中操作这些模型。

这种分布式智能生产模型可能是GTC讨论中出现的主要主题。

AI主权和地缘政治维度

AI基础设施竞赛也正在变得深度地缘政治化。

世界各国政府越来越将AI能力视为国家主权问题。控制AI基础设施意味着控制经济竞争力、工业自动化、国防系统和国家创新能力。

美国目前在几个关键领域领先,包括AI软件生态系统和通过台湾半导体制造公司等合作伙伴获得先进制造。但其他地区也在快速行动。

中国正在通过华为等公司追求全栈垂直整合,大力投资于国内芯片设计、内存生产和主权AI基础设施。欧洲和中东国家也在投资主权计算能力,以确保不依赖于外国云提供商。

在许多方面,AI工厂正在成为数字时代的战略基础设施,类似于能源网或电信网络。

从软件行业到工业基础设施

也许关于AI繁荣的最大误解是如何对其进行分类。许多投资者仍然将AI公司视为传统软件公司。

但领导AI工厂建设的公司越来越像重工业运营商。他们正在部署吉瓦级数据中心、全球半导体供应链、大规模资本投资计划和垂直整合的基础设施堆栈。

这不仅仅是另一个软件周期。这是工业规模智能生产的出现。

在GTC上要关注什么

当我们进入另一个英伟达GTC时,很容易被产品发布所吸引,比如下一代GPU、下一个模型、下一个软件框架。

但在表面下展开的更大故事是关于基础设施力量。

在AI领域赢得未来四到五年的公司不仅仅是那些拥有最佳算法的公司。他们将是那些早期确保供应链的公司:那些锁定光刻产能的公司。那些预订内存晶圆的公司。那些建造发电厂的公司。那些将AI工厂一直延伸到边缘的公司。

因为AI的未来不再仅仅是训练更大的模型。而是建造运行它们的全球系统。

AI工厂正在迅速成为数字经济的工业支柱——一个由超大规模集群和超融合边缘基础设施组成的分布式网络,它们共同生产和运营智能。

如果说上一个十年属于云计算,那么下一个十年将属于建造和控制这些工厂的公司。这就是我本周在GTC上将密切关注的故事。

因为建造AI工厂的竞赛才刚刚开始。

Q&A

Q1:AI工厂是什么概念?

A:AI工厂是一个垂直整合的系统,旨在将原始输入如电力、硅、内存和数据转换为AI模型、推理服务、自动化和推理系统等输出。它不同于传统数据中心的存储和运行应用程序功能,而是专门用于制造智能。

Q2:为什么GPU会出现增值而不是贬值的现象?

A:在AI时代出现了GPU增值悖论。传统硬件会快速贬值,但GPU如英伟达H100的生产力随着服务模型变得更强大而增加。前沿模型改进时,服务这些模型的计算产生的价值也上升,使GPU更像生产性资本资产。

Q3:超融合边缘在AI基础设施中扮演什么角色?

A:超融合边缘将网络、计算、存储、安全和AI推理整合到统一的边缘基础设施中,部署在工厂、医院、零售店等需要低延迟和数据主权的环境中。它与中心化AI集群协作,形成分布式智能生产模型。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2026

03/16

15:49

分享

点赞

邮件订阅