英伟达CUDA平台20年发展史:从数十亿美元豪赌到智能体AI支撑

英伟达CUDA平台自2006年推出以来走过20年历程,从最初十年亏损的数十亿美元投资,发展为如今支撑公司成功的核心软件栈。CUDA副总裁Ian Buck回顾了平台发展历程,强调其成功在于采用C语言而非全新编程范式,确保跨代GPU兼容性。如今CUDA生态拥有超过1000个软件库,AI代码生成正加速CUDA应用普及。面对智能体AI需求,英伟达通过授权Groq的LPU技术提升推理能力,并坚持通用可编程性而非定制芯片路线。

当英伟达在2006年首次展示其统一计算设备架构(CUDA)并行计算平台时,这是一个长达十年未能盈利的数十亿美元赌注。如今,它已成为被公认为推动该公司成功的软件堆栈。

在圣何塞举行的GTC 2026大会期间,英伟达超大规模和高性能计算副总裁、CUDA平台的实际构建者Ian Buck在接受亚太地区媒体采访时,回顾了该平台20年的发展历程、对英伟达的重要性以及支持智能体AI工作负载所需的创新。

回顾平台起源,Buck指出,实现大规模采用需要在开发者已经熟悉的基础上进行改进,而不是强迫他们学习全新的并行计算范式。

"CUDA成功的关键在于我们没有试图发明一种全新的编程语言,那样做只是学术化的做法,"Buck说。"CUDA最重要的是C编程语言。我们能否采用C语言,尽可能少地修改它,但让程序在真正重要的部分运行在1万个核心上?"

英伟达还确保CUDA在不同代GPU之间保持兼容性。据Buck介绍,为早期GeForce GPU编写的CUDA 1.0代码可以在英伟达最新的Vera Rubin架构上"快一百万倍"地运行。

将CUDA与英伟达硬件结合的财务风险很高,但公司领导层决心在每个GPU中都集成CUDA。"这花费了公司数十亿美元,"Buck说。"我们有10年没有盈利,但从未放弃过。"

如今,CUDA除了C语言外,还支持Python、Fortran和Java等其他编程语言。CUDA生态系统还拥有超过1000个CUDA-X软件库,可用于支持从数据和图像处理到蛋白质结构预测等各种应用。

虽然业界有人质疑AI代码生成最终是否会削弱CUDA的护城河,但Buck认为它产生了完全相反的效果。

"它实际上在加速CUDA的采用,"Buck说,他指出智能体越来越多地用于编写和优化CUDA代码,包括运行DeepSeek和OpenAI的GPT-OSS等模型的内核,以及CUDA-X软件库。

"我们英伟达的研究人员正在致力于Gordon Bell奖等项目,他们在使用Claude和英伟达Warp,"Buck补充说,这里指的是英伟达用于编写高性能仿真和图形代码的Python框架。

"他们的生产力大幅提升,因为智能体现在可以访问不同的库来解决特定领域的问题。智能体编码是所有用例的推动力,当然也包括加速计算的采用。"

推理需求

随着业界在智能体AI上加大投入——其特点是具有万亿参数的模型,可处理数十万Token的上下文——英伟达在2025年底获得Groq语言处理单元(LPU)技术许可后,正在加倍投入AI推理能力。

Buck将LPU描述为Vera Rubin的"增强包",利用极快的SRAM内存进行矩阵运算。然而,由于内存限制,每个LPU只有500MB片上SRAM,无法独立高效地处理大规模模型。

"仅使用LPU运行万亿参数模型需要数十个机架,在经济上根本无法实现规模化,"Buck说。"通过将LPX机架(英伟达基于LPU的系统)与Vera Rubin机架结合,每个Token的所有注意力计算可以在GPU上进行,而矩阵运算可以在LPU上进行,覆盖模型每层的每个Token。"

但与依赖大规模并行带宽和丰富流水线来保持计算流动和隐藏延迟的GPU不同,Groq的LPU依赖严格的调度。

"目前,Groq有一个出色的编译器,可以调度和编程LPU芯片内的计算单元,"Buck说。以每秒1000个Token运行需要具有精确时序的调度架构,确保每个数据和计算在正确的纳秒时刻准备就绪。

英伟达的最终目标是使所有平台都具有广泛的可编程性。"我们打算开放LPU的编程环境。至于我们如何在CUDA中实现这一点,我们将在未来讨论,"Buck说。

可编程性优于定制硅片

尽管专用AI芯片兴起,Buck仍为英伟达对其芯片通用可编程性的承诺进行辩护,指出仅通过软件优化就能实现显著的性能提升。

Buck透露,英伟达400名软件工程师团队最近花费四个月时间在GB200 Grace Blackwell系统上优化开源权重DeepSeek-R1模型。通过实施38项主要软件优化——包括内核融合和张量并行——并使用NVFP4(四位浮点)格式,他们大幅提高了效率。

"我们在相同的GPU基础设施上将DeepSeek-R1的性能提升了四倍。我们仅通过软件就将每个GB200的收入提高了四倍,"Buck说,性能改进直接等同于企业收入。

"我们可以专门化,可以流片并硬编码模型,"他补充说。"但你会错过创新和找出新算法和技术的机会。顺便说一下,我们发现的95%的优化和技术适用于生态系统中的每个模型。我们将帮助定义下一个模型,使其更智能并给它新的起点。"

虽然英伟达经常被视为芯片制造商,但它同样是一家软件公司,其硬件和软件深度协同设计。在AI技术堆栈的每次迭代中,英伟达都有一个统一的架构团队,不仅负责GPU,还负责所有优化、生态系统软件和PyTorch、SGLang等框架。

"拥有数千名软件和内核工程师向同一个构建芯片的团队汇报的好处是,他们在完成工作后不会离开,"他补充说。"他们将继续与OpenAI、Anthropic和微软等公司合作,持续改进内核性能。"

在GTC 2026主题演讲中,英伟达CEO黄仁勋呼应了这一观点,指出CUDA不仅仅是一个编程平台,它是他所谓"CUDA飞轮"中自我维持生态系统的引擎。

"我们花了20年时间在全球构建了数亿个运行CUDA的GPU和计算系统,"黄仁勋说,这个安装基础吸引了开发者,推动了深度学习等突破,并开辟了新市场。

由于软件持续更新且向后兼容,英伟达GPU的使用寿命得以延长,随着时间推移降低了计算成本。"这种动态组合帮助英伟达架构扩展影响力并加速新增长。"

Q&A

Q1:CUDA平台是什么?它为什么对英伟达如此重要?

A:CUDA是英伟达的统一计算设备架构并行计算平台,2006年首次展示。虽然前10年未盈利,但现在是推动英伟达成功的核心软件堆栈,支持从数据处理到蛋白质结构预测等各种应用。

Q2:英伟达的LPU技术与GPU有什么区别?

A:LPU是英伟达从Groq获得许可的语言处理单元技术,作为Vera Rubin的"增强包",利用极快的SRAM内存进行矩阵运算。与GPU不同,LPU依赖严格的调度架构,需要精确时序确保数据在正确的纳秒时刻准备就绪。

Q3:智能体AI如何影响CUDA的发展?

A:智能体AI实际上加速了CUDA的采用。AI智能体越来越多地用于编写和优化CUDA代码,包括运行大语言模型的内核和CUDA-X软件库,大大提升了开发者的生产力和CUDA生态系统的发展。

来源:Computer Weekly

0赞

好文章,需要你的鼓励

2026

03/24

10:01

分享

点赞

邮件订阅