当英伟达在2006年首次展示其统一计算设备架构(CUDA)并行计算平台时,这是一个长达十年未能盈利的数十亿美元赌注。如今,它已成为被公认为推动该公司成功的软件堆栈。
在圣何塞举行的GTC 2026大会期间,英伟达超大规模和高性能计算副总裁、CUDA平台的实际构建者Ian Buck在接受亚太地区媒体采访时,回顾了该平台20年的发展历程、对英伟达的重要性以及支持智能体AI工作负载所需的创新。
回顾平台起源,Buck指出,实现大规模采用需要在开发者已经熟悉的基础上进行改进,而不是强迫他们学习全新的并行计算范式。
"CUDA成功的关键在于我们没有试图发明一种全新的编程语言,那样做只是学术化的做法,"Buck说。"CUDA最重要的是C编程语言。我们能否采用C语言,尽可能少地修改它,但让程序在真正重要的部分运行在1万个核心上?"
英伟达还确保CUDA在不同代GPU之间保持兼容性。据Buck介绍,为早期GeForce GPU编写的CUDA 1.0代码可以在英伟达最新的Vera Rubin架构上"快一百万倍"地运行。
将CUDA与英伟达硬件结合的财务风险很高,但公司领导层决心在每个GPU中都集成CUDA。"这花费了公司数十亿美元,"Buck说。"我们有10年没有盈利,但从未放弃过。"
如今,CUDA除了C语言外,还支持Python、Fortran和Java等其他编程语言。CUDA生态系统还拥有超过1000个CUDA-X软件库,可用于支持从数据和图像处理到蛋白质结构预测等各种应用。
虽然业界有人质疑AI代码生成最终是否会削弱CUDA的护城河,但Buck认为它产生了完全相反的效果。
"它实际上在加速CUDA的采用,"Buck说,他指出智能体越来越多地用于编写和优化CUDA代码,包括运行DeepSeek和OpenAI的GPT-OSS等模型的内核,以及CUDA-X软件库。
"我们英伟达的研究人员正在致力于Gordon Bell奖等项目,他们在使用Claude和英伟达Warp,"Buck补充说,这里指的是英伟达用于编写高性能仿真和图形代码的Python框架。
"他们的生产力大幅提升,因为智能体现在可以访问不同的库来解决特定领域的问题。智能体编码是所有用例的推动力,当然也包括加速计算的采用。"
推理需求
随着业界在智能体AI上加大投入——其特点是具有万亿参数的模型,可处理数十万Token的上下文——英伟达在2025年底获得Groq语言处理单元(LPU)技术许可后,正在加倍投入AI推理能力。
Buck将LPU描述为Vera Rubin的"增强包",利用极快的SRAM内存进行矩阵运算。然而,由于内存限制,每个LPU只有500MB片上SRAM,无法独立高效地处理大规模模型。
"仅使用LPU运行万亿参数模型需要数十个机架,在经济上根本无法实现规模化,"Buck说。"通过将LPX机架(英伟达基于LPU的系统)与Vera Rubin机架结合,每个Token的所有注意力计算可以在GPU上进行,而矩阵运算可以在LPU上进行,覆盖模型每层的每个Token。"
但与依赖大规模并行带宽和丰富流水线来保持计算流动和隐藏延迟的GPU不同,Groq的LPU依赖严格的调度。
"目前,Groq有一个出色的编译器,可以调度和编程LPU芯片内的计算单元,"Buck说。以每秒1000个Token运行需要具有精确时序的调度架构,确保每个数据和计算在正确的纳秒时刻准备就绪。
英伟达的最终目标是使所有平台都具有广泛的可编程性。"我们打算开放LPU的编程环境。至于我们如何在CUDA中实现这一点,我们将在未来讨论,"Buck说。
可编程性优于定制硅片
尽管专用AI芯片兴起,Buck仍为英伟达对其芯片通用可编程性的承诺进行辩护,指出仅通过软件优化就能实现显著的性能提升。
Buck透露,英伟达400名软件工程师团队最近花费四个月时间在GB200 Grace Blackwell系统上优化开源权重DeepSeek-R1模型。通过实施38项主要软件优化——包括内核融合和张量并行——并使用NVFP4(四位浮点)格式,他们大幅提高了效率。
"我们在相同的GPU基础设施上将DeepSeek-R1的性能提升了四倍。我们仅通过软件就将每个GB200的收入提高了四倍,"Buck说,性能改进直接等同于企业收入。
"我们可以专门化,可以流片并硬编码模型,"他补充说。"但你会错过创新和找出新算法和技术的机会。顺便说一下,我们发现的95%的优化和技术适用于生态系统中的每个模型。我们将帮助定义下一个模型,使其更智能并给它新的起点。"
虽然英伟达经常被视为芯片制造商,但它同样是一家软件公司,其硬件和软件深度协同设计。在AI技术堆栈的每次迭代中,英伟达都有一个统一的架构团队,不仅负责GPU,还负责所有优化、生态系统软件和PyTorch、SGLang等框架。
"拥有数千名软件和内核工程师向同一个构建芯片的团队汇报的好处是,他们在完成工作后不会离开,"他补充说。"他们将继续与OpenAI、Anthropic和微软等公司合作,持续改进内核性能。"
在GTC 2026主题演讲中,英伟达CEO黄仁勋呼应了这一观点,指出CUDA不仅仅是一个编程平台,它是他所谓"CUDA飞轮"中自我维持生态系统的引擎。
"我们花了20年时间在全球构建了数亿个运行CUDA的GPU和计算系统,"黄仁勋说,这个安装基础吸引了开发者,推动了深度学习等突破,并开辟了新市场。
由于软件持续更新且向后兼容,英伟达GPU的使用寿命得以延长,随着时间推移降低了计算成本。"这种动态组合帮助英伟达架构扩展影响力并加速新增长。"
Q&A
Q1:CUDA平台是什么?它为什么对英伟达如此重要?
A:CUDA是英伟达的统一计算设备架构并行计算平台,2006年首次展示。虽然前10年未盈利,但现在是推动英伟达成功的核心软件堆栈,支持从数据处理到蛋白质结构预测等各种应用。
Q2:英伟达的LPU技术与GPU有什么区别?
A:LPU是英伟达从Groq获得许可的语言处理单元技术,作为Vera Rubin的"增强包",利用极快的SRAM内存进行矩阵运算。与GPU不同,LPU依赖严格的调度架构,需要精确时序确保数据在正确的纳秒时刻准备就绪。
Q3:智能体AI如何影响CUDA的发展?
A:智能体AI实际上加速了CUDA的采用。AI智能体越来越多地用于编写和优化CUDA代码,包括运行大语言模型的内核和CUDA-X软件库,大大提升了开发者的生产力和CUDA生态系统的发展。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。