在上个月的 GPU 技术大会上,Nvidia 打破常规,改变了对 GPU 的定义标准。
CEO Jensen Huang 在 GTC 大会上解释说:"我之前犯了一个错误:Blackwell 实际上是在一个 Blackwell 芯片中集成了两个 GPU。我们之前把它称为一个 GPU 是错误的,因为这会搞乱所有的 NVLink 命名规则。"
然而,Nvidia 从计算 SXM 模块转向计算 GPU 芯片的这一转变,不仅仅是为了简化 NVLink 型号和命名规则。这可能会使 Nvidia 能够收取的 AI Enterprise 许可费用翻倍。
Nvidia 的 AI Enterprise 套件(包含多个 AI 框架,以及对其推理微服务 NIMs 的访问权限)每个 GPU 每年收费 4,500 美元,或在云端每小时 1 美元。这意味着配备八个模块的 Nvidia HGX B200(每个模块一个 Blackwell GPU)每年需要支付 36,000 美元,或在云端每小时 8 美元。
但在新的 HGX B300 NVL16 中,Nvidia 现在将每个芯片都计为一个 GPU。由于系统仍有八个模块,每个模块包含两个芯片,总数达到了 16 个 GPU。这意味着,如果 Nvidia 的 AI Enterprise 订阅定价保持不变,其最新的 HGX 设备的费用将翻倍。
这种命名规则的改变与去年的 Blackwell 系统有所不同。在我们的 Blackwell 发布报道中,Nvidia 反对我们将 Blackwell 称为"芯片组"架构(在一个处理器封装中链接多个独立芯片或芯片组),而是主张它是"一个作为统一单一 GPU 运行的双光刻限制芯片架构"。
相比去年的 B200,最新的 B300 GPU 并没有强大太多。简单回顾一下,HGX B300 的内存容量从 B200 的 1.5TB 提升到 2.3TB,增加了约 1.5 倍,而 4 位浮点 (FP4) 性能提升了约 50%,每系统达到略高于 105 个密集 petaFLOPS。然而,性能提升仅限于能够利用 FP4 性能的工作负载。在更高精度下,B300 相比旧系统并无浮点性能优势。
令人困惑的是,这种变化只适用于 Nvidia 的风冷 B300 设备,而不适用于更强大的 GB300 NVL72 系统,后者仍将封装计为 GPU。
那么这是为什么呢?根据 Nvidia 超大规模和 HPC 部门副总裁兼总经理 Ian Buck 的说法,这是出于技术原因。
主要区别在于 HGX 机箱上提供的 B300 封装缺少了前代 Blackwell 加速器中的芯片间互连。这意味着两个芯片实际上是共享一个封装的两个独立的 144GB GPU。Buck 解释说,这使 Nvidia 能够实现更好的功耗和散热效果。但这也带来了一些缺点。由于两个芯片之间没有 C2C 互连,如果一个芯片要访问另一个芯片的内存,就必须离开封装,通过 NVLink 交换机,然后进行 U 型转向。
相比之下,GB300 保留了 C2C 接口,避免了封装外的内存绕行。由于两个芯片可以直接通信和共享内存,它们被视为一个统一的 GPU——至少在 Nvidia 的软件和许可方面是这样。
然而,这种技术例外不会持续太久。随着 Nvidia Vera Rubin 超级芯片的推出,它将采用 B300 式的命名规则,开始将单个芯片计为 GPU,因此有了 NVL144 的命名。
这也解释了为什么 Nvidia 的 Vera Rubin Ultra 平台(计划于 2027 年末推出)能够声称每机架拥有 576 个 GPU。正如我们之前探讨的,它实际上只有 144 个模块(在 Blackwell Ultra 之前我们会认为是一个 GPU),每个模块包含四个芯片。
如果要猜测的话,我们认为在 Nvidia 发布 Blackwell 的一年后,这家 GPU 巨头意识到他们错失了订阅软件收入。我们之所以这样说,是因为当我们询问 Nvidia 这种命名变化将如何影响 AI Enterprise 许可时,他们表示定价细节尚未确定。
"B300 的定价细节仍在敲定中,目前除了 GTC 主题演讲中展示的内容外,暂时没有关于 Rubin 的更多细节可以分享,"一位发言人向 El Reg 表示,并明确这也包括 AI Enterprise 的定价。
好文章,需要你的鼓励
本文探讨如何使用生成式AI和大语言模型作为倾听者,帮助用户表达内心想法。许多主流AI如ChatGPT、Claude等被设计成用户的"最佳伙伴",或试图提供心理健康建议,但有时用户只想要一个尊重的倾听者。文章提供了有效的提示词技巧,指导AI保持中性、尊重的态度,专注于倾听和理解,而非给出建议或判断。同时提醒用户注意隐私保护和AI的局限性。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
人工通用智能和超级人工智能的出现,可能会创造出一种全新的外星智能形态。传统AI基于人类智能模式构建,但AGI和ASI一旦存在,可能会选择创造完全不同于人类认知方式的新型智能。这种外星人工智能既可能带来突破性进展,如找到癌症治愈方法,也可能存在未知风险。目前尚不确定这种新智能形态是否会超越人类智能,以及我们是否应该追求这一可能改变人类命运的技术突破。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。