亚马逊为Anthropic构建大规模AI超级集群Project Rainier项目揭秘

亚马逊正在构建代号为"雨尼尔项目"的超大规模AI超级计算集群，专为合作伙伴Anthropic提供服务。该系统将包含数十万个加速器，横跨美国多个站点，预计今年晚些时候上线。与其他AI项目不同，雨尼尔项目将使用亚马逊自研的Trainium2芯片而非GPU，这将是亚马逊AI芯片的最大规模部署。

亚马逊云服务（AWS）正在构建一个包含"数十万个"加速器的大规模超级计算集群，旨在为其合作伙伴Anthropic在AI竞赛中提供优势支持。

这个被称为Project Rainier的系统预计将在今年晚些时候上线，计算资源分布在美国多个站点。亚马逊Annapurna实验室产品和客户工程总监Gadi Hutt表示，仅印第安纳州的一个站点就将涵盖30个数据中心，每个占地20万平方英尺。据报道，仅这一设施就消耗超过2.2吉瓦的电力。

与OpenAI的Stargate、xAI的Colossus或AWS自己的Project Ceiba不同，这个系统并不使用GPU。相反，Project Rainier将代表亚马逊Annapurna AI芯片有史以来最大规模的部署。

"这是我们首次构建如此大规模的训练集群，允许客户（在这种情况下是Anthropic）在所有基础设施上训练单一模型，"Hutt说。"这个规模确实是前所未有的。"

值得注意的是，亚马逊是Anthropic最大的支持者之一，已向这家OpenAI竞争对手投资80亿美元。

**计算的基本单元**

Project Rainier的核心是Annapurna实验室的Trainium2加速器，该产品于去年12月发布。

尽管名称如此，该芯片既可用于训练也可用于推理工作负载，这对于使用强化学习（RL）的客户来说非常有用，就像我们在DeepSeek R1和OpenAI的o1中看到的那样，为模型赋予推理能力。

"作为工作负载的RL内置了大量推理，因为我们需要在训练步骤中验证结果，"Hutt说。

该芯片本身采用台积电的芯片级封装技术（CoWoS），将一对5nm计算核心粘合在一起，由四个HBM堆栈供电。每个Trainium2加速器总共提供1.3 petaFLOPS的密集FP8性能、96GB HBM和2.9TB/s的内存带宽。

单独来看，该芯片的竞争力似乎不太强。例如，英伟达的B200拥有4.5 petaFLOPS的密集FP8、192GB HBM3e和8TB/s的内存带宽。

对4倍稀疏性的支持确实有助于Trainium2缩小差距，将FP8性能提升至5.2 petaFLOPS，但在相同精度下仍落后于B200的9 petaFLOPS稀疏计算。

**Trn2系统**

虽然Trainium2在芯片对芯片的比较中可能显得有些薄弱，但这并不能说明全部情况。

与H100和H200系列GPU不同，英伟达的B200只有八路HGX形式。同样，AWS的Trainium2最小配置（称为Trn2实例）有16个加速器。

"当你谈论大型集群时，单个芯片提供什么并不那么重要，更重要的是所谓的'良好吞吐量'，"Hutt解释道。"这是考虑到停机时间的训练良好吞吐量...我没有看到业界对此有太多讨论，但这是客户关注的指标。"

与英伟达的HGX B200系统相比，性能差距要小得多。基于Blackwell的产品在内存带宽和密集FP8计算方面仍有优势，这些是推理性能的关键指标。

对于训练工作负载，亚马逊的Trn2实例确实有一些优势，因为它们在纸面上在FP8精度下提供更高的稀疏浮点性能。

**扩展到机架规模**

四个Trn2系统可以使用NeuronLink网状连接，将计算域从16个芯片扩展到64个，AWS将这种配置称为UltraServer。

这是通过将每个Trn2系统堆叠在一起形成3D环面来实现的。

根据亚马逊的文档，Trn2实例之间NeuronLink提供的实例间带宽相当低，每个芯片256GB/s的带宽。

这种芯片到芯片的网状连接再次无需交换机实现，具有功耗更低的优势。这一点，加上将系统分布在两个机架上所提供的较低计算密度，使AWS能够使用风冷——这是NVL72系统无法做到的。

**向外扩展**

如前所述，亚马逊对Project Rainier的最终规模一直比较模糊。此前曾吹嘘该系统将包含数十万个Trainium2芯片。

在最近的博客文章中，它说"当你连接数万个这样的UltraServer并将它们都指向同一个问题时，你就得到了Project Rainier。"

即使仅仅10,000个UltraServer也相当于640,000个加速器。考虑到百万加速器集群将产生更好的头条新闻，我们假设作者指的是Trn2实例，而不是UltraServer。

凭借600万平方英尺的占地面积，我们预计空间不会成为限制因素。

**Project Rainier 2.0即将到来？**

到目前为止，亚马逊的所有信息都表明Trainium2为Project Rainier提供动力，但随着第三代加速器仅几个月之后就将推出，我们不会惊讶地发现至少一些站点最终会使用更新、更强大的芯片。

在去年的re:Invent大会上，Annapurna实验室团队预告了这款芯片，它将基于台积电的3nm工艺节点构建，承诺比当前一代提供40%更好的效率。亚马逊还预计其基于Trainium3的UltraServer将提供比基于Trn2的系统约4倍的性能。

这意味着我们可以期待每个Trn3 UltraServer提供约332.8 petaFLOPS的密集FP8或启用稀疏性时约1.33 exaFLOPS。

确实有先例支持最后时刻的变更。如您所记得的，亚马逊的Project Ceiba最初应该使用英伟达的Grace Hopper超级芯片，但最终使用了更强大的Blackwell加速器。

来源：The Register

0赞

好文章，需要你的鼓励

亚马逊为Anthropic构建大规模AI超级集群Project Rainier项目揭秘

来源：The Register

2025

07/07

08:27

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

达索系统收购Ascon Qube技术加速虚拟孪生产品布局

后Transformer模型系统能够推动变革

德国实验室推出DeepSeek R1-0528变体，速度提升200%

Sakana AI 推出 TreeQuest：多模型团队表现超越单一大语言模型30%

Wonder Dynamics联合创始人加入2025年TechCrunch Disrupt AI舞台

全球风投二季度复苏迹象显现，AI交易主导资本流向

什么是Perplexity？这款AI聊天机器人全方位解读

英超联赛推出AI工具提升球迷体验

Lovable计划融资1.5亿美元，估值达20亿美元

多智能体系统如何革新数据工作流程

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: