亚马逊云服务(AWS)正在构建一个包含"数十万个"加速器的大规模超级计算集群,旨在为其合作伙伴Anthropic在AI竞赛中提供优势支持。
这个被称为Project Rainier的系统预计将在今年晚些时候上线,计算资源分布在美国多个站点。亚马逊Annapurna实验室产品和客户工程总监Gadi Hutt表示,仅印第安纳州的一个站点就将涵盖30个数据中心,每个占地20万平方英尺。据报道,仅这一设施就消耗超过2.2吉瓦的电力。
与OpenAI的Stargate、xAI的Colossus或AWS自己的Project Ceiba不同,这个系统并不使用GPU。相反,Project Rainier将代表亚马逊Annapurna AI芯片有史以来最大规模的部署。
"这是我们首次构建如此大规模的训练集群,允许客户(在这种情况下是Anthropic)在所有基础设施上训练单一模型,"Hutt说。"这个规模确实是前所未有的。"
值得注意的是,亚马逊是Anthropic最大的支持者之一,已向这家OpenAI竞争对手投资80亿美元。
**计算的基本单元**
Project Rainier的核心是Annapurna实验室的Trainium2加速器,该产品于去年12月发布。
尽管名称如此,该芯片既可用于训练也可用于推理工作负载,这对于使用强化学习(RL)的客户来说非常有用,就像我们在DeepSeek R1和OpenAI的o1中看到的那样,为模型赋予推理能力。
"作为工作负载的RL内置了大量推理,因为我们需要在训练步骤中验证结果,"Hutt说。
该芯片本身采用台积电的芯片级封装技术(CoWoS),将一对5nm计算核心粘合在一起,由四个HBM堆栈供电。每个Trainium2加速器总共提供1.3 petaFLOPS的密集FP8性能、96GB HBM和2.9TB/s的内存带宽。
单独来看,该芯片的竞争力似乎不太强。例如,英伟达的B200拥有4.5 petaFLOPS的密集FP8、192GB HBM3e和8TB/s的内存带宽。
对4倍稀疏性的支持确实有助于Trainium2缩小差距,将FP8性能提升至5.2 petaFLOPS,但在相同精度下仍落后于B200的9 petaFLOPS稀疏计算。
**Trn2系统**
虽然Trainium2在芯片对芯片的比较中可能显得有些薄弱,但这并不能说明全部情况。
与H100和H200系列GPU不同,英伟达的B200只有八路HGX形式。同样,AWS的Trainium2最小配置(称为Trn2实例)有16个加速器。
"当你谈论大型集群时,单个芯片提供什么并不那么重要,更重要的是所谓的'良好吞吐量',"Hutt解释道。"这是考虑到停机时间的训练良好吞吐量...我没有看到业界对此有太多讨论,但这是客户关注的指标。"
与英伟达的HGX B200系统相比,性能差距要小得多。基于Blackwell的产品在内存带宽和密集FP8计算方面仍有优势,这些是推理性能的关键指标。
对于训练工作负载,亚马逊的Trn2实例确实有一些优势,因为它们在纸面上在FP8精度下提供更高的稀疏浮点性能。
**扩展到机架规模**
四个Trn2系统可以使用NeuronLink网状连接,将计算域从16个芯片扩展到64个,AWS将这种配置称为UltraServer。
这是通过将每个Trn2系统堆叠在一起形成3D环面来实现的。
根据亚马逊的文档,Trn2实例之间NeuronLink提供的实例间带宽相当低,每个芯片256GB/s的带宽。
这种芯片到芯片的网状连接再次无需交换机实现,具有功耗更低的优势。这一点,加上将系统分布在两个机架上所提供的较低计算密度,使AWS能够使用风冷——这是NVL72系统无法做到的。
**向外扩展**
如前所述,亚马逊对Project Rainier的最终规模一直比较模糊。此前曾吹嘘该系统将包含数十万个Trainium2芯片。
在最近的博客文章中,它说"当你连接数万个这样的UltraServer并将它们都指向同一个问题时,你就得到了Project Rainier。"
即使仅仅10,000个UltraServer也相当于640,000个加速器。考虑到百万加速器集群将产生更好的头条新闻,我们假设作者指的是Trn2实例,而不是UltraServer。
凭借600万平方英尺的占地面积,我们预计空间不会成为限制因素。
**Project Rainier 2.0即将到来?**
到目前为止,亚马逊的所有信息都表明Trainium2为Project Rainier提供动力,但随着第三代加速器仅几个月之后就将推出,我们不会惊讶地发现至少一些站点最终会使用更新、更强大的芯片。
在去年的re:Invent大会上,Annapurna实验室团队预告了这款芯片,它将基于台积电的3nm工艺节点构建,承诺比当前一代提供40%更好的效率。亚马逊还预计其基于Trainium3的UltraServer将提供比基于Trn2的系统约4倍的性能。
这意味着我们可以期待每个Trn3 UltraServer提供约332.8 petaFLOPS的密集FP8或启用稀疏性时约1.33 exaFLOPS。
确实有先例支持最后时刻的变更。如您所记得的,亚马逊的Project Ceiba最初应该使用英伟达的Grace Hopper超级芯片,但最终使用了更强大的Blackwell加速器。
好文章,需要你的鼓励
美国网络安全和基础设施安全局指示联邦机构修补影响思科ASA 5500-X系列防火墙设备的两个零日漏洞CVE-2025-20362和CVE-2025-20333。这些漏洞可绕过VPN身份验证并获取root访问权限,已被黑客积极利用。攻击与国家支持的ArcaneDoor黑客活动有关,黑客通过漏洞安装bootkit恶意软件并操控只读存储器实现持久化。思科已发布补丁,CISA要求机构清点易受攻击系统并在今日前完成修补。
康考迪亚大学研究团队通过对比混合量子-经典神经网络与传统模型在三个基准数据集上的表现,发现量子增强模型在准确率、训练速度和资源效率方面均显著优于传统方法。研究显示混合模型的优势随数据集复杂度提升而增强,在CIFAR100上准确率提升9.44%,训练速度提升5-12倍,且参数更少。该成果为实用化量子增强人工智能铺平道路。
TimeWave是一款功能全面的计时器应用,超越了苹果自带时钟应用的功能。它支持创建流式计时器,让用户可以设置连续的任务计时,帮助专注工作。应用采用简洁的黑白设计,融入了Liquid Glass元素。内置冥想、番茄工作法、20-20-20护眼等多种计时模式,支持实时活动显示和Siri快捷指令。免费版提供基础功能,高级版需付费订阅。
沙特KAUST大学团队开发了专门针对阿拉伯语的AI模型家族"Hala",通过创新的"翻译再调优"技术路线,将高质量英语指令数据转化为450万规模的阿拉伯语语料库,训练出350M到9B参数的多个模型。在阿拉伯语专项测试中,Hala在同规模模型中表现最佳,证明了语言专门化策略的有效性,为阿拉伯语AI发展和其他语言的专门化模型提供了可复制的技术方案。