AWS雷尼尔人工智能超级集群正式上线运行

亚马逊云服务宣布雷尼尔项目正式投入运营,该AI超级集群配备近50万块Trainium2芯片,分布在多个数据中心。AWS称这是全球最大的AI计算集群之一,从宣布到全面运营仅用不到一年时间。合作伙伴Anthropic计划年底前扩展到超过100万块芯片。该项目与OpenAI星门计划展开激烈竞争,AWS凭借自主硬件开发优势能够控制从芯片到数据中心的完整技术栈。

AWS雷尼尔项目正式投入运行,与Stargate展开竞争

就在山姆·阿尔特曼的Stargate项目刚刚开始向遥远的AI驱动世界开启门户之际,亚马逊的竞争性AI计算力山峰已经投入运营。

亚马逊云服务今天宣布,其与Stargate竞争的AI"超级集群"雷尼尔项目现已正式运行,在多个数据中心部署了"近50万块"Trainium2芯片来为这个庞大的机器提供服务。AWS并未透露雷尼尔项目究竟涵盖多少个数据中心以及实际提供多少计算能力,但AWS在新闻稿中向公众保证,这台机器是"世界上最大的AI计算集群之一",并且在创纪录的时间内上线。

"雷尼尔项目现已全面投入运营,距离首次宣布不到一年时间,"AWS表示——而且它并不止步于这50万块Trainium2芯片。该集群已经被亚马逊的AI合作伙伴Anthropic使用,该公司表示将扩展"到超过100万块Trainium2芯片——用于包括训练和推理在内的工作负载——到年底"。

根据我们夏季从AWS员工那里了解到的雷尼尔项目预览信息,承载该项目的每个数据中心都将非常庞大。AWS发言人在7月告诉我们,印第安纳州的一个站点现在作为雷尼尔集群的一部分已部分上线,最终将跨越30栋数据中心建筑,每栋占地20万平方英尺。

我们联系了AWS以获取更多关于雷尼尔集群的信息,包括目前涵盖多少个数据中心,以及到年底将有多大规模,但没有收到回复。

AWS正与OpenAI及其合作伙伴Oracle和软银之间的Stargate合资项目展开AI容量竞争。截至本月早些时候,OpenAI支持的德克萨斯州阿比林数据中心的Stargate计算力约为200兆瓦,OpenAI合作伙伴的承诺计划到2026年中期将德克萨斯州Stargate数据中心扩展到1.2吉瓦容量。Oracle预计在未来四年内帮助增加5.7吉瓦容量。

亚马逊的物流专长确实帮助它快速建设,但它也拥有硬件优势。

"与大多数其他云提供商不同,AWS构建自己的硬件,因此能够控制技术栈的每个方面,从芯片的最小组件,到运行其上的软件,再到数据中心本身的完整设计,"AWS在新闻稿中表示。

现在,如果这家云计算巨头能够解决最近出现的那些可靠性问题,一切就会很完美了。

Q&A

Q1:AWS雷尼尔项目是什么?有多大规模?

A:雷尼尔项目是AWS的AI"超级集群",目前已部署近50万块Trainium2芯片,跨越多个数据中心。AWS称其为"世界上最大的AI计算集群之一",计划到年底扩展到超过100万块芯片。

Q2:雷尼尔项目与OpenAI的Stargate有什么竞争关系?

A:两者都在争夺AI计算能力的领先地位。Stargate目前在德克萨斯州有200兆瓦计算力,计划到2026年中期扩展到1.2吉瓦。而雷尼尔项目已经投入运营,在建设速度上领先。

Q3:AWS在AI硬件方面有什么优势?

A:AWS构建自己的硬件,能够控制从芯片组件到软件再到数据中心设计的整个技术栈。这种垂直整合让AWS在建设速度和技术控制方面具有优势,不依赖外部硬件供应商。

来源:The Register

0赞

好文章,需要你的鼓励

2025

10/30

07:59

分享

点赞

邮件订阅