AWS雷尼尔项目正式投入运行,与Stargate展开竞争
就在山姆·阿尔特曼的Stargate项目刚刚开始向遥远的AI驱动世界开启门户之际,亚马逊的竞争性AI计算力山峰已经投入运营。
亚马逊云服务今天宣布,其与Stargate竞争的AI"超级集群"雷尼尔项目现已正式运行,在多个数据中心部署了"近50万块"Trainium2芯片来为这个庞大的机器提供服务。AWS并未透露雷尼尔项目究竟涵盖多少个数据中心以及实际提供多少计算能力,但AWS在新闻稿中向公众保证,这台机器是"世界上最大的AI计算集群之一",并且在创纪录的时间内上线。
"雷尼尔项目现已全面投入运营,距离首次宣布不到一年时间,"AWS表示——而且它并不止步于这50万块Trainium2芯片。该集群已经被亚马逊的AI合作伙伴Anthropic使用,该公司表示将扩展"到超过100万块Trainium2芯片——用于包括训练和推理在内的工作负载——到年底"。
根据我们夏季从AWS员工那里了解到的雷尼尔项目预览信息,承载该项目的每个数据中心都将非常庞大。AWS发言人在7月告诉我们,印第安纳州的一个站点现在作为雷尼尔集群的一部分已部分上线,最终将跨越30栋数据中心建筑,每栋占地20万平方英尺。
我们联系了AWS以获取更多关于雷尼尔集群的信息,包括目前涵盖多少个数据中心,以及到年底将有多大规模,但没有收到回复。
AWS正与OpenAI及其合作伙伴Oracle和软银之间的Stargate合资项目展开AI容量竞争。截至本月早些时候,OpenAI支持的德克萨斯州阿比林数据中心的Stargate计算力约为200兆瓦,OpenAI合作伙伴的承诺计划到2026年中期将德克萨斯州Stargate数据中心扩展到1.2吉瓦容量。Oracle预计在未来四年内帮助增加5.7吉瓦容量。
亚马逊的物流专长确实帮助它快速建设,但它也拥有硬件优势。
"与大多数其他云提供商不同,AWS构建自己的硬件,因此能够控制技术栈的每个方面,从芯片的最小组件,到运行其上的软件,再到数据中心本身的完整设计,"AWS在新闻稿中表示。
现在,如果这家云计算巨头能够解决最近出现的那些可靠性问题,一切就会很完美了。
Q&A
Q1:AWS雷尼尔项目是什么?有多大规模?
A:雷尼尔项目是AWS的AI"超级集群",目前已部署近50万块Trainium2芯片,跨越多个数据中心。AWS称其为"世界上最大的AI计算集群之一",计划到年底扩展到超过100万块芯片。
Q2:雷尼尔项目与OpenAI的Stargate有什么竞争关系?
A:两者都在争夺AI计算能力的领先地位。Stargate目前在德克萨斯州有200兆瓦计算力,计划到2026年中期扩展到1.2吉瓦。而雷尼尔项目已经投入运营,在建设速度上领先。
Q3:AWS在AI硬件方面有什么优势?
A:AWS构建自己的硬件,能够控制从芯片组件到软件再到数据中心设计的整个技术栈。这种垂直整合让AWS在建设速度和技术控制方面具有优势,不依赖外部硬件供应商。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。