在过去几天里,美国能源部(DOE)宣布了两项战略合作伙伴关系,将在两个国家实验室建造四台强大的AI超级计算机。AMD和Nvidia将为两个由美国政府支持的重大AI基础设施项目提供动力——AMD与HPE合作建设主权AI工厂超级计算机,Nvidia与Oracle合作建设能源部迄今为止最大的AI系统,同时Oracle也将参与AMD的项目。
AMD将为能源部主权AI工厂超级计算机提供动力
美国政府选择AMD为两台下一代主权AI工厂超级计算机Lux和Discovery提供计算和网络技术,这两台超级计算机将部署在橡树岭国家实验室(ORNL)。Lux和Discovery旨在扩大美国在人工智能和高性能计算领域的领导地位,并有望"推动科学、能源和国家安全领域的突破"。
Lux AI超级计算机将率先问世。Lux由ORNL、AMD、Oracle云基础设施(OCI)和HPE共同开发,将采用AMD当前的Instinct MI355X GPU、EPYC CPU和Pensando先进网络技术。据AMD表示,Lux将于明年初部署。
Discovery将在稍后推出。Discovery将采用代号为"Venice"的下一代AMD EPYC CPU和专用的AMD Instinct MI430X GPU。据AMD发布的信息,Instinct MI430X是专为主权AI和科学计算而设计的新型MI400系列加速器。ORNL预计将在2028年某个时候接收Discovery,用户操作预计在2029年开始。虽然没有披露预期性能水平,但可以预期Discovery将成为基于AMD的最强大AI系统之一。
这一部署强化了AMD在高性能计算和AI加速器领域的地位。它也标志着政府对AMD硬件和软件生态系统在关键任务应用中的信任度不断增长。主权AI工厂可能会促进AMD Instinct加速器平台在国防承包商、国家实验室和企业AI部署中的更广泛采用,有望扩大AMD的数据中心收入流。
Nvidia和Oracle与能源部合作打造大规模AI系统
几乎同时,美国能源部和阿贡国家实验室宣布与Nvidia和Oracle合作,建造其迄今为止最大的AI系统——Solstice和Equinox。这一举措将利用Oracle云基础设施(OCI),并由Nvidia最新的Blackwell GPU提供动力,作为合作伙伴关系的一部分,Oracle还将为能源部提供使用Nvidia Hopper和Blackwell架构组合的云AI计算资源。Solstice和Equinox旨在支持能源、安全和发现科学领域的AI研究。
Solstice是两个系统中更强大的一个。Solstice将配备100,000个Nvidia Blackwell GPU,成为能源部实验室群中最大的AI超级计算机;较小的Equinox系统将配备10,000个Nvidia Blackwell GPU。在ANL的阿贡领先计算设施的建设将立即开始,预计Equinox将于2026年交付。Nvidia没有说明是Blackwell GB200超级芯片还是更新的GB300 Blackwell Ultra部件将为系统提供动力。
Solstice和Equinox将连接阿贡的实验设施,如先进光子源和其他科学仪器网络。该项目的目标之一是使研究人员能够构建智能体AI模型,这些模型可以在大量数据上进行推理和推断,并自主测试跨多个科学学科和研究领域的假设。
这一合作伙伴关系加强了Nvidia在政府和科学计算中的立足点,强化了其在AI硬件和软件方面的领导地位。它还提升了Oracle在AI云市场的知名度,有望吸引寻求高性能AI解决方案的企业和公共部门客户。
这些AI系统将推动下一个十年的AI研究
这两项举措都反映了确保和发展国内AI基础设施的更广泛国家战略。AMD的主权AI工厂强调用于敏感应用的本地安全计算,而Nvidia和Oracle的能源部系统则突出了用于开放科学研究的大规模可扩展AI。
对于AMD来说,这是扩大其在AI和高性能计算领域影响力的高调时刻。对于Nvidia来说,这是其统治地位的延续。与此同时,Oracle作为两家芯片制造商的关键合作伙伴而崭露头角。
Q&A
Q1:美国能源部此次建造的AI超级计算机有哪些?
A:美国能源部将建造四台AI超级计算机,分别是AMD支持的Lux和Discovery(部署在橡树岭国家实验室),以及Nvidia支持的Solstice和Equinox(部署在阿贡国家实验室)。其中Solstice配备100,000个Blackwell GPU,是能源部最大的AI系统。
Q2:AMD的Instinct MI430X GPU有什么特别之处?
A:AMD Instinct MI430X是新型MI400系列加速器,专为主权AI和科学计算而设计。它将为Discovery超级计算机提供动力,预计在2028年交付,2029年开始用户操作,有望成为基于AMD的最强大AI系统之一。
Q3:这些超级计算机的主要用途是什么?
A:这些AI超级计算机主要用于推动科学、能源和国家安全领域的突破。Solstice和Equinox将支持能源、安全和发现科学的AI研究,能够构建智能体AI模型来自主测试跨多个科学学科的假设,连接各种科学实验设施。
好文章,需要你的鼓励
PDF协会在欧洲会议上宣布,将在PDF规范中添加对JPEG XL图像格式的支持。尽管Chromium团队此前将该格式标记为过时,但此次纳入可能为JXL带来主流应用机会。PDF协会CTO表示,选择JPEG XL作为支持HDR内容的首选解决方案。该格式具备广色域、超高分辨率和多通道支持等优势,但目前仍缺乏广泛的浏览器支持。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
Ironclad OS项目正在开发一个新的类Unix操作系统内核,面向小型嵌入式系统,计划支持实时功能。该项目的独特之处在于采用Ada编程语言及其可形式化验证的SPARK子集进行开发,而非常见的C、C++或Rust语言。项目还包含运行在Ironclad内核上的完整操作系统Gloire,使用GNU工具构建以提供传统Unix兼容性。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。