Arm Holdings公司正与开放计算项目合作,致力于为人工智能数据中心提供高效的基础设施标准,以应对不断增长的能源需求。
为应对这一挑战,Arm今日宣布将支持企业开发下一阶段专用硅芯片和封装技术,用于融合基础设施。这种方法结合了协同设计能力,将计算、存储和网络接口集成在同一个系统级芯片上,使AI数据中心能够部署更高密度、更高效的计算设备。
传统数据中心依赖独立的服务器板,在机架上连接中央处理器、图形处理器、内存和网络组件。相比之下,系统级芯片设计将这些元素整合到一个紧密集成的封装中,降低功耗和延迟,同时为AI工作负载提供更高的计算密度。
为推动下一代融合数据中心的发展,Arm将其新的基础芯片组系统架构规范贡献给开放计算项目,并扩大Arm全设计生态系统。
开放计算项目是一个全球行业组织,专门设计和共享数据中心技术和基础设施的开源硬件配置。其目标是促进企业、工程师和用户之间的合作,分享思想、规范和知识产权,推进硬件设计。开放计算项目以鼓励模块化硬件组件而闻名,这种方法与新兴的芯片组设计相符。
芯片组设计的创新与应用
芯片组是模块化集成电路,采用"乐高积木"式方法,将更大、更单一的处理器设计分解为由较小、专用芯片组成的组件。这种模块化方法允许创建更复杂的系统级芯片设计,建立在针对特定任务优化的更节能硅芯片基础上,为定制配置提供灵活性和可扩展性。
"融合AI数据中心不会由单个通用芯片驱动,"Arm基础设施业务高级副总裁兼总经理Mohamed Awad表示。"要提高这些系统的密度,需要先进的专用硅芯片。"
基础芯片组系统架构建立在Arm早期芯片组系统架构工作基础上,旨在满足行业对供应商中立要求的需求。它为芯片组系统和接口设计提供了一套通用标准,实现了不依赖CPU架构的大规模互操作性。
"设想当你要构建下一个AI加速器系统级芯片时,理想情况下可以利用其他合作伙伴的芯片组,"Arm基础设施业务市场副总裁Eddie Ramirez在接受采访时说。"你不必自己设计每一个芯片组。"
Ramirez解释说,对AI计算资源日益增长的需求导致数据中心机架密度急剧增加。同时,计算集成点已从服务器板转移到系统级芯片封装本身。功耗已成为最大关切之一。
"如果你看看这些AI机架,例如,它们现在比五年前的平均计算机架耗电量高10倍,"他说。
过去,数据中心机架容纳30到40台服务器,功耗约12到15千瓦。今天的AI机架可以装载72到100台服务器,功耗高达100千瓦。通过实施基于芯片组的设计,AI加速器可以实现更好的每瓦性能,有助于降低运营成本。
Arm扩展全设计生态系统
为将先进的芯片组设计引入行业,Arm宣布扩展Arm全设计生态系统。该项目于两年前启动,合作伙伴从最初的13家增长到硅芯片和芯片组设计行业的36家。今天,公司宣布为该项目新增10家合作伙伴。
新合作伙伴包括为内存和PCIe标准提供输入/输出芯片组的Astera Labs、专注AI加速器的Rebellions,以及领先的专用集成电路厂商Marvell Technology。其他新成员还有AIchip、ASE、CoAsia、Credo、Eliyan和Insyde Software。Ramirez表示,在封装、互连和系统集成方面的综合专业知识将有助于推动下一阶段标准的发展,并在硅芯片设计生命周期中加速芯片组创新。
"我们希望能够降低成本并缩短这些真正复杂的系统级芯片的设计时间,"Ramirez说。
为引领行业基础设施的重新配置,Arm宣布开放计算项目已任命Arm为其董事会成员。公司将与AI软件和硅芯片制造巨头合作,包括Meta Platforms、Google、Intel和Microsoft,协助推动AI数据中心互操作设计的未来发展。
Q&A
Q1:什么是基础芯片组系统架构?它有什么作用?
A:基础芯片组系统架构是Arm开发的新规范,为芯片组系统和接口设计提供通用标准,实现不依赖CPU架构的大规模互操作性,让企业在构建AI加速器时能够利用其他合作伙伴的芯片组。
Q2:AI数据中心的功耗有多大变化?
A:过去数据中心机架容纳30到40台服务器,功耗约12到15千瓦。现在的AI机架可以装载72到100台服务器,功耗高达100千瓦,比五年前的平均计算机架耗电量高10倍。
Q3:Arm全设计生态系统有哪些新合作伙伴?
A:新合作伙伴包括Astera Labs(提供输入/输出芯片组)、Rebellions(AI加速器)、Marvell Technology(专用集成电路)等10家公司,加上原有合作伙伴,总数已达46家。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。