Arm Holdings公司正与开放计算项目合作,致力于为人工智能数据中心提供高效的基础设施标准,以应对不断增长的能源需求。
为应对这一挑战,Arm今日宣布将支持企业开发下一阶段专用硅芯片和封装技术,用于融合基础设施。这种方法结合了协同设计能力,将计算、存储和网络接口集成在同一个系统级芯片上,使AI数据中心能够部署更高密度、更高效的计算设备。
传统数据中心依赖独立的服务器板,在机架上连接中央处理器、图形处理器、内存和网络组件。相比之下,系统级芯片设计将这些元素整合到一个紧密集成的封装中,降低功耗和延迟,同时为AI工作负载提供更高的计算密度。
为推动下一代融合数据中心的发展,Arm将其新的基础芯片组系统架构规范贡献给开放计算项目,并扩大Arm全设计生态系统。
开放计算项目是一个全球行业组织,专门设计和共享数据中心技术和基础设施的开源硬件配置。其目标是促进企业、工程师和用户之间的合作,分享思想、规范和知识产权,推进硬件设计。开放计算项目以鼓励模块化硬件组件而闻名,这种方法与新兴的芯片组设计相符。
芯片组设计的创新与应用
芯片组是模块化集成电路,采用"乐高积木"式方法,将更大、更单一的处理器设计分解为由较小、专用芯片组成的组件。这种模块化方法允许创建更复杂的系统级芯片设计,建立在针对特定任务优化的更节能硅芯片基础上,为定制配置提供灵活性和可扩展性。
"融合AI数据中心不会由单个通用芯片驱动,"Arm基础设施业务高级副总裁兼总经理Mohamed Awad表示。"要提高这些系统的密度,需要先进的专用硅芯片。"
基础芯片组系统架构建立在Arm早期芯片组系统架构工作基础上,旨在满足行业对供应商中立要求的需求。它为芯片组系统和接口设计提供了一套通用标准,实现了不依赖CPU架构的大规模互操作性。
"设想当你要构建下一个AI加速器系统级芯片时,理想情况下可以利用其他合作伙伴的芯片组,"Arm基础设施业务市场副总裁Eddie Ramirez在接受采访时说。"你不必自己设计每一个芯片组。"
Ramirez解释说,对AI计算资源日益增长的需求导致数据中心机架密度急剧增加。同时,计算集成点已从服务器板转移到系统级芯片封装本身。功耗已成为最大关切之一。
"如果你看看这些AI机架,例如,它们现在比五年前的平均计算机架耗电量高10倍,"他说。
过去,数据中心机架容纳30到40台服务器,功耗约12到15千瓦。今天的AI机架可以装载72到100台服务器,功耗高达100千瓦。通过实施基于芯片组的设计,AI加速器可以实现更好的每瓦性能,有助于降低运营成本。
Arm扩展全设计生态系统
为将先进的芯片组设计引入行业,Arm宣布扩展Arm全设计生态系统。该项目于两年前启动,合作伙伴从最初的13家增长到硅芯片和芯片组设计行业的36家。今天,公司宣布为该项目新增10家合作伙伴。
新合作伙伴包括为内存和PCIe标准提供输入/输出芯片组的Astera Labs、专注AI加速器的Rebellions,以及领先的专用集成电路厂商Marvell Technology。其他新成员还有AIchip、ASE、CoAsia、Credo、Eliyan和Insyde Software。Ramirez表示,在封装、互连和系统集成方面的综合专业知识将有助于推动下一阶段标准的发展,并在硅芯片设计生命周期中加速芯片组创新。
"我们希望能够降低成本并缩短这些真正复杂的系统级芯片的设计时间,"Ramirez说。
为引领行业基础设施的重新配置,Arm宣布开放计算项目已任命Arm为其董事会成员。公司将与AI软件和硅芯片制造巨头合作,包括Meta Platforms、Google、Intel和Microsoft,协助推动AI数据中心互操作设计的未来发展。
Q&A
Q1:什么是基础芯片组系统架构?它有什么作用?
A:基础芯片组系统架构是Arm开发的新规范,为芯片组系统和接口设计提供通用标准,实现不依赖CPU架构的大规模互操作性,让企业在构建AI加速器时能够利用其他合作伙伴的芯片组。
Q2:AI数据中心的功耗有多大变化?
A:过去数据中心机架容纳30到40台服务器,功耗约12到15千瓦。现在的AI机架可以装载72到100台服务器,功耗高达100千瓦,比五年前的平均计算机架耗电量高10倍。
Q3:Arm全设计生态系统有哪些新合作伙伴?
A:新合作伙伴包括Astera Labs(提供输入/输出芯片组)、Rebellions(AI加速器)、Marvell Technology(专用集成电路)等10家公司,加上原有合作伙伴,总数已达46家。
好文章,需要你的鼓励
五家光学存储初创公司正在开发长期存储技术,旨在用超过100年寿命的光学介质替代只有5-7年寿命的磁带。这些公司包括Cerabyte、Ewigbyte、HoloMem、Optera和SPhotonix,它们的技术类似微软Project Silica项目。光学存储介质具有更强的化学、冲击、辐射、水和热抗性,同时保持低能耗和高容量特性。
北京大学团队开发的DragMesh系统通过简单拖拽操作实现3D物体的物理真实交互。该系统采用分工合作架构,结合语义理解、几何预测和动画生成三个模块,在保证运动精度的同时将计算开销降至现有方法的五分之一。系统支持实时交互,无需重新训练即可处理新物体,为虚拟现实和游戏开发提供了高效解决方案。
Nutanix发布分布式主权云产品组合更新,为多云环境提供更安全的运营和管理功能。该解决方案支持企业在分布式环境中灵活部署和治理基础设施,运行传统虚拟机、现代云原生和AI应用。新功能包括支持完全断网环境的暗站点管理、政府云集群正式发布、Kubernetes平台增强安全合规性、企业AI平台集成NVIDIA微服务,以及云平台新增跨站点灾难恢复能力,为用户提供统一管理和运营简化体验。
达尔豪斯大学研究团队系统性批判了当前AI多智能体模拟的静态框架局限,提出以"动态场景演化、智能体-环境共同演化、生成式智能体架构"为核心的开放式模拟范式。该研究突破传统任务导向模式,强调AI智能体应具备自主探索、社会学习和环境重塑能力,为政策制定、教育创新和社会治理提供前所未有的模拟工具。