智能芯片如何解决AI能耗危机

随着AI发展推动数据中心能耗激增,预计2030年将增长160%,微软等科技巨头甚至重启核电站以满足算力需求。然而,真正的解决方案可能不是更大的基础设施,而是更智能的芯片。以色列初创公司Proteantecs通过芯片遥测技术,已帮助大型数据中心降低14%的AI服务器功耗。Arm公司专注于能效架构设计,而Cadence则利用AI设计更智能的硅芯片。这些技术代表了AI基础设施的新层次,通过智能设计和实时监控回收每一瓦特能耗。

在推动AI繁荣发展的浪潮中,全球数据中心基础设施正被推向极限。高盛预测,到2030年数据中心功耗将激增160%,这一增幅如此严重,以至于微软等超大规模云服务提供商现在正帮助重启休眠的核反应堆来满足计算需求——一个具体例子是微软支持重启宾夕法尼亚州三里岛核电站,以便为数据中心提供更多电力。

但这只是能源问题的一面。当头条新闻专注于寻找更多能源时,芯片内部正在酝酿另一场革命,许多专家指出,AI功耗问题的真正解决方案可能不是更大的基础设施,而是更智能的芯片。

发现AI芯片中的隐藏浪费

据《环球报》报道,专注于芯片遥测技术的以色列初创公司Proteantecs正在帮助世界上一些最大的数据中心将AI服务器的功耗降低多达14%。14%听起来可能不多,但在数千个全天候运行的GPU上,这个数字累积得很快。

"我们的技术将代理直接嵌入到硅芯片上,"Proteantecs首席战略官乌兹·巴鲁奇在采访中说。"这些代理实时监控芯片性能,测量其'距离故障的程度',以便系统能够动态调整电压并避免过度配置。"

大多数数据中心在运行芯片时都留有很大的能源安全余量——这些内置缓冲器旨在防止磨损、电力波动和不可预测的工作负载。"但这些缓冲器大多是猜测,"巴鲁奇告诉我,并补充说公司能够精确测量它们,数据中心可以回收未使用的电力,同时保持系统安全。

在大型训练集群中,节省的能源快速累积。最近一项研究的实证测量显示,8个GPU的英伟达H100节点在重型AI工作负载下可消耗高达8.4千瓦的电力。如果Proteantecs的监控技术能减少14%的能耗,每年就能节省数百万美元的能源成本,并通过减少热应力将芯片寿命延长一年。

该公司的技术已部署在实际的AI训练和推理环境中,一些客户使用实时遥测技术来防止静默故障并优化模型性能。"没有人愿意在完成数百万美元的大语言模型训练后,才发现存在静默数据损坏,"巴鲁奇补充道。

Arm的效率策略

作为智能手机、云服务器等芯片架构的主要提供商,Arm正在基于其在节能设计方面的成功记录继续发展。"我们不断演进Arm Neoverse平台,以满足AI工作负载日益增长的计算需求,"Arm基础设施产品线市场推广副总裁埃迪·拉米雷斯说。

最新的Neoverse平台支持SVE2和BF16等先进数学运算,有助于加速AI模型执行,同时保持能源效率。据拉米雷斯介绍,Neoverse已在亚马逊、微软、谷歌和甲骨文等云平台上使用,反映了超大规模云服务商优先考虑功耗效率的广泛趋势。

但Arm的方法不仅专注于高效核心——这些芯片部件在处理数据时将能耗降至最低——还优化整个计算系统,从处理到内存访问和数据移动。作为其"全面计算"战略的一部分——Arm平衡性能、功耗和数据流的系统级方法——该公司正在帮助数据中心从现有基础设施中获得更多价值。

"这不仅仅是构建更快的芯片,"拉米雷斯说。"而是帮助数据中心用现有资源做更多事情。"

在超大规模云服务商正在探索核能选择的环境下,Arm将自己视为一种平衡力量。"降低AI模型的功耗要求至关重要,"拉米雷斯说。"通过最大化利用现有资源,企业可以减少成本和环境负担。"

用AI设计更智能的芯片

当Arm专注于节能架构、Proteantecs专注于运行时优化时,美国集成电路和电子设备设计开发公司Cadence Design Systems正在使用AI设计更智能的硅芯片,在芯片制造之前的设计阶段就减少低效率问题。

"在Cadence,我们不仅为AI而设计;我们还用AI来设计,"Cadence多物理系统分析企业副总裁本·顾通过电子邮件说。顾声称,该公司的Cerebrus AI Studio平台现已被1000多个芯片项目采用,使用智能AI来自动化和加速SoC(片上系统)设计。据Cadence称,这在某些情况下将交付时间缩短了10倍,同时将功耗和芯片占用的物理空间减少了20%。

Cadence最近还推出了Millennium M2000超级计算机,它使用GPU加速和多物理仿真——描述热量、应力和功率等相互作用建模的术语——将仿真速度提升80倍,功耗降低20%。

在遥测技术方面,Cadence将Proteantecs的洞察视为关键的反馈循环。"实时监控不仅为故障预防提供信息,还为从验证到持续改进的整个设计生命周期提供信息,"顾说,并补充说公司并未止步于此。

他制定了自主芯片设计的五级路线图,从优化AI发展到完全的智能工作流程。最终,这些系统可能演进为硅级智能体,在持续循环中自主设计、验证和优化——工程师指导过程而非驱动每一步。

AI基础设施的新层级

Arm、Cadence和Proteantecs共同代表了AI基础设施的新层级,正在缓慢但确定地定义企业能从现有硬件中提取多少性能和功耗效率。

这在能源约束正成为经济约束的时代非常重要。通过更智能的硅设计和实时监控回收的每一瓦特,都是不需要购买的一瓦特——或者更糟的是,不可用的一瓦特。

"性能和效率之间不需要权衡,"拉米雷斯说。他补充说,Arm的架构旨在实现这种平衡,特别是在企业面临不断增长的能源约束时。

事实证明,真正的故事可能不是我们是否能为AI的未来提供动力,而是我们是否能构建足够智能的AI系统来为自己提供动力。

来源:Forbes

0赞

好文章,需要你的鼓励

2025

06/24

09:37

分享

点赞

邮件订阅