在推动AI繁荣发展的浪潮中,全球数据中心基础设施正被推向极限。高盛预测,到2030年数据中心功耗将激增160%,这一增幅如此严重,以至于微软等超大规模云服务提供商现在正帮助重启休眠的核反应堆来满足计算需求——一个具体例子是微软支持重启宾夕法尼亚州三里岛核电站,以便为数据中心提供更多电力。
但这只是能源问题的一面。当头条新闻专注于寻找更多能源时,芯片内部正在酝酿另一场革命,许多专家指出,AI功耗问题的真正解决方案可能不是更大的基础设施,而是更智能的芯片。
发现AI芯片中的隐藏浪费
据《环球报》报道,专注于芯片遥测技术的以色列初创公司Proteantecs正在帮助世界上一些最大的数据中心将AI服务器的功耗降低多达14%。14%听起来可能不多,但在数千个全天候运行的GPU上,这个数字累积得很快。
"我们的技术将代理直接嵌入到硅芯片上,"Proteantecs首席战略官乌兹·巴鲁奇在采访中说。"这些代理实时监控芯片性能,测量其'距离故障的程度',以便系统能够动态调整电压并避免过度配置。"
大多数数据中心在运行芯片时都留有很大的能源安全余量——这些内置缓冲器旨在防止磨损、电力波动和不可预测的工作负载。"但这些缓冲器大多是猜测,"巴鲁奇告诉我,并补充说公司能够精确测量它们,数据中心可以回收未使用的电力,同时保持系统安全。
在大型训练集群中,节省的能源快速累积。最近一项研究的实证测量显示,8个GPU的英伟达H100节点在重型AI工作负载下可消耗高达8.4千瓦的电力。如果Proteantecs的监控技术能减少14%的能耗,每年就能节省数百万美元的能源成本,并通过减少热应力将芯片寿命延长一年。
该公司的技术已部署在实际的AI训练和推理环境中,一些客户使用实时遥测技术来防止静默故障并优化模型性能。"没有人愿意在完成数百万美元的大语言模型训练后,才发现存在静默数据损坏,"巴鲁奇补充道。
Arm的效率策略
作为智能手机、云服务器等芯片架构的主要提供商,Arm正在基于其在节能设计方面的成功记录继续发展。"我们不断演进Arm Neoverse平台,以满足AI工作负载日益增长的计算需求,"Arm基础设施产品线市场推广副总裁埃迪·拉米雷斯说。
最新的Neoverse平台支持SVE2和BF16等先进数学运算,有助于加速AI模型执行,同时保持能源效率。据拉米雷斯介绍,Neoverse已在亚马逊、微软、谷歌和甲骨文等云平台上使用,反映了超大规模云服务商优先考虑功耗效率的广泛趋势。
但Arm的方法不仅专注于高效核心——这些芯片部件在处理数据时将能耗降至最低——还优化整个计算系统,从处理到内存访问和数据移动。作为其"全面计算"战略的一部分——Arm平衡性能、功耗和数据流的系统级方法——该公司正在帮助数据中心从现有基础设施中获得更多价值。
"这不仅仅是构建更快的芯片,"拉米雷斯说。"而是帮助数据中心用现有资源做更多事情。"
在超大规模云服务商正在探索核能选择的环境下,Arm将自己视为一种平衡力量。"降低AI模型的功耗要求至关重要,"拉米雷斯说。"通过最大化利用现有资源,企业可以减少成本和环境负担。"
用AI设计更智能的芯片
当Arm专注于节能架构、Proteantecs专注于运行时优化时,美国集成电路和电子设备设计开发公司Cadence Design Systems正在使用AI设计更智能的硅芯片,在芯片制造之前的设计阶段就减少低效率问题。
"在Cadence,我们不仅为AI而设计;我们还用AI来设计,"Cadence多物理系统分析企业副总裁本·顾通过电子邮件说。顾声称,该公司的Cerebrus AI Studio平台现已被1000多个芯片项目采用,使用智能AI来自动化和加速SoC(片上系统)设计。据Cadence称,这在某些情况下将交付时间缩短了10倍,同时将功耗和芯片占用的物理空间减少了20%。
Cadence最近还推出了Millennium M2000超级计算机,它使用GPU加速和多物理仿真——描述热量、应力和功率等相互作用建模的术语——将仿真速度提升80倍,功耗降低20%。
在遥测技术方面,Cadence将Proteantecs的洞察视为关键的反馈循环。"实时监控不仅为故障预防提供信息,还为从验证到持续改进的整个设计生命周期提供信息,"顾说,并补充说公司并未止步于此。
他制定了自主芯片设计的五级路线图,从优化AI发展到完全的智能工作流程。最终,这些系统可能演进为硅级智能体,在持续循环中自主设计、验证和优化——工程师指导过程而非驱动每一步。
AI基础设施的新层级
Arm、Cadence和Proteantecs共同代表了AI基础设施的新层级,正在缓慢但确定地定义企业能从现有硬件中提取多少性能和功耗效率。
这在能源约束正成为经济约束的时代非常重要。通过更智能的硅设计和实时监控回收的每一瓦特,都是不需要购买的一瓦特——或者更糟的是,不可用的一瓦特。
"性能和效率之间不需要权衡,"拉米雷斯说。他补充说,Arm的架构旨在实现这种平衡,特别是在企业面临不断增长的能源约束时。
事实证明,真正的故事可能不是我们是否能为AI的未来提供动力,而是我们是否能构建足够智能的AI系统来为自己提供动力。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。