在推动AI繁荣发展的浪潮中,全球数据中心基础设施正被推向极限。高盛预测,到2030年数据中心功耗将激增160%,这一增幅如此严重,以至于微软等超大规模云服务提供商现在正帮助重启休眠的核反应堆来满足计算需求——一个具体例子是微软支持重启宾夕法尼亚州三里岛核电站,以便为数据中心提供更多电力。
但这只是能源问题的一面。当头条新闻专注于寻找更多能源时,芯片内部正在酝酿另一场革命,许多专家指出,AI功耗问题的真正解决方案可能不是更大的基础设施,而是更智能的芯片。
发现AI芯片中的隐藏浪费
据《环球报》报道,专注于芯片遥测技术的以色列初创公司Proteantecs正在帮助世界上一些最大的数据中心将AI服务器的功耗降低多达14%。14%听起来可能不多,但在数千个全天候运行的GPU上,这个数字累积得很快。
"我们的技术将代理直接嵌入到硅芯片上,"Proteantecs首席战略官乌兹·巴鲁奇在采访中说。"这些代理实时监控芯片性能,测量其'距离故障的程度',以便系统能够动态调整电压并避免过度配置。"
大多数数据中心在运行芯片时都留有很大的能源安全余量——这些内置缓冲器旨在防止磨损、电力波动和不可预测的工作负载。"但这些缓冲器大多是猜测,"巴鲁奇告诉我,并补充说公司能够精确测量它们,数据中心可以回收未使用的电力,同时保持系统安全。
在大型训练集群中,节省的能源快速累积。最近一项研究的实证测量显示,8个GPU的英伟达H100节点在重型AI工作负载下可消耗高达8.4千瓦的电力。如果Proteantecs的监控技术能减少14%的能耗,每年就能节省数百万美元的能源成本,并通过减少热应力将芯片寿命延长一年。
该公司的技术已部署在实际的AI训练和推理环境中,一些客户使用实时遥测技术来防止静默故障并优化模型性能。"没有人愿意在完成数百万美元的大语言模型训练后,才发现存在静默数据损坏,"巴鲁奇补充道。
Arm的效率策略
作为智能手机、云服务器等芯片架构的主要提供商,Arm正在基于其在节能设计方面的成功记录继续发展。"我们不断演进Arm Neoverse平台,以满足AI工作负载日益增长的计算需求,"Arm基础设施产品线市场推广副总裁埃迪·拉米雷斯说。
最新的Neoverse平台支持SVE2和BF16等先进数学运算,有助于加速AI模型执行,同时保持能源效率。据拉米雷斯介绍,Neoverse已在亚马逊、微软、谷歌和甲骨文等云平台上使用,反映了超大规模云服务商优先考虑功耗效率的广泛趋势。
但Arm的方法不仅专注于高效核心——这些芯片部件在处理数据时将能耗降至最低——还优化整个计算系统,从处理到内存访问和数据移动。作为其"全面计算"战略的一部分——Arm平衡性能、功耗和数据流的系统级方法——该公司正在帮助数据中心从现有基础设施中获得更多价值。
"这不仅仅是构建更快的芯片,"拉米雷斯说。"而是帮助数据中心用现有资源做更多事情。"
在超大规模云服务商正在探索核能选择的环境下,Arm将自己视为一种平衡力量。"降低AI模型的功耗要求至关重要,"拉米雷斯说。"通过最大化利用现有资源,企业可以减少成本和环境负担。"
用AI设计更智能的芯片
当Arm专注于节能架构、Proteantecs专注于运行时优化时,美国集成电路和电子设备设计开发公司Cadence Design Systems正在使用AI设计更智能的硅芯片,在芯片制造之前的设计阶段就减少低效率问题。
"在Cadence,我们不仅为AI而设计;我们还用AI来设计,"Cadence多物理系统分析企业副总裁本·顾通过电子邮件说。顾声称,该公司的Cerebrus AI Studio平台现已被1000多个芯片项目采用,使用智能AI来自动化和加速SoC(片上系统)设计。据Cadence称,这在某些情况下将交付时间缩短了10倍,同时将功耗和芯片占用的物理空间减少了20%。
Cadence最近还推出了Millennium M2000超级计算机,它使用GPU加速和多物理仿真——描述热量、应力和功率等相互作用建模的术语——将仿真速度提升80倍,功耗降低20%。
在遥测技术方面,Cadence将Proteantecs的洞察视为关键的反馈循环。"实时监控不仅为故障预防提供信息,还为从验证到持续改进的整个设计生命周期提供信息,"顾说,并补充说公司并未止步于此。
他制定了自主芯片设计的五级路线图,从优化AI发展到完全的智能工作流程。最终,这些系统可能演进为硅级智能体,在持续循环中自主设计、验证和优化——工程师指导过程而非驱动每一步。
AI基础设施的新层级
Arm、Cadence和Proteantecs共同代表了AI基础设施的新层级,正在缓慢但确定地定义企业能从现有硬件中提取多少性能和功耗效率。
这在能源约束正成为经济约束的时代非常重要。通过更智能的硅设计和实时监控回收的每一瓦特,都是不需要购买的一瓦特——或者更糟的是,不可用的一瓦特。
"性能和效率之间不需要权衡,"拉米雷斯说。他补充说,Arm的架构旨在实现这种平衡,特别是在企业面临不断增长的能源约束时。
事实证明,真正的故事可能不是我们是否能为AI的未来提供动力,而是我们是否能构建足够智能的AI系统来为自己提供动力。
好文章,需要你的鼓励
OpenAI意外发现规模假说:Dota 2项目中计算资源翻倍带来AI表现翻倍,彻底改变行业轨迹。Greg Brockman揭秘GPT-3产品化困境:"我们不知道谁会为API付费",最终市场自己找到了出路。AI医疗突破只需超越WebMD,个性化咨询正在重塑多个领域。
孟加拉国联合国际大学研究团队开发了VisText-Mosquito多模态数据集,这是首个集成视觉检测和自然语言推理的蚊子繁殖点识别系统。该系统包含1970张标注图像,能够识别五类繁殖容器并进行水面分割,同时提供人类可理解的判断解释。YOLOv9s等模型达到92.9%检测精度,为全球蚊媒疾病防控提供了AI技术支撑。
存储行业近期动态频繁,Arctera、Wasabi和TD SYNNEX联合推出渠道专属数据保护解决方案;AWS启用EC2环境SAN启动功能;Broadcom发布VMware Cloud Foundation 9.0版本;Commvault与Kyndryl合作提升网络弹性服务;CTERA成为首家支持模型上下文协议的混合云存储供应商;多家企业获得新一轮融资,推动AI基础设施和数据管理技术发展。
特拉维夫大学研究团队通过分析GCG攻击机制,发现越狱攻击的成功依赖于"注意力劫持"现象,即攻击后缀能占据AI注意力机制的主导地位。研究表明,攻击的万能性与劫持强度直接相关,并基于此开发了增强攻击效果和防御攻击的实用方法,为AI安全研究提供了新视角。