AI 工作负载如何重塑数据中心设计

随着人工智能普及,数据中心因功率、散热与网络需求的剧增正经历设计革新,推动高密度电源与新型冷却技术应用。

随着人工智能 ( AI ) 应用的不断普及,业内专家在 Gitex Asia 2025 大会上指出,为应对日益强大的 AI 模型所带来的功率、冷却和网络挑战,数据中心的设计正在不断重塑。

澳大利亚洲 NextDC 负责亚洲区的高级副总裁兼常务董事 Luke Mackinnon 表示,新出现的推理模型大幅提升了计算需求,他指出,与推理模型相比,这类模型能够生成 50 倍更多的 Token,并需要 150 倍的计算能力。“正是这些推理模型催生了我们预期看到的众多主权及企业 AI 云,”他表示,“而这一切无不关乎冷却和功率密度。”

数据中心长期以来一直担心功率密度的激增。印度 Yotta Data Services 联合创始人兼首席执行官 Sunil Gupta 指出,传统的中央处理单元 ( CPU ) 工作负载每个机架可能仅需 6-10kW,而运行在图形处理单元 ( GPU ) 上的 AI 工作负载,即便采用后门热交换器冷却系统,也需要明显更多的功率。“我预估每个机架大约需要 50kW,这比常规机架大约高出八到十倍,”他说,并补充道,为支持未来可能需求高达 250kW 每机架功率的 GPU 设计,从一开始就需要采用液冷系统。

将现有数据中心改造以适应 AI 工作负载同样面临诸多挑战。CapitaLand 数据中心部常务董事 Eugene Seo 解释称,虽然技术上是可行的,但这一转变在财务管理上可能遇到困难。“将云设施转换为 AI 数据中心从技术上来说可以实现, 更具挑战性的是从财务管理角度,由于潜在的客户流失和为升级例如冷却剂分布装置等设备而产生的资本支出,运营开支会陡然上升。整个升级涉及更多管道铺设,运营也会因此变得更为复杂。”

AI 数据中心的网络设计也显著不同。中国联通全球 AI 数据中心副总裁 Miles Tang 指出,AI 集群需要高速互连,同时需要多个电源单元同时运行,以满足那些耗电量极大的 AI 服务器的需求。

Princeton Digital Group 新加坡及马来西亚区首席技术官兼常务董事 Asher Ling 强调了可靠获取可再生能源的重要性。“我们是否能无限制地获取廉价可再生能源,并拥有相应的法规支持我们实现从化石能源向绿色能源的转变?”他表示,并补充说,印度和澳大利亚现有的监管框架已帮助数据中心推动了可再生能源的应用。

Seo 也表示,数据中心实际上是能源分配系统的延伸。“它本质上就是一个变电站,所以我们认为数据中心的可再生能源与整体能源分配实际上是同一枚硬币的两面。”

数据中心设计

AI 训练和推理工作负载之间的差异进一步复杂了数据中心的设计。训练工作负载在数据中心内部需要产生大量东西向流量;而推理工作负载则产生更多南北向流量,直接面向用户,这要求低延迟和更接近消费端。“推理必须尽量靠近用户消费端,” Mackinnon 在将其未来普及比作内容分发网络时指出。Gupta 补充道,推理就像任何其他对延迟十分敏感的 Web 应用,这可能会推动此类工作负载向边缘位置分布。

展望未来,运营商预计会有更多创新,但同时也面临不确定性。Mackinnon 提到了一些趋势,例如能够并行处理较小 AI 工作负载块的 “GPU shards”,以及作为服务提供的液冷系统,以应对 AI 基础设施高昂且使用模式不稳定的成本问题。

然而,Gupta 警告说,这其中存在技术迅速过时和经济效益难以保障的风险。GPU 技术的发展速度极快,今天构建的基础设施可能难以支持未来的新型芯片;而 GPU 能力的客户合同期限通常不足一年(相比长期共置协议),这让投资回报充满变数。“在相当长的一段时间内,市场将会极为不确定,” Gupta 表示。

尽管面临诸多挑战,专家们一致认为该行业正站在重大技术变革的前沿。Asher Ling 总结道:“我们正处于 AI 革命的边缘。在这个历史性的时刻,我们无疑处在最合适的行业之中。”

来源:Computer Weekly

0赞

好文章,需要你的鼓励

2025

04/27

14:32

分享

点赞

邮件订阅