AI 工作负载如何重塑数据中心设计

随着人工智能普及，数据中心因功率、散热与网络需求的剧增正经历设计革新，推动高密度电源与新型冷却技术应用。

随着人工智能 ( AI ) 应用的不断普及，业内专家在 Gitex Asia 2025 大会上指出，为应对日益强大的 AI 模型所带来的功率、冷却和网络挑战，数据中心的设计正在不断重塑。

澳大利亚洲 NextDC 负责亚洲区的高级副总裁兼常务董事 Luke Mackinnon 表示，新出现的推理模型大幅提升了计算需求，他指出，与推理模型相比，这类模型能够生成 50 倍更多的 Token，并需要 150 倍的计算能力。“正是这些推理模型催生了我们预期看到的众多主权及企业 AI 云，”他表示，“而这一切无不关乎冷却和功率密度。”

数据中心长期以来一直担心功率密度的激增。印度 Yotta Data Services 联合创始人兼首席执行官 Sunil Gupta 指出，传统的中央处理单元 ( CPU ) 工作负载每个机架可能仅需 6-10kW，而运行在图形处理单元 ( GPU ) 上的 AI 工作负载，即便采用后门热交换器冷却系统，也需要明显更多的功率。“我预估每个机架大约需要 50kW，这比常规机架大约高出八到十倍，”他说，并补充道，为支持未来可能需求高达 250kW 每机架功率的 GPU 设计，从一开始就需要采用液冷系统。

将现有数据中心改造以适应 AI 工作负载同样面临诸多挑战。CapitaLand 数据中心部常务董事 Eugene Seo 解释称，虽然技术上是可行的，但这一转变在财务管理上可能遇到困难。“将云设施转换为 AI 数据中心从技术上来说可以实现，更具挑战性的是从财务管理角度，由于潜在的客户流失和为升级例如冷却剂分布装置等设备而产生的资本支出，运营开支会陡然上升。整个升级涉及更多管道铺设，运营也会因此变得更为复杂。”

AI 数据中心的网络设计也显著不同。中国联通全球 AI 数据中心副总裁 Miles Tang 指出，AI 集群需要高速互连，同时需要多个电源单元同时运行，以满足那些耗电量极大的 AI 服务器的需求。

Princeton Digital Group 新加坡及马来西亚区首席技术官兼常务董事 Asher Ling 强调了可靠获取可再生能源的重要性。“我们是否能无限制地获取廉价可再生能源，并拥有相应的法规支持我们实现从化石能源向绿色能源的转变？”他表示，并补充说，印度和澳大利亚现有的监管框架已帮助数据中心推动了可再生能源的应用。

Seo 也表示，数据中心实际上是能源分配系统的延伸。“它本质上就是一个变电站，所以我们认为数据中心的可再生能源与整体能源分配实际上是同一枚硬币的两面。”

数据中心设计

AI 训练和推理工作负载之间的差异进一步复杂了数据中心的设计。训练工作负载在数据中心内部需要产生大量东西向流量；而推理工作负载则产生更多南北向流量，直接面向用户，这要求低延迟和更接近消费端。“推理必须尽量靠近用户消费端，” Mackinnon 在将其未来普及比作内容分发网络时指出。Gupta 补充道，推理就像任何其他对延迟十分敏感的 Web 应用，这可能会推动此类工作负载向边缘位置分布。

展望未来，运营商预计会有更多创新，但同时也面临不确定性。Mackinnon 提到了一些趋势，例如能够并行处理较小 AI 工作负载块的 “GPU shards”，以及作为服务提供的液冷系统，以应对 AI 基础设施高昂且使用模式不稳定的成本问题。

然而，Gupta 警告说，这其中存在技术迅速过时和经济效益难以保障的风险。GPU 技术的发展速度极快，今天构建的基础设施可能难以支持未来的新型芯片；而 GPU 能力的客户合同期限通常不足一年（相比长期共置协议），这让投资回报充满变数。“在相当长的一段时间内，市场将会极为不确定，” Gupta 表示。

尽管面临诸多挑战，专家们一致认为该行业正站在重大技术变革的前沿。Asher Ling 总结道：“我们正处于 AI 革命的边缘。在这个历史性的时刻，我们无疑处在最合适的行业之中。”

来源：Computer Weekly

0赞

好文章，需要你的鼓励

AI 工作负载如何重塑数据中心设计

来源：Computer Weekly

2025

04/27

14:32

分享

点赞

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

戴尔集成Elasticsearch与英伟达Blackwell GPU升级AI数据平台

微软在宣布近一年后推出 Windows Recall 功能面向公众

Cohesity 推出 RecoveryAgent 简化事故响应

VMware 补丁凸显支持问题

Zencoder 收购 Machinet 挑战 GitHub Copilot 随着 AI 编程助手整合加速

Omdia：全光子网络构建更安全、更智能、更可持续的世界

Microsoft 推出 Recall 及基于 AI 的 Windows 搜索功能，面向 Copilot Plus PC

数据分析加速如何解决 AI 隐藏的瓶颈

在六年内，建设领先的 AI 数据中心可能花费2000亿美元

超级智能究竟长什么样？

Alphabet 超出预期，云服务、AI 和搜索业务齐头并进

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: