随着人工智能 ( AI ) 应用的不断普及,业内专家在 Gitex Asia 2025 大会上指出,为应对日益强大的 AI 模型所带来的功率、冷却和网络挑战,数据中心的设计正在不断重塑。
澳大利亚洲 NextDC 负责亚洲区的高级副总裁兼常务董事 Luke Mackinnon 表示,新出现的推理模型大幅提升了计算需求,他指出,与推理模型相比,这类模型能够生成 50 倍更多的 Token,并需要 150 倍的计算能力。“正是这些推理模型催生了我们预期看到的众多主权及企业 AI 云,”他表示,“而这一切无不关乎冷却和功率密度。”
数据中心长期以来一直担心功率密度的激增。印度 Yotta Data Services 联合创始人兼首席执行官 Sunil Gupta 指出,传统的中央处理单元 ( CPU ) 工作负载每个机架可能仅需 6-10kW,而运行在图形处理单元 ( GPU ) 上的 AI 工作负载,即便采用后门热交换器冷却系统,也需要明显更多的功率。“我预估每个机架大约需要 50kW,这比常规机架大约高出八到十倍,”他说,并补充道,为支持未来可能需求高达 250kW 每机架功率的 GPU 设计,从一开始就需要采用液冷系统。
将现有数据中心改造以适应 AI 工作负载同样面临诸多挑战。CapitaLand 数据中心部常务董事 Eugene Seo 解释称,虽然技术上是可行的,但这一转变在财务管理上可能遇到困难。“将云设施转换为 AI 数据中心从技术上来说可以实现, 更具挑战性的是从财务管理角度,由于潜在的客户流失和为升级例如冷却剂分布装置等设备而产生的资本支出,运营开支会陡然上升。整个升级涉及更多管道铺设,运营也会因此变得更为复杂。”
AI 数据中心的网络设计也显著不同。中国联通全球 AI 数据中心副总裁 Miles Tang 指出,AI 集群需要高速互连,同时需要多个电源单元同时运行,以满足那些耗电量极大的 AI 服务器的需求。
Princeton Digital Group 新加坡及马来西亚区首席技术官兼常务董事 Asher Ling 强调了可靠获取可再生能源的重要性。“我们是否能无限制地获取廉价可再生能源,并拥有相应的法规支持我们实现从化石能源向绿色能源的转变?”他表示,并补充说,印度和澳大利亚现有的监管框架已帮助数据中心推动了可再生能源的应用。
Seo 也表示,数据中心实际上是能源分配系统的延伸。“它本质上就是一个变电站,所以我们认为数据中心的可再生能源与整体能源分配实际上是同一枚硬币的两面。”
数据中心设计
AI 训练和推理工作负载之间的差异进一步复杂了数据中心的设计。训练工作负载在数据中心内部需要产生大量东西向流量;而推理工作负载则产生更多南北向流量,直接面向用户,这要求低延迟和更接近消费端。“推理必须尽量靠近用户消费端,” Mackinnon 在将其未来普及比作内容分发网络时指出。Gupta 补充道,推理就像任何其他对延迟十分敏感的 Web 应用,这可能会推动此类工作负载向边缘位置分布。
展望未来,运营商预计会有更多创新,但同时也面临不确定性。Mackinnon 提到了一些趋势,例如能够并行处理较小 AI 工作负载块的 “GPU shards”,以及作为服务提供的液冷系统,以应对 AI 基础设施高昂且使用模式不稳定的成本问题。
然而,Gupta 警告说,这其中存在技术迅速过时和经济效益难以保障的风险。GPU 技术的发展速度极快,今天构建的基础设施可能难以支持未来的新型芯片;而 GPU 能力的客户合同期限通常不足一年(相比长期共置协议),这让投资回报充满变数。“在相当长的一段时间内,市场将会极为不确定,” Gupta 表示。
尽管面临诸多挑战,专家们一致认为该行业正站在重大技术变革的前沿。Asher Ling 总结道:“我们正处于 AI 革命的边缘。在这个历史性的时刻,我们无疑处在最合适的行业之中。”
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。