液冷技术将成为数据中心的常态。随着AI和高性能计算需求的增长,数据中心管理者正在努力应对前所未有的高热负荷挑战。与此同时,由于数据中心被视为大型资源消耗者,推动可持续发展的压力也在增加。这两个趋势都在推动液冷技术的采用。
液冷系统为传统空气冷却提供了替代方案和补充方案,能够改善能耗、降低运营成本并提高可持续性。由于液体的传热能力比空气高3500倍,并且能够更接近热源,液冷系统可以显著改善电力使用效率(PUE)。与空气冷却相比,液冷技术在电力使用效率方面的潜在改善可达45%。
此外,微软最近发布的一项研究表明,从空气冷却转换到冷板技术可以在数据中心整个生命周期内减少约15%的温室气体排放和能源需求,减少30%至50%的水消耗。
然而,转向液冷对于数据中心运营商来说并非易事;他们必须在考虑停机时间、建设成本和环境影响的同时,思考如何在快速变化的行业中部署最新的下一代芯片。随着我们进入2025年下半年并展望2026年及以后,数据中心管理者在考虑液冷和数据中心可持续性时应该为哪些趋势做准备?
**在没有设施液体基础设施的情况下仍能支持效率**
许多数据中心都在努力支持下一代芯片并提高运营能效。理想情况下,许多数据中心都应该为每个机架配备液体基础设施。然而,数据中心建设项目和改造可能导致长时间停机,需要大量时间和资金投入。虽然为每个机架配备设施液体管线确实有助于运行更节能的数据中心,但建设项目可能对环境造成负面影响,因为建设过程需要大量水和能源。建设新数据中心是一个漫长的过程,为了可持续发展,行业必须确保从现有占地面积中获得尽可能多的计算能力。
液-气技术可以提供帮助。液-气热交换器可以帮助数据中心管理者部署液冷技术,而无需依赖设施水源,通过在机架中运行封闭的液体循环,然后将热量释放到空气中,由现有冷却系统进行管理。LTA冷却系统可以支持高性能计算和下一代技术,有助于降低运营成本,同时保持正常运行时间和可靠性。
托管数据中心也可以使用LTA技术在其设施内运行高性能计算集群,帮助它们实现业务多元化并提高效率。LTA设备的模块化设计还有助于数据中心随着冷却需求的增长而扩展,在无需长期改造项目的情况下保持增强能力的灵活性。
**使用液冷技术节约用水**
这看似违反直觉,但精心设计的液冷系统实际上比空气冷却使用更少的水。许多空冷数据中心在空调中使用蒸发冷却。蒸发冷却系统使用大型热交换器从被IT设备加热的室内空气中捕获热量。这些热交换器然后使用水传输热量,通过让水流过冷却垫来冷却水,将水蒸发到空气中。由于水在这个过程中被汽化,需要通过外部来源进行补充。
许多液冷系统使用封闭循环,通过机架循环水。这些液体循环只需要因水质问题而刷新,可以用其他液体循环进行冷却,提供更好的传热能力和更多的可持续发展机会。值得注意的是,水承载的热量可以重新用于其他应用,如建筑供暖、融冰、农业、废水处理或本地供暖系统。这为数据中心增加了另一层可持续性,将热量消散的高耗水过程转变为热量重复利用的更高效系统。
**机架之外的液冷技术**
数据中心还可以通过在设施基础设施(如储能)中使用液冷技术来提高可持续性。备用电源对数据中心至关重要,因为行业需要全天候运行,无论本地电网出现什么中断或波动。
此外,随着越来越多的数据中心开始自己发电以减少对电网的依赖并提高韧性,它们需要现场储能来平衡发电和使用之间的差异。例如,太阳能可以大大改善数据中心的整体可持续性,但只有在白天有阳光时才能发电。储能可以帮助解耦发电和使用。
数据中心的空间至关重要,因此储能装置需要占用尽可能小的空间。液冷技术就像可以改善芯片密度一样,也可以改善储能应用中的能量密度。通过电池组运行液体管线有助于防止电池过热来维持安全,同时允许设计师将更多电池放置在近距离,提高能量密度。这样,数据中心内部的创新可以应用于其支撑基础设施,提高安全性和可持续性。
**液冷系统维护**
在传统的空冷系统中,数据中心管理者管理气流和进气温度以满足被冷却芯片的需求至关重要。然而,在这些应用中,冷却与整个房间相关,因此单个系统对冷却性能的直接影响不那么大。
在液冷应用中,计算能力直接与冷却系统的性能相关,因为冷却循环一直延伸到芯片。如果冷却中断,即使是瞬间中断,也会扰乱数据中心运营并损坏设备。过热、设备关闭和灾难性故障的时间尺度通常少于30秒。这需要一种非常有针对性和解决方案驱动的方法来安装和维护冷却系统。
维护的一个值得特别提出的方面是流体管理。冷却分配单元(CDU)是数据中心系统的心脏,按照这个比喻,流体就是血液。如果冷却管线内的流体没有得到适当处理和过滤,可能导致生物生长、腐蚀、冷板结垢、冷却循环中的碎屑,最终损坏设备。数据中心机架内有价值数百万美元的IT设备,几乎没有出错的余地。数据中心人员必须了解或与了解如何管理水质的人合作。
水质管理贯穿从安装到冷却设备整个生命周期。它通常包括定期过滤器清洁和更换、在安装期间或交付前冲洗二级管道以防止系统启动前的生物生长、定期液体测试和修复以确保液体质量。数据中心管理者选择易于维护的冷却设备并在设备安装前制定维护水质的计划非常重要。
好文章,需要你的鼓励
OpenAI研究科学家Alexander Wei宣布,公司一个未发布的实验模型在国际数学奥林匹克竞赛中解决了六道题目中的五道,获得42分中的35分,达到金牌水平。该模型展现出类似人类数学家的推理能力,能够构建复杂严密的论证。这标志着AI在创造性问题解决方面的重要突破,不过该技术预计数月内不会公开发布。
约翰霍普金斯大学与StepFun公司联合研究,成功让AI学会"边看边思考"的视觉推理能力。通过两阶段训练方法,先让AI在文字推理中掌握认知行为,再迁移到视觉任务中。开发的OVR模型在多项测试中创造新纪录,为AI教育助手、医疗诊断、科研分析等应用奠定基础。
本文探讨了判断AI是否达到通用人工智能(AGI)和人工超级智能(ASI)水平所需的问题数量。目前缺乏确定的测试方法来评估是否达到顶级AI水平。基于图灵测试的分析,作者提出仅通过少量问题难以全面评估智能水平。参考美国国会图书馆主题标引(LCSH)的40万个主题领域,如果每个领域提出1万个问题,将需要40亿个问题来全面测试AGI。这种大规模测试虽然在逻辑上合理,但在实际操作中面临巨大挑战。
阿姆斯特丹大学研究团队开发出"缓存驾驶"技术,通过修改AI模型的键值缓存而非重新训练,让小型语言模型瞬间获得大模型的推理能力。该技术仅需一次调整就能让模型展现逐步推理行为,计算开销几乎为零,在多个推理基准测试中表现优异,还能实现推理风格迁移。