人工智能时代数据中心运营商面临巨大挑战。耗电量巨大的新一代技术正在重塑数据中心架构,进而影响支撑它们的供应链。对大规模先进(往往是定制)解决方案的需求正在改变供应商动态和生态系统。
与此同时,加速实现价值的压力在每个决策阶段都带来了新的紧迫感。由此产生的环境复杂、快速变化且不可预测,需要新的敏捷性和灵活性水平。
随着数据中心基础设施持续演进,支撑它的供应链也必须同步发展——时间至关重要。
高密度机架推动创新发展
在创新驱动和必要性驱使下,芯片制造商和数据中心运营商正在为1MW IT机架的到来做准备。云超大规模服务提供商已经在新标准和架构上开展合作,支持部署进程。英伟达预测,到2027年人工智能机架的功耗可能达到600kW,到本十年末1MW机架将更广泛进入市场。
早期版本已在试点运行。这些机架能够处理高强度人工智能和高性能计算工作负载,将消耗前所未有的电力并产生相应的热量。
三个关键创新领域正在凸显:
高压直流供电:传统的48V至54V直流系统正在被高密度环境中的±400V直流配电取代,800V高压直流系统即将到来。
先进液冷技术:直接芯片液冷系统的创新是有效管理人工智能/高性能计算热负载的必要条件。
电源与计算分离:将电源转换和传输组件移至计算机架旁边的"边车"机架中,可优化计算密度、改善热管理并提高电源效率。
向1MW机架的转型不仅将影响构成数据中心架构的产品,还将影响技术公司对供应链韧性的思考方式。
1MW机架如何影响供应链韧性
供应链韧性的原则保持不变:数据中心运营商需要能够可靠地采购关键组件、无缝应对中断、快速扩展基础设施,并实现环境多样化以避免单点故障。但当单个1MW机架的计算能力相当于20多个传统50kW机架时,显著差异就出现了。
如果说传统数据中心的特点是分布式、渐进式风险,那么人工智能/高性能计算数据中心则依赖于集中化和相互依赖性。对更少但更复杂系统的依赖带来了:
故障或停机风险增加,因为单一供应商可能影响更多应用。
定制化、供应商特定组件的交付周期更长。
在创新与标准化结合之前,接口竞争和技术不兼容问题。
需要改造或更换电源产品,这可能意味着更多检查、测试和认证。
集成机架比传统机架更大更重,带来运输考量。
向液冷技术转型
传统风冷依靠风扇和CRAC/CRAH单元去除多余热量并维持数据中心理想的环境条件。
作为成熟行业,风冷系统可从全球多个供应商处获得。其供应链已经完善,标准化使互操作性和部署更加容易。
然而,现代高密度机架产生的热量超出了传统系统的管理能力,1MW机架将呈指数级增长。
为保持性能、能源效率和可持续性,数据中心运营商正转向液冷解决方案。
液冷在数据中心行业仍处于采用早期阶段,但随着人工智能工作负载超越传统风冷极限,正获得显著发展势头。这一转型将重塑供应商关系、采购、物流和运营。在供应链中建立韧性需要数据中心运营商与专业供应商建立新关系或深化现有合作伙伴关系。
面对快速变化保持供应链弹性
除基础设施更新外,采用1MW机架还可能影响选址,因为数据中心运营商和公用事业提供商继续应对电网的前所未有需求,推动他们探索远离人口中心的区域。虽然电力可用性是驱动数据中心选址决策的首要考虑因素,但天然气储藏和风电场等替代能源正在改变选址考量,因为城市电网接近容量极限。
在偏远地区开发为数据中心运营商带来了新的物流挑战。运输路线和基础设施可能不够完善,仓储设施可能无法为备份和缓冲库存提供便利。
对供应链韧性和弹性的主动关注将确保无论数据中心运营商选择在何处建设绿地设施,他们都能可靠获得现代架构所需的先进IT、电源和冷却技术。
无缝转换以适应技术、时间表、建筑规范、电源配置、冷却方法和空间约束的能力是供应链弹性的标志——这是一个明显的竞争优势。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。