当下小型超算中心主要针对小规模的计算需求,通常配置较少的计算节点和存储设备,适用于小型团队的科学计算、科学研究、数据处理等。本文以某小型超算中心的基础设施建设项目为例,探讨和分析小型超算中心基础设施的电气设计要点。
本超算中心是利用已有建筑进行改造,根据需求进行平面布置的调整。超算中心位于某建筑的二层,总建筑面积1500m2,层高为4.7m;一层为整栋楼的变配电室。主机房主要布置1台超算主机;2套微模块机柜;2台加湿机;1台新风机等。
主要电气设计需求如下:
(1) 超算主机总功耗800kW(峰值)、服务器机柜总功耗150kW。
(2) 超算主机HVDC直流电源系统蓄电池后备时间要求5min;服务器机柜UPS电源系统蓄电池后备时间要求30min。
小型超算中心平面布局规划的基本思路,是从数据中心最基本的超算主机和服务器机柜需求出发,选取能够匹配需求的电气、暖通系统技术路线和解决方案,在满足设计规范的同时兼顾考虑建设成本和施工便利,以及相应的降低PUE指标。
关于配电室的布置,一方面考虑超算主机功耗大,电力电缆需求量较多,配电室需靠近主机房,保证HVDC直流电源至超算主机电缆敷设距离短;另一方面考虑从一层变配电室引电方便,靠墙不同方向分别设置两个电缆孔洞,电缆路由距离最短,可大大节省投资成本;配电室主要布置2台市电交流配电柜;2套HVDC直流电源;1台UPS电源;2台机房专用空调等。
考虑电池电缆敷设距离短,电池室与配电室仅一墙之隔。电池室主要布置2套HVDC直流电源系统后备蓄电池组4组;1套UPS主机电源系统后备蓄电池组2组;10台电池柜;2台机房专用空调等。
考虑各水泵服务不同的功能区,水泵房分为2间设置。一间为主泵房:布置3套冷冻水泵;3台水泵控制柜;1台水系统群控柜;1套超纯水制造设备,主要服务液冷超纯水空调系统;1台1立方补充水箱。另一间为副泵房:布置2台板换;2台冷冻水泵;2台水泵控制箱等,主要服务模块化机柜的列间空调系统。本项目规模较小,配套服务水泵功率为37kW,采用直接起动就地控制方式进行配电和控制。
考虑超算中心所在建筑物现有格局情况,尽量减少平面的改动,超算中心各功能区域及其面积规划如下:主机房区域约为270m2、配电室区域约为50m2、电池室区域约为80m2、2间水泵房约为90m2、预留机房区约为370m2,其余为辅助区域。室外冷水机组布置在机房楼南侧,位于室外一层地面;将监控室及办公区域空调室外机,布置在二层机房东侧一层前厅屋面。超算中心功能区域平面布局图如图1所示。
本工程存储区域服务器机柜采用微模块冷通道封闭模式,设计采用2套微模块机柜,每套模块单元配置22台3kW机柜,2台电源列头柜(A、B两路),共计44个服务器机柜。同步系数按0.85计算,功率因数按0.95计算,总视在功率约为150kVA。数据中心常见的UPS架构包括2N+1、2N、N+1、BR、DR、RR等[1],侧重点各有不同。
基本型UPS架构图如图2所示。由一路市电接入UPS向负载直接供电,基本型方案效率最高、成本最低。
串联冗余是一种特定的N+1架构,将冗余UPS接入主用UPS的静态旁路中,当主用UPS故障时,通过旁路切换使备用UPS切入系统。其优点在于不限定主备用UPS型号,可适性强,经济性好,但存在单故障点。串联冗余UPS架构图如图3所示。
并联冗余也是一种特定的N+1架构,它由多个同一规格的UPS模块并联在一根公用输出母线上组成。备用的UPS容量至少要为其中一个UPS单元的容量。并联冗余系统要求UPS模块的容量、型号、频率、相位等均相同,对设备要求较高。并联冗余UPS架构图如图4所示。
模块化UPS冗余是一种特定的N+1配置。上述串联冗余和并联冗余的冗余部分,多指采用独立的UPS单元。但是模块化UPS通过内置算法,可从UPS架构内功率模块层解决冗余问题,在该配置下,内部模块共用一套电源、控制系统和电池设备。
BR和RR容错架构基本原理相似,均为以3台或以上的UPS单元做基础,其中1台UPS空载做备份。当1台主用UPS单元损坏时,负载端通过STS切换至备份UPS供电。本架构模块化易扩容,但是采用大量的STS架构复杂,需配套自控转换控制,对运维有较高的要求。
DR容错架构以3台或以上的UPS单元做基础,各UPS均带载运行,1台UPS损坏时,其负载切换至其余UPS,此时会形成单UPS单元供电,可靠性较低,对UPS负载率有要求。
2N+1、2N架构整体存在50%及以上的容量冗余,在金融、银行行业应用较为广泛。
供配电各类架构优缺点对比如表1所示。
表1 供配电各类架构优缺点对比
根据[2]中附录A要求,数据中心其重要性分为A、B、C三级,其中A级按容错配置电源、B级按N+1冗余配置电源、C级按基本需求配置电源。本工程为小型超算中心,考虑本项目为改造项目,一层变压器已存在双重电源,同时考虑项目重要程度和保密程度,电源层面采用一套UPS电源加一路市电构成的双路2N供电方案。每套模块单元配置A、B路2台电源列头柜,A路为1路UPS电源;B路为1路市电电源引自本项目2层配电室。规范最低标准要求UPS满足N架构即可,但在实际工程设计中,应结合项目的重要程度、业主需求做好冗余,应综合考虑供电可靠性及工程造价的平衡。通过上述对比分析,采用一套模块化UPS做N+1架构冗余。根据负荷计算,负载总视在功率约为150kVA,模块化UPS选用200kVA,其中150kVA做主用,其余50kVA做冗余。根据[2]第8.1.7条校验,满足1.2倍冗余要求,方案设计合理且经济。
为保障维修系统安全及数据中心的可持续供电,需要为UPS配备旁路方案。内置UPS旁路按其构成可以分为分散旁路型式和集中旁路型式[3]。分散旁路是指在一套运行的UPS系统中,每处UPS单元均独立配置旁路,当单元一点维修或故障时,由该旁路直接向负载供电,当多台故障时,由各自旁路分别直接向负载供电。集中旁路是指在一套运行的UPS系统中,独立设置一套静态旁路,旁路电源的断路器线缆等规格和主路电源一致。当UPS组有检修需求或故障时,切换至旁路向负载直接供电。两种旁路方式各有利弊,需根据工程实际情况进行选择。UPS集中旁路示意图如图5所示。UPS分散旁路示意图如图6所示。
集中旁路控制系统具有过载能力强、可靠性高的优点;分散旁路控制系统则具有可扩容性高、节约空间、成本低的优点,但存在一定可靠性风险。本工程采用模块化UPS方案,模块化UPS采用热插拔技术,允许单体模块在不停电的情况下接入或退出,不会影响其余模块的正常工作,能够实现在线维护,减少了旁路检修的概率。本工程为小型超算中心,负荷容量小、整体风险可控,故采用集中旁路控制系统。
在极端情况下,UPS故障退出运行,需要进行电气隔离,此时需要设置外置检修旁路开关,该旁路能够有效保障UPS的使用安全,进一步提升系统的稳定性和安全性。平时情况下,检修旁路开关应带锁,以防止人为误操作;开关合闸后,UPS的输入输出侧均须可靠断开;检修完成后,先切换至静态旁路,再接入系统,最后断开维修旁路开关。
本工程采用第三代主机超级计算机系统,设备使用电压等级为直流336V,超算主机分为前、后两个模块仓,每个模块仓功率400kW,平时前、后两个模块仓互为备份,峰时计算均为主用,即超算主机两个模块仓峰时功率可达800kW。
市面上336V直流电源系统厂家较多,但本工程输出分路须非标定制才能满足超算主机用电需求。采用HVDC直流电源系统单独给超算主机供电模式,按系统负荷率约80%设计,配置2套336V/500kW直流电源系统,分别为超算主机前、后两个模块仓供电。平时两套系统互为备份,设备峰值时可全部主用。每套直流系统额定输出电压为336V,单个模块容量为20kW,配置30个20kW整流模块(含备用及充电)。系统不设交流配电屏,交流电源直接从一层变配电室低压配电柜输出断路器引接。
每套直流系统输出单元配置5路500A熔芯,其中4路供超算主机电源接入,另外一路作为备用。每套直流电源系统配置12V/200Ah高功率蓄电池120节,按恒功率放电计算蓄电池组后备时间大于5min, 每组后备蓄电池组直流开关柜分别设置,且电池开关低电压脱扣功能关闭。
交流输入应与直流输出电气隔离。直流输出应与地、机架、外壳电气隔离。正负极全程均不接地,采用悬浮方式供电;系统应采用直流型绝缘监测装置,能对直流总母排和各直流输出主分路的绝缘状况进行监测。HVDC直流系统原理图如图7所示。
本文以某小型超算中心的基础设施建设项目为例,探讨和分析小型超算中心基础设施的电气设计要点。在设计中,超算主机采用高压直流系统;存储区域采用1路UPS(模块化)+1路市电;UPS采用模块化N+1冗余设计。本设计可提高施工效率,降低施工成本,对后期小型超算中心项目的电气设计有一定的参考及借鉴意义。
好文章,需要你的鼓励
DeepSeek 的 AI 模型在处理效率方面取得重大突破,可能对数据中心产生深远影响。尽管引发了科技股抛售,但业内专家认为,这项创新将推动 AI 应用普及,促进大规模和分布式数据中心基础设施需求增长。更高效的 AI 算法有望降低成本、扩大应用范围,从而加速数据中心行业发展。
Rivian 正全面推进 AI 技术整合,开发下一代电动车平台,以挑战特斯拉的市场地位。公司计划于 2025 年实现免手驾驶,2026 年达到 L3 级自动驾驶。Rivian 还将在车载系统中广泛应用 AI 技术,提供语音交互等功能,并计划推出更实惠的车型,扩大市场份额。
Postman 发布了 AI 代理构建器,这是一款创新的生成式 AI 工具。它允许开发者通过整合大语言模型、API 和工作流程来设计、构建、测试和部署智能代理。这一工具旨在简化 API 交互、优化工作流程,并支持创建能执行复杂任务的智能代理,标志着 API 优先的 AI 开发迈出了重要一步。
微软第二财季利润同比增长10%,人工智能年化收入达130亿美元。然而,云计算业务未达预期,下季度指引不及预期,导致盘后股价下跌。公司资本支出创新高,以满足AI和云需求。尽管Azure增长放缓,但微软对下半年增速加快持乐观态度。同时,中国AI初创公司DeepSeek的崛起引发业界对AI基础设施投资的重新审视。