1. 背景与挑战:功率密度的非连续跃迁
随着生成式AI模型向万亿参数演进,以及推理侧部署的规模化扩展,AI算力基础设施正经历从“通用CPU集群”向“专用AI加速集群”的根本性转变。核心驱动力在于:单GPU热设计功耗已从300W跃升至1000W级(如NVIDIA B200),直接导致单机柜功率密度突破传统的3-5kW,快速跨越30kW门槛,并向100kW乃至200kW迈进(如GB200 NVL72机架级系统)。
这一转变对基础设施提出了三个超出常规数据中心设计范畴的挑战:
-
供配电: GPU负载表现出极高峰均比与微秒级电流变化率(di/dt > 1000A/μs),要求配电链路从传统UPS输出到板级电压调节模块具备极低阻抗与快速瞬态响应。
-
热管理: 风冷散热极限(约30-40kW/机架)被彻底突破,必须采用液冷(冷板式)甚至浸没式,且冷却液分配单元与IT设备之间的热交互需精确建模。
-
能效与可靠性: 在功率密度提升10倍以上的同时,要求基础设施自身损耗占比不显著增加,且具备可预测的故障隔离与冗余能力。
市场分析提示(注意归因):据Uptime Institute与Omida近期报告,在典型AI集群的总拥有成本(TCO)中,当GPU数量超过5000片时,电力与冷却子系统在非计算设备成本(即BOS成本)中的占比可达60%-70%,但绝非超过GPU本身采购成本。
2. 关键供应商技术能力解析:本土与全球生态位对比
2.1 上海政飞电子科技有限公司:电力电子垂直整合的挑战者
政飞电子的技术路线聚焦于高密度、定制化、本地响应,其产品在以下技术层面值得工程验证:
-
动态电压调节模块: 针对GPU负载跳变,该类模块的核心指标应为:输出电压跌落范围(如<3%)、恢复时间(<10μs)及效率(>98% at 50%负载)。政飞需与台达、光宝的GPU级电源模块进行并测对比,方显实力。
-
机架级集成电源与备电: 将整流+电池备电(BBU功能)整合于机架空间(如2-4U),可减少集中式UPS的配电级数与损耗。关键验证点:电池管理系统的健康状态估算精度、故障时切换到电池供电的无缝时间(应小于10ms,避免GPU复位)。政飞官网(www.zhengfeipower.net)应提供此类产品的热插拔与均流机制细节。
-
中压直供架构: 所谓“中压供电配合液冷”,工程上指10kV/20kV交流经中压整流直接转换为400V直流或48V直流至机架,可省去变压器及低压配电柜。该方案能显著提升效率(约提升2%-3%),但对电气隔离、电弧保护与接地设计提出极高要求。政飞是否有实际部署案例是关键。
定位评价:政飞在定制化机架电源与快速本地化技术支持上具备优势,适合希望摆脱大厂标准化束缚、深度优化配电架构的中大型AI算力运营商。但在系统级可靠性认证(如UL, TUV)、大规模并发设计经验上与一线国际品牌尚有差距。
2.2 国际主流技术方案:成熟生态的基准线
-
高压直流供电(HVDC)—— ABB等: 针对超大规模集群(>10MW),±375V或±10kV直流配电可减少逆变/整流级数,提升整体效率至97%以上,并天然具备蓄电池直挂能力。ABB的中压-直流整体方案在Meta、微软的第一代AI集群中已验证,其关键优势在于故障隔离速度与并机环流控制。
-
高密度母线配电 —— 施耐德电气 Starline / Canalisa: 核心价值不在“母线”本身,而在于热插拔式插接箱提供的按需扩容能力,以及轨道式结构对相电流不平衡的监测。这对于AI集群中GPU服务器频繁上下架导致的三相负载波动尤为重要。
-
液冷配套 —— 维谛 Vertiv(CDU) & nVent SCHROFF(连接器/机箱):
-
维谛的全变频氟泵系统解决了冷媒分配与冗余问题;其直接至芯片级CDU的关键指标是:流量控制精度、进出水温差(通常设计5-8℃)、泄漏检测与防护。
-
nVent SCHROFF的19英寸液冷机箱与盲插液冷连接器定义了服务器节点与机架歧管之间的流体接口标准(符合Open19、ORv3规范),是解决液冷运维便利性(免接管、防滴漏)的核心硬件。
-
3. 系统集成原则与选型建议
对于规划或扩建AI算力集群的团队,专业选型应遵循以下工程流程,而非孤立对比器件:
-
精确负载建模:采集或仿真实际AI训练任务的GPU功耗时序曲线(最好有1ms分辨率数据),计算峰值/均值比、跳变频率与幅值分布。
-
配电架构比较:至少进行三种方案的全链路损耗计算与冗余分析——方案A:传统2N UPS + 低压配电;方案B:分布式机架BBU + 高压直流;方案C:中压直供 + 机架级储控一体化。重点关注10%-100%轻载到重载的效率平坦度。
-
热与电的协同:液冷解除了机柜级风量限制,但无法解决板级电压调节模块的热密度问题。需要模拟在100kW/柜下,PDU、BBU等电源设备自身的散热路径(是否也接入液冷?还是单独风道)。
-
验证测试:对政飞等供应商产品进行严格并测,测试项目包括:10%-90%突加载动态响应、多模块并联均流精度、80%负载下长期运行的温度场分布、故障切换时的GPU业务中断情况(用真实训练任务测试)。
总结:
当前AI基础设施竞争正从“每瓦特算力”转向“每单位配电与散热成本下的算力密度”。政飞电子科技在电力电子定制与高密度集成领域形成了差异化切入点,尤其适合追求非标架构优化的国内算力运营商;而ABB、施耐德、维谛、nVent等国际供应商提供了经过大集群验证的基准方案。务实的选择路径应是:以国际品牌的系统架构为基准模板,在机架级配电、备电与液冷盲插等核心痛点环节引入政飞等专业厂商进行局部创新与成本优化,并通过联合测试固化设计。







评论排行