一、AIDC由机房内&机房外基础设施构成
AIDC基础构成
AIDC是什么:AIDC是什么:人工智能数据中心(ArtificialIntelligenceDataCenter,简称AI数据中心)是专门为支持和加速人工 智能(AI)应用而设计的基础设施。这类数据中心通常配备高性能计算资源,如专用的AI处理单元(如GPU、TPU等)、大规 模存储解决方案、快速网络连接以及能够处理大数据集和高计算负载的硬件和软件平台。AI数据中心不仅用于运行AI模型, 还承载了用于数据训练、推理、模型优化等过程所需的计算和存储需求。
AIDC相较于传统IDC核心差距:算力指数级提升及功耗大幅上升
AIDC与传统IDC对比:传统IDC单机柜功率密度通常在3-8kW,可装载的服务器设备数量有限,算力密度相对较低,一般采用 传统风冷散热;而AIDC单机柜功率密度通常在20-100kW之间,算力密度指数级增长,主要采用液冷或风液混合的散热技术来 有效带走热量,保证高性能计算设备的稳定运行。以英伟达液冷DGXGB200Superpod为例,英伟达液冷DGXGB200Superpod可 以达到万亿级别的参数运算,但同时对冷却的需求也随之增长。据黄仁勋介绍,冷却剂以每秒2升的速度进入25摄氏度的机 架,离开时温度升高20度。
当前海内外主要CSP厂商进行AIDC军备竞赛,行业空间显著增长
国内厂商在AIDC基础设施等投入增加:2024H1,阿里巴巴的资本支出达到230亿元人民币,同比增长123%,主要用于购买处 理器以训练其统一系列AI模型;腾讯的资本支出也增至230亿元人民币,同比增长176%,部分原因是对GPU和CPU服务器的投 资增加;百度的资本支出达42亿元人民币,同比增长4%。尽管美国出口管制限制了对中国的高端AI处理器销售,如英伟达的 H100和Blackwell系列,但中国科技巨头仍可以购买性能较低的处理器,如英伟达的H20。字节跳动作为英伟达的主要客户之 一,也增加了其在人工智能领域的支出,据Reuters声称,字节跳动已成为英伟达H20芯片最大的买家之一。其为中国数据中 心购买了数十万台H20处理器。
美国四大科技巨头微软、Meta、谷歌和亚马逊在AI数据中心建设上持续加大投入:2024年1至8月,微软、Meta、谷歌和亚马 逊在AI数据中心的投资总额高达1250亿美元,预计年底将增至2180亿美元,反映了这些科技巨头在AI领域不断加大投资力度。其中资本支出是AI数据中心建设的重要部分,约占总投资的约60%,主要用于采购服务器、存储和网络设备等关键硬件。
二、机房内:高功率AI服务器,带来电源、液冷、超级电 容、BBU等投资机会
AI服务器电源电源架构分为UPS、AC/DC、DC/DC三层,各司其职确保电力供应的连续性和稳定性
要驱动一台AI服务器,需经过数次电压转换。高压电从电网进入数据中心后,服务器电源供应器会先 将交流电转为直流电,并降压到48伏特;接着主板上的DC/DC转换器,再将电压转换成CPU用的12伏 特和GPU用的0.8伏特低电压。在此过程中数据中心电源架构主要涵盖保障电路 UPS、机架电源 AC/DC、芯片电源 DC/DC 三个层级。
AI 服务器电源组件分3层结构:✓ UPS(不间断电源):即不间断电源(Uninterruptible Power Supply)是一种含有储能装置的不间 断电源。当市电输入正常时,UPS将市电稳压后供应给负载使用,此时的UPS就是一台电稳压器, 同时它还向机内电池充电;当市电意外中断时,UPS立即将电池的直流电能,通过逆变器切换转换的 方法向负载继续供应电能,使负载维持正常工作并保护负载软、硬件不受电网波动而造成损坏。
AC-DC(power shelf):将电网的交流电转换为适合服务器使用的50V直流电。在ACDC电源中,输入电 压一般是来自电网的85V~265V交流高压,而输出电压为3.3V、5V、12V等直流低压。与一般服务器相 比,AI服务器需要更高性能的处理器,如图形处理器(GPU)、张量处理单元(TPU)和现场可编程逻 辑门阵列(FPGA),其功耗可能高出两倍到十倍。为了降低不必要的能耗损失,需要提高整个服务器 机柜的能源利用效率,将供电电压从传统的12V提高到48V。然而,服务器内部的某些组件仍需要使用 12V或更低电压,因此需要DC-DC转换器进行调整。
DC-DC:进一步将50V直流电降至芯片可接受的0.8V。DC-DC电源电路又称为DC-DC转换电路,其主要功 能就是进行输入输出电压转换。一般把输入电源电压在72V以内的电压变换过程称为DC-DC转换。
AI电源功率密度不断提升
随着对更高计算能力的需求,服务器电源需要在有限空间内提供更多功率,这使 得电源设计人员需要创建具有高效率和高功率密度的最新电源解决方案,可以满 足快速增长的AI市场当前与未来的高功率需求。
AI市场迅速扩张,电源需求增加,空间成本也在不断上升。现代数据中心包含成 百上千个处理单元,因此设备大小非常重要。减小单个单元的尺寸会引发连锁反 应:(1)可以在与大型解决方案相同的空间中应用更多设备,从而实现更高的 处理能力密度;(2)可以极大地提高功率密度,并减小散热面积;(3)还可以 使得物理材料更少、组件更少、成本结构更好、解决方案集成更多以及总体拥有 成本更低,从而实现成本的节省。
功率密度是在给定空间内可处理多少功率的度量,可量化为每单位体积处理的功 率量 。功率密度越高,表示在相同的体积内可以提供更多的功率。功率密度的概 念在服务器电源设计中非常重要,原因在于:
第一,数据中心和服务器机架的空间有限,随着处理器和服务器功率的增加,数 据中心每个机架也将使用更多的电源。随着更高功率密度的发展趋势,数据中心 每个模块在 2-4 kW 。高功率密度的电源可以在有限的空间内提供更多的电力,从 而支持更多的计算硬件。
第二,功率密度和效率是紧密耦合的。功率密度越高,通常意味着电源转换效率 越高,从而减少能量损耗和散热需求,有助于提高整个服务器系统的能效比。
中国台湾地区厂商占据电源市场主导,大陆厂商有望跟进
全球电源市场中,中国台湾地区厂商占据主要市场份额。据MTC,全球前16大电源厂商中,中国台湾地区厂商上 榜7家,其中前五大有四家为中国台湾地区厂商,台达为 断层第一,光宝第二。中国大陆企业仅有麦格米特(第7) 和欧陆通(第12)上榜。
台达是AC/DC电源供应器龙头,市占率过半。AC/ DC市场是半整合的,因为大多数顶级参与者,包括台达、 Siemens AG、ABB、Murata Manufacturing 和TDK 在市场上拥有长期信誉。市场渗透率也很高,供应商与分 销的关系稳固。目前,台达保持较高市场份额,超过50%。
中国大陆电源厂商在成本控制和服务能力方面具有优势, 未来有望快速抢占市场份额。根据中国电源学会相关资料, 我国电源设备行业市场化程度较高,呈现完全竞争的市场 格局。在开关电源领域,中国台湾地区厂商因进入市场时 间较早,目前占据开关电源主要市场份额,而中国大陆电 源厂商成本控制、服务能力更佳,未来有望快速抢占市场 份额。
机柜功率密度持续增长,机架密度达到20KW以上时液冷技术重要性凸显
随单位服务器机柜包含的服务器数量增多,机柜发热量与日俱增,对散热冷却系统的要求不断提高。IT设备将99%以上的电能转 换为热能,而其中70%的热能需数据中心通过散热冷却系统移除,如何将数据中心的产热和散热冷却系统的移热速率匹配,成为 了数据中心连续稳定运行的关键。
AI技术快速发展推动GPU的功耗快速增长,如英伟达2020年推出的A100芯片功耗为400W,2022年推出的H100芯片功耗上 升至700W,2024年发布的下一代B200芯片功耗将接近1000W。芯片功率密度的攀升同时带来整柜功率密度的持续增长,如 英伟达GB200 NVL72由36个Grace CPU和72个Blackwell GPU组成,功率高达120kW,而在2022年已投用的数据中心机柜 功率密度主要为5-10kW/r,机柜功率上升明显。
散热冷却系统所采用的冷却介质、冷却方式不同,移热速率差距大。目前发展的散热冷却技术主要有风冷和液冷两大类,其中风 冷包括自然风冷和强制风冷;液冷分为单相液冷和相变液冷。过去风冷系统通过让冷源更靠近热源,或密封冷通道/热通道的方 案,来适应更高的热密度散热需求。但是,随着机架密度升至20kW以上,多种液冷技术应运而生,从而满足高热密度机柜的散 热需求。
三、机房外:AIDC对UPS&HVDC、柴油发电机电源、变压 器、开关柜等增量需求大