液冷:未来智算中心的核心散热技术
液冷与风冷技术相比,具有温度传递快、带走热量多、噪音低和节能、节省空间的优势。
英伟达最新商用GB200系列及以后技术均采用冷板液冷技术散热,100%全液冷架构,液冷覆盖CPU,GPU,内存等核心部件。
智算中心液冷系统图解
液冷系统通用架构可拆解为机房侧和ICT设备侧两部分,机房侧可进一步分为一次侧和二次侧两部分,浸没式和冷板式液冷在机房侧架构基本相同,差异主要在ICT设备侧:
一次侧:包含冷却塔、一次侧管网、一次侧冷却液(通常为水)。室外侧为外部冷源,通常为室外的冷水机组、冷却塔或干冷器,热量转移主要通过水温的升降实现;
二次侧:包含CDU、液冷机柜、二次侧管网和二次侧冷却液。室内侧包括供液环路和服务器内部流道,主要通过冷却液温度的升降实现热量转移;两个部分通过 CDU中的板式换热器发生间壁式换热;ICT设备侧:浸没式采用Tank安装制冷工质,ICT设备浸于其中;冷板式主要采用冷板贴于核心热源(CPU、GPU、内存)等上方。
制冷工质的选择:冷板式通常采用乙二醇/丙二醇溶液(基于防冻考虑)或去离子水;浸没式通常采用氟化液、矿物油(如硅油)等。
液冷驱动因素一:液冷相比风冷单位成本下降,散热能力更好
高散热:液冷系统常用介质有去离子水、醇基溶液、氟碳类工质、矿物油或硅油等多种类型;这些液体的载热能力、导热能力和强化对流换热系数均远大于空气;因此,针对单芯片,液冷相比于风冷具有更高的散热能力。
低TCO:相比于传统风冷,液冷散热技术的应用虽然会增加一定的初期投资,但可通过降低运行成本回收投资。根据中兴通讯测算,以规模为10MW的数据中心为例,比较液冷方案(PUE1.15)和冷冻水方案(PUE1.35),预计2.2年左右可回收增加的基础设施初投资。根据施耐德数据显示,在容量相同的数据中心,按每机架20kW和每机架40kW的方式部署液冷时的投资成本比传统风冷分别节省了10%和14%的投资成本。
液冷驱动因素二:算力功率密度提升,液冷逐步成为刚需
伴随着智算中心芯片功耗的提升,其自身的散热功耗也在不断攀升,智算中心中单机柜的热密度大幅度的快速提升,因此,智算中心将面临单机柜功耗高密化的挑战。
液冷将是智算中心高功率密度散热主要方案。智算训练需要建立高度集中化的GPU集群,而智算中心GPU芯片的算力在不断提升,英伟达B200芯片TDP功耗已达1000W,由一颗Grace CPU与两颗BlackwellGPU组成的GB200超级芯片达到了2700W;其GPU架构从Blackwell继续进化为Rubin Ultra,Vertiv数据显示,AI GPU 机架的峰值密度有望从2024年的130kW到2029年突破1MW,采用液冷技术是大势所趋。
液冷驱动因素三:全球数据中心能耗管控趋严,PUE考核趋严
碳中和背景下,主要国家和地区对数据中心的电能利用效率PUE等指标提出了更为严格的要求,以我国为例,要求新建大型和超大型数据中心PUE降至1.25以内。
算力中心电力紧缺已成为初步共识,采用液冷降低PUE有望节约整体数据中心电能消耗。目前,一个标准的风冷数据中心中,温控环节的能耗占比达到40%(主要为精密空调消耗)。而算力中心对电力需求正在快速提升,需要降低单位算力能耗。通过液冷替代精密空调有助于降低PUE,实现节约能耗的目的。PUE=(IT设备+制冷设备+供电设备+照明及其它等设备)/IT设备能耗,即PUE越接近于1,则数据中心中的能耗将主要来源于IT设备(服务器、交换机等)。
目前液冷散热技术主要分为冷板式、浸没式及喷淋式
液冷主要可分为冷板式、浸没式、喷淋式三大类。按照接触方式,液冷主要可分为冷板式、浸没、喷淋式三大类。其中,按照是否相变,冷板式液冷可分为单相冷板式液冷、两相冷板式液冷,浸没式液冷可分为单相浸没式液冷、相变浸没式液冷。
冷板式液冷是目前主流方案
冷却液不直接接触电子器件。冷板式液冷技术通过冷板将发热元器件的热量间接传递给封闭在循环管路中的冷却液体,通冷却液体将热量带走。这种技术下,工作液体与电子器件不直接接触,而是通过液冷板等高效导热部件将被冷却对象的热量传递到冷却液中。
特点:冷板式液冷兼容性强、易于维护,但存在节能收益不显著、标准化难度大的问题。冷板式液冷能够有效兼容现有硬件架构、易于开展维护设计,且由于液体和设备不直接接触,可靠性更高。但由于未实现100%液体冷却,因此存在机柜功耗低、液冷占比低时,节能收益不显著问题;且液冷板设计需要考虑现有设备的器件布局,结构设计和实现的难度较大,标准化推进难度大。
冷板式目前主要用基于单相的L2A(空气冷却)和L2L(液态冷却)
Liquid cooling with Liquid to Air Side Car (L2A):空气辅助液体冷却,适用于传统的空气冷却数据中心。不需要额外液体冷却基础设施。Liquid cooling with Liquid-to-Liquid CDU (L2L):冷却分配单元可以清除MW级的IT热量。需要额外的液体冷却基础设施。
冷板式发展方向——两相式:冷却液相变吸收大量汽化潜热
与传统的单相液冷(冷却液始终保持液态)不同,两相流液冷允许冷却液在冷却过程中发生“相变”(从液态吸热沸腾为气态,然后在冷凝端放热变回液态)。两相冷板式液冷系统的潜力,应该能实现2500W芯片散热。
冷板式发展方向——微通道:高集成度,冷却液更贴近芯片
MLCP技术(Micro-Channel Liquid Cooling Plate),即微通道水冷板,通过将传统上覆盖在芯片上的金属盖和上方的液冷板整合成一个单元,内部通过蚀刻工艺,形成微通道,使得冷却液直接流经芯片表面。MLCP的核心特征有2个:
内部结构的微型化:通过在封装表面进行蚀刻工艺,将传统散热器中毫米级的流道,缩小至微米级别(例如30-150微米)。这样提高了热交换效率。
高度集成化:将传统上分离的多个组件整合为单一单元(包括均热板、水冷板、芯片封装盖板IHS,整合在一起),这种设计最大程度地减少了导热界面材料(TIMs)的使用,使得冷却液可以更直接、高效地带走芯片产生的热量。
MLCP的单价可达传统水冷板的3~5倍,且能贡献较高的毛利率。以GB300架构为例,一个机柜需要108+18个MLCP,假设报价约800-900美元/块。微软开发微流体冷却技术:9月23日,微软首席执行官萨提亚·纳德拉宣布,其团队已成功开发出微流体冷却技术——通过细如发丝的微小通道,直接将冷却液输送到芯片内部。微流体冷却技术的散热效率比现有散热板高出三倍,能将芯片最高温升(电子设备中各个部件高出环境的温度)降低65%。
浸没式液冷细分为单相和双相(沸腾液体蒸发效率高)方案
单相浸没式液冷系统的浸没机柜设计更为简单,氟化液更易操作、维护。与相变浸没式液冷相比,单相浸没式液冷在材料兼容性和循环中污染物上的隐患也更少。双相浸没式采用被动相变浸没式液冷系统时,可以通过沸腾过程(通过液相到气相的变化),实现更高的传热效率,从而通过相变浸没式液冷,实现更大的功率密度(高达250至500千瓦/浸没腔)。此外,支持相变浸没式液冷所需的冷却基础设施通常较简单,如使用干式冷却器作为一次侧冷却,无需冷却水塔等蒸发降温设施。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。