随着高速运算需求的不断增长,更有效的AI服务器散热方案备受关注。TrendForce最新AI服务器报告显示,NVIDIA将于2024年底推出新一代Blackwell平台,各大CSP预计将基于该新平台开始建设AI服务器数据中心,有望将液冷方案渗透率推升至10%。
空气和液体冷却系统可满足更高的冷却需求
TrendForce 报告称,NVIDIA Blackwell 平台将于 2025 年正式推出,取代目前的 Hopper 平台,成为 NVIDIA 高端 GPU 的主导解决方案,占所有高端产品的近 83%。高性能 AI 服务器型号(如 B200 和 GB200)旨在实现最高效率,单个 GPU 的功耗超过 1,000W。HGX 型号每台将容纳 8 个 GPU,而 NVL 型号每机架将支持 36 或 72 个 GPU,从而大大促进 AI 服务器液冷供应链的增长。
服务器芯片的 TDP 不断增加,B200 芯片的 TDP 达到 1,000W,传统的风冷解决方案已无法满足需求。GB200 NVL36 和 NVL72 完整机架系统的 TDP 预计分别达到 70kW 和近 140kW,需要采用先进的液体冷却解决方案才能实现有效的热管理。
GB200 NVL36 架构最初将采用空气和液体冷却解决方案的组合,而 NVL72 由于更高的冷却需求,将主要采用液体冷却。
TrendForce 确定了 GB200 机架系统当前液体冷却供应链中的五个主要组件:冷板、冷却液分配单元 (CDU)、歧管、快速断开装置 (QD) 和后门热交换器 (RDHx)。
CDU 是调节冷却液流量以将机架温度保持在指定的 TDP 范围内并防止组件损坏的关键系统。Vertiv 目前是 NVIDIA AI 解决方案的主要 CDU 供应商,而 Chicony、Auras、Delta 和 CoolIT 正在接受持续测试。
预计 2025 年 GB200 出货量将达到 60,000 台,使 Blackwell 成为主流平台,并占 NVIDIA 高端 GPU 的 80% 以上
2025年,NVIDIA将以多样化的AI服务器配置瞄准CSP及企业客户,包括HGX、GB200 Rack及MGX,预估出货比例为5:4:1。HGX平台将无缝衔接现有Hopper平台,让CSP及大型企业客户能快速采用;GB200机架式AI服务器方案则主要瞄准超大规模CSP市场。TrendForce预估NVIDIA将于2024年底推出NVL36配置,快速切入市场;更复杂的NVL72则预计于2025年推出。
TrendForce预测,2025年GB200 NVL36的出货量将达到6万架,Blackwell GPU的使用量将在210万至220万台之间。
然而,终端客户采用 GB200 机架存在几个变数。TrendForce 指出,NVL72 每机架约 140kW 的功耗需要复杂的液冷解决方案,这使其具有挑战性。此外,液冷机架设计更适合新的 CSP 数据中心,但涉及复杂的规划流程。CSP 还可以避免受制于单一供应商的规格,而选择具有 x86 CPU 架构的 HGX 或 MGX 型号,或者扩展其自主开发的 ASIC AI 服务器基础设施以降低成本或用于特定的 AI 应用。
数据中心液冷市场升温
根据研究公司Dell'Oro Group的报告,数据中心的液体冷却技术正从特定市场细分中的小众选择转变为主流应用。
随着先进处理器和高性能服务器部署的增加,液体冷却的热管理能力需求也在增长。展望未来,Dell'Oro Group表示,液体冷却将在2024年下半年开始成为主流技术,并将在未来五年内增长至超过150亿美元的市场规模。
“以前,液体冷却供应商宣称提高效率和可持续性是该技术被采用的原因,”Dell'Oro Group研究总监兼《数据中心液体冷却高级研究报告》作者Lucas Beran说道。“虽然这些好处依然存在,但目前推动其采用的主要原因是其增强的热管理性能,能够满足高端处理器和加速服务器特别苛刻的热要求。”
Dell'Oro报告称,配备GPU和定制加速器的加速服务器在2024年第一季度占所有服务器销售的超过一半。此外,AI网络需求将加速向更高速度和先进热管理的转变。预计到2025年,AI后端网络中部署的大部分交换端口将达到800 Gbps,而到2027年将达到1600 Gbps。
Dell'Oro报告研究了三种液体冷却技术:后门热交换器、直芯冷却和浸没冷却。
后门热交换器通常安装在单个服务器机架上,涉及在机架后部放置一个冷凝器单元,提供冷却液并移除服务器产生的热量。Beran表示,“后门热交换器的重要之处在于它不需要对IT设备进行修改,因此在未设计为液体冷却的基础设施中部署要简单得多。”
直芯液体冷却技术需要对现有设备进行改动,涉及在处理器顶部安装冷却板,并从服务器中引出管道。这种技术配置被称为单相直芯液体冷却(DLC)。双相直芯液体冷却利用冷却液的液相和气相,更高效地散热。
单相DLC部署首先规模化,Beran表示,“这是因为高性能计算行业长期采用该技术,帮助建立了更成熟的供应商生态系统和最终用户部署和服务技术的知识。”单相DLC是领先的数据中心液体冷却技术,预计在五年预测期内将继续保持领先地位。然而,预计双相DLC将在预测期内显著增长。Beran表示,流体创新将在浸没冷却的成功中发挥重要作用。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。