因发热和互联故障,英伟达GB200再延期,遭客户砍单

来源:半导纵横发布时间:2025-01-16 16:01
英伟达
芯片制造
生成海报
因过热和互联故障,英伟达GB200再延期,四大客户削减订单。

据报道,GPU制造商英伟达再次推迟其数据中心AI芯片GB200的交付时间。此次交付延迟的主要原因是过热问题和芯片互联故障。

英伟达第一批搭载Blackwell芯片的机架在运行时出现过热现象,影响了芯片性能和机架其他部件。并且,Blackwell芯片之间的互联出现了问题,在高性能计算领域,芯片之间的高效互联是确保系统整体性能的关键。一旦互联出现问题,将严重影响数据的传输速度和系统的稳定性。

由于交付延迟,英伟达主要客户微软、亚马逊云部门、Alphabet 旗下谷歌和 Meta Platforms被曝已经削减了英伟达Blackwell GB200机架的部分订单,这些客户每家都下了价值100亿美元或更多的 Blackwell 机架订单。此前英伟达首席执行官黄仁勋曾表示,该公司有望在第四财季通过Blackwell芯片增加数十亿美元的收入。

据参与微软和OpenAI数据中心建设的内部人士透露, 微软原本打算在其位于凤凰城的数据中心安装配备至少5万颗Blackwell芯片的GB200机架,以满足OpenAI的运算需求。但目前OpenAI已经开始要求微软提前交付上一代的英伟达H200芯片。这就意味着,原本计划大规模部署GB200机架的凤凰城数据中心,目前改为部署H200芯片。

知名分析师郭明錤表示:“GB200 NVL72的量产计划从9月推迟到2024年12月,目前将又从今年第一季度推迟到第二季度。今年的出货量将减少一半,从58000个机架减少到25000个。”

根据公开资料显示,一个GB200包含一颗Grace 72核的ARM CPU和2颗Blackwell GPU,对应的功耗为 2700W。芯片之间采用台积电的CoSoW 3D堆叠封装封装技术,先把2颗Blackwell GPU通过RDL再布线层缝合在一起,然后再与Grace 72核的ARM CPU和其它元器件封装在整个硅晶圆上。

2024年11月,有报道称Blackwell芯片由于高负荷运算产生的热量超出了现有散热系统的处理能力,出现了服务器机架过热现象。针对此,英伟达多次要求供应商调整机架设计以缓解这一问题,但目前尚未找到有效的解决方案,同时为了解决该问题,英伟达正在与多家云服务提供商合作,共同优化散热方案。

据悉,为了改善Blackwell芯片的散热系统,英伟达已经对服务器机架设计进行了多项修改。英伟达还向Open Compute Project(OCP)贡献了NVIDIA GB200 NVL72机架和计算以及交换机托盘的液冷设计。这种液冷设计使得系统能够更有效地管理热量,从而提高整体系统的稳定性和可靠性。

当时,黄仁勋在业绩发布会上表示,散热问题已经解决,Blackwell服务器的供应不会中断。但如今,证明Blackwell GB200服务器机架发热问题尚未完全解决。此前,英伟达在GTC大会上也晒出了关于GB200的样机,采用的液冷散热架构,其液冷机架方案是由鸿海的子公司鸿佰提供。

芯片之间的互联故障也是导致交付延迟的另一个重要原因。在此之前,GB200就曾出现过互联失效现象,据英伟达自己的解释,是因为再布线层的各个引组间的电阻不相同,在高速数据传输与校验时,芯片出现互联信号失真现象,导致GB200不能正常工作。当时英伟达与台积电都表示,会通过修改RDL的再布线层与周边元器件的设计,来完善两颗芯片间的数据联接,让整个系统可以高效运行。

英伟达AI芯片在3D堆叠封装中存在两大难点,一是RDL与各个主控芯片间的联连可靠性、电性能平衡处理、信号互联处理等难题,二是TSV硅穿孔联接的高速HMB内存模块与硅基板之间的混和键合稳定性难题,主控芯片与硅基板之间的金属层键合难题。

英伟达GB200首次应用了通过RDL中间层来把两颗Blackwell GPU缝合在一起的工艺,因此出现互联故障,不排除是因为引入该工艺造成了整个3D堆叠互连技术的工艺差异性被放大,从而让里面的各个小CHIP芯片之间的信号传输数据,得不到有效的验证与放行,从而出现整个GB200系统互联失效。

目前,使用玻璃基板来代替现有RDL的呼声很高,并且认为玻璃基板可以解决热管理失效导致的互联失效难题问题。再加上台积电和英伟达都曾表示将会在未来支持玻璃基板封装技术,因此,有业内人士认为如果现有工艺无法解决GB200热管理失效与互联失效难题,英伟达可能会尝试使用玻璃基板来解决。

本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。

评论
暂无用户评论