市场消息传出,英伟达下一代Blackwell架构芯片GB200的量产计划再度遭遇技术瓶颈,微软将削减订单。
供应链透露,这次问题来自美商大厂,为了将72颗Blackwell GPU通过5000根NVLink铜缆进行高速互连,所开发出的全新cartridge连接器模组,每个cartridge中有几千根线,在GH200规格下达到每根112G,而GB200规格预计升级至224G,难度大幅提升,现在面临良率不佳测试不过关的瓶颈,量产时间恐再推迟至2025年3月。
据悉,英伟达今年3月发布了全新的Blackwell计算平台及GB200超级芯片。与前一代H100 GPU相比,GB200超级芯片在大语言模型推理工作负载方面的性能提升了30倍。
近期有知情人士透露,英伟达的GB200芯片在装有72个芯片的服务器中使用时会过热。这些设备预计每个机架功耗高达120kW。这些问题迫使英伟达多次重新评估其服务器机架的设计,因为过热会限制GPU性能并存在组件损坏的风险。客户们担心这些挫折可能会阻碍他们在数据中心部署新芯片的时间表。
作为对延误和过热问题的回应,英伟达发言人表示,“我们正在与领先的云服务提供商合作,将其作为我们工程团队和流程中不可或缺的一部分。工程迭代是正常且符合预期的。将GB200这一迄今为止最先进的系统集成到各种数据中心环境中,需要与我们的客户共同设计。”英伟达还表示,“目前客户正在抢占GB200系统的市场先机”。
这并非Blackwell系列首次被曝出问题和量产延迟了。
英伟达在今年发布Blackwell系列后,首席执行官黄仁勋在5月时还信心满满地表示,公司计划在今年晚些时候开始批量出货Blackwell系列芯片。
GB200芯片包含两个相连的Blackwell GPU和一个Grace中央处理单元。然而,此前在台积电工程师为量产进行准备时,却在连接两个Blackwell GPU的裸晶上发现了设计缺陷。这一缺陷会导致芯片良率或产量降低,通常做法是停止量产。
因此,英伟达不得不对芯片设计进行调整,并在开始量产前,与台积电合作进行新的试生产。芯片出货延迟并非闻所未闻,但在即将量产前发现重大设计缺陷的情况还是非常罕见的。
台积电原本计划在第三季度开始量产Blackwell系列芯片,并从第四季度开始向英伟达客户批量发货。然而,由于设计缺陷的发现,当时预计的量产时间不得不推迟到第四季度,批量出货的时间预计要推迟到明年第一季度。台积电为量产GB200保留了产能,但在问题解决之前,不得不让产线闲置。
而就在今年十月份,天风证券分析师郭明錤在研究报告中表示,微软2024年第四季度对于英伟达GB200的订单量激增3至4倍,超过其他云端服务商总和,成为了英伟达GB200最大客户。
对于云服务商而言,收到芯片后通常需要三个月左右的时间才能让大型计算集群投入运行,这意味着一些原计划在2025年第一季度部署的项目可能会受到影响。
这一延迟无疑打乱了英伟达客户的计划,特别是对于微软、谷歌和Meta这样的巨头来说。谷歌已经订购了40多万颗GB200芯片,加上服务器硬件,订单成本可能远远超过100亿美元。Meta也下了一份价值至少100亿美元的订单。
郭明錤称,英伟达Blackwell芯片扩产已于今年第四季度初启动,出货量将15万到20万片。预估2025年第一季度出货量环比增长至上季的200%~250%,即达到50万至55万片。
郭明錤强调,微软是采购英伟达Blackwell构架芯片当中最强的GB200芯片最积极的客户。除了原定用于测试的第四季的GB200 NVL36服务器订单,微软最近还计划在英伟达DGX GB200 NVL72于2025年第二季度中期量产前,获得GB200 NVL72样品测试。
根据预计,微软今年第四季度的Blackwell架构的GB200订单量从原来的300~500个机柜(主要为GB200 NVL36),大幅增加到1,400~1,500个机柜。其中约70%为GB200 NVL72,最高增加幅度达近400%。后续订单将持续集中在GB200 NVL72。
郭明錤进一步指出,微软最近与关键零组件供应商讨论第四季度扩产状况,也就是达约原产能1.5~2倍或更多,并准备提前备货。
数据显示,英伟达占据全球高端服务器 GPU 市场 92%的份额。GB200 主要客户包括互联网厂商如Meta、谷歌、微软等。
据TrendForce集邦咨询预估 2025年英伟达英伟达 GB200 的的出货量将有望突破百万颗,站NVIDIA 高端 GPU 近45成。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。