据两位参与生产英伟达芯片和服务器硬件的人士透露,由于设计缺陷,英伟达即将推出的人工智能芯片将推迟三个月或更长时间,这一混乱可能会影响 Meta Platforms、谷歌和微软等客户,这些客户总共订购了价值数百亿美元的芯片。
据多位知情人士透露,英伟达已经告知其最大客户之一微软和另一家大型云提供商,其新款 Blackwell 系列芯片中最先进的 AI 芯片将延迟发布。
英伟达于 3 月发布了 Blackwell,首席执行官黄仁勋于 5 月表示,公司计划在今年晚些时候大批量出货 Blackwell。但生产过程中的设计问题却在后期异常地出现。参与 Blackwell 芯片开发的人士表示,英伟达正在与其芯片制造商台积电进行新一轮试产,以解决这些问题。
设计和生产方面的障碍加剧了人们对英伟达的担忧,美国司法部目前正在调查英伟达的竞争对手对其涉嫌反竞争行为的投诉。该公司仍处于强势地位,因为其芯片的性能远远领先于竞争对手。
股东对 Blackwell 芯片的期望很高。Keybanc Capital Markets 的一位分析师预测,Blackwell 芯片可能会使英伟达的数据中心收入从 2024 年的 475 亿美元增至 2025 年的 2000 多亿美元。(这样的估计可能没有考虑到新的延迟。)
黄仁勋在 5 月份与分析师的财报电话会议上表示:“今年我们将看到Blackwell的大量收入。”
英伟达的 AI 服务器芯片一直是 OpenAI 等开发商的对话式和视频 AI 的命脉。它们还帮助微软等云提供商通过向其他开发商出租芯片来增加销售额。如果即将推出的人工智能芯片(称为 B100、B200 和 GB200)推迟三个月或更长时间,则可能会导致一些客户无法按计划在 2025 年第一季度在其数据中心运行大量芯片集群。
包括微软、OpenAI 和 Meta 在内的最大客户计划使用新芯片开发未来几代大型语言模型、ChatGPT 背后的软件、Meta AI 助手和其他自动化功能。这些公司表示,他们需要数倍的计算能力来实现软件性能的大幅提升,以便能够更好地回答复杂的查询、自动执行多步骤任务或生成逼真的视频。他们预计英伟达的下一代 AI 芯片将实现这样的飞跃,尤其是当它们组合成一个集群(即超级计算机)时。
英伟达的一位发言人没有就该公司向客户发布的有关延迟发布的声明发表评论,但表示其现有系列芯片 Hopper 的需求强劲;客户正在测试 Blackwell 芯片的样品;并且“产量将在今年下半年逐步提升”。
微软、谷歌、亚马逊云服务和Meta的发言人拒绝置评。台积电的一位发言人在办公时间结束后没有回应置评请求。
英伟达最大的客户尤其对 GB200 芯片有宏伟的计划。过去一周,谷歌、Meta 和微软披露了前所未有的数据中心和 AI 芯片支出增长,这暂时提振了英伟达的股价,并引发了人们对这些公司何时能从这些投资中产生收入和利润的疑问。
大量 Blackwell 订单
例如,谷歌已经订购了超过 40 万块 GB200 芯片,两位从事该芯片开发的人士表示。加上服务器硬件,谷歌订单的总价值可能远超 100 亿美元,不过目前尚不清楚谷歌预计何时能收到这些订单。
在大规模生产之前发现重大设计缺陷的情况极不寻常。
具体来说,谷歌今年将在芯片、其他设备和财产上花费约 500 亿美元,比去年增长 50% 以上。
两位知情人士表示,Meta 还下了一份价值至少 100 亿美元的订单,而微软最近几周将其订单规模增加了 20%,尽管无法获悉其总订单规模。据一位直接了解订单情况的人士称,微软计划在 2025 年第一季度之前为 OpenAI 准备好 55,000 到 65,000 块 GB200 芯片。
一位知情人士透露,微软管理层原计划在明年 1 月向 OpenAI 提供采用 Blackwell 技术的服务器,但可能需要推迟到 3 月或早春。
参与 Blackwell 芯片生产的两位人士表示,Blackwell 芯片的设计问题是最近几周才被发现的,当时台积电的工程师在量产准备过程中发现了一些缺陷。
GB200 芯片包含两个相连的 Blackwell GPU 以及一个 Grace 中央处理器。问题涉及一个处理器芯片(一块容纳芯片电路的硅片),该芯片连接了两个 Blackwell GPU。这一问题降低了台积电能够为英伟达生产的芯片产量(即数量)。此类问题通常会促使公司停止生产。
因此,知情人士表示,英伟达一直在对设计进行调整,并且必须在台积电进行新的生产试运行,然后才能开始量产。
据另一位与英伟达谈论延迟问题的人士称,英伟达已告知至少一家云服务提供商,他们可能会考虑生产仅包含一个 Blackwell 芯片的芯片版本,以避开晶圆问题并加速芯片发货。
罕见的延迟
台积电最初计划在第三季度开始量产 Blackwell 芯片,并从第四季度开始批量出货给英伟达客户。他们表示,Blackwell 芯片现在预计将在第四季度投入量产,如果没有进一步的问题,服务器将在随后的几个季度大规模出货。
芯片延迟并非闻所未闻。据知情人士透露,2020 年,英伟达旗舰 GPU 的早期版本出现了一些延迟。但当时英伟达面临的风险较低,而且很少有客户指望订单能到货,这样他们就可以开始从数据中心和芯片投资中创造收入。
不过,在量产前发现重大设计缺陷的情况非常罕见。芯片设计师通常会与台积电等芯片制造商合作,进行多次生产测试和模拟,以确保产品的可行性和制造过程的顺利进行,然后再接受客户的大订单。
据台积电两名员工称,作为全球最大的芯片制造商,台积电在即将量产的高端产品上停产并重新设计产品,这种情况并不常见。台积电已经释放了机器产能,以备 GB200 的量产,但必须让机器闲置,直到问题解决。
该设计缺陷还会影响英伟达 NVLink 服务器机架的生产和交付,因为从事服务器业务的公司必须等待新的芯片样品才能完成服务器机架设计。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。