最近机构把博通(Broadcom)ASIC/DSA的概念炒的很热。根据摩根士丹利预测,高端定制ASIC芯片市场规模将在200亿至300亿美元之间,年复合增长率(CAGR)为20%。(编者:DSA不仅没“死”,而且迸发出更强的力量)目前博通和Marvell两家公司占据60%以上的市场份额。其中博通占据约 55-60% 的市场份额,且增长率超过英伟达;Marvell 紧随其后,占据约 13-15% 的市场份额。
博通在数据中心和网络增长率超过英伟达(来源:互联网)
与CPU、GPGPU等通用集成电路不同,ASIC(Application Specific Integrated Circuit)是专门为特定应用设计的集成电路。在应用和算法不变的前提下,ASIC一般具有高效能、低功耗和低成本的优势。
ASIC成为数字货币挖矿的首选(来源:chipstrat)
根据JP摩根的说法,在Google、Meta、字节跳动之后,OpenAI也成了博通AI DSA的客户。这些客户将与博通合作开发下一代XPU架构,该架构基于3nm/2nm和3D SOIC技术(注:博通提供的SOIC为大写,与TSMC的SoIC写法不同);同时该架构将集成博通的200Gbps/Channel SerDes技术。
根据这一分析,博通AI DSA的主要优势应包括:
1.博通为Google定制数代TPU的设计流程与优化技术;
2.博通的3D/3.5D SOIC技术;
3.博通的高速互连与CPO技术。
根据博通公开的信息,定制AI芯片(XPU)的架构由其客户决定,博通会提供相应的设计流程和性能优化技术。
由于博通已公开的信息有限,那了解博通定制加速芯片技术的最好参照就是Google的Trillium TPU,也就是TPU v6。
预测的Trillium TPU架构(将TPUv5e镜像并形成Virtual Core)
博通的第二个杀手锏就是3.5D XDSiP技术。
随着芯片越做越大,光刻技术线宽越来越逼近原子尺度。算力芯片的性能提升也逐渐变缓。
3.5D 与2.5D技术对比(来源:博通)
在3.5D XDSiP技术中,博通整合了3D IC、2.5D CoWoS、D2D(Die to Die互连)等技术。
在每个3.5D XPU中,可集成了超过6000mm²的芯片面积和多组HBM:
1)2个计算大核(图中Compute Core),分别堆叠在具备D2D和HBM接口的2个逻辑Die上;
2)每个逻辑Die与4组HBM连接
3)每个逻辑Die与IO Die通过D2D互连;
4)每个IO Die包括 100GE/200GE互连(网络/交换机)与PCIe Gen5/6接口;
5)2组计算核心形成一个Virtual Core,刚好与Trillium TPU的Virtual Core对应。
6)计算大核与逻辑Die通过Face to Face(Top Metal对Top Metal)方式进行键合。F2F的好处在于两个Die之间的高速互连无需通过TSV。
先进存储集成方案与发展预测(来源:中存算)
业内最先进的封装/集成技术正在从3D过渡到3.5D。3.5D技术包括了三维堆叠和平行的基于Interposer/封装基板扩展。理想情况下,3D IC是2D SoC的最佳扩展方案,但在实际设计中一些3D IC遇到了过于集中的散热挑战。因此结合了2.5D和3D架构的3.5D IC方案被研发出来,其本质是散热与集成度的折衷方案。
1.提供足够的物理空间分离以有效解决散热和串扰问题。
2.提供了异质集成方法,特别是添加更多大容量SRAM存储的方法。在先进工艺中,大容量SRAM不再以与数字晶体管以相同的密度Scaling down,更适合通过垂直堆叠Die来增加大容量SRAM面积。
3.通过提升互连接口密度和互连区域总面积,3.5D可缩短信号传输距离,并提高处理速度。
其中2)和3)对于大模型所需的大容量存储和高速数据交互至关重要,有助于计算系统的Scale up(向上性能扩展)。
相对3D IC方案,3.5D方案将高密度热量分散开,等效于增大散热面积,避免了HBM和CPO(共光学封装)与计算Die的热量垂直叠加。
博通3.5D方案另外一个典型的特点是Face to Face(面对面,F2F)堆叠结构。与F2B(Face to Back)技术相比,F2F结构无需再通过高高大大的TSV进行Die间的信号传输,减少了寄生电容与电阻,将堆叠Die之间信号密度的提高约7倍,同时使用Top Metal直连代替Die之间的PHY,将3D堆叠的接口功耗降低了约10倍。
仅在单台服务器上运行AI计算,目前已经很难满足大模型不断增长的训练和集群数据存储/处理要求。集群设计者往往面临两种不同的方案:使用更强的处理器/芯片和更大的存储进行垂直扩展(Scale up),或将工作负载分配到能够满足其性能需求的新服务器上进行水平扩展(Scale out)。
CPO具备如下特点或优势,使得CPO成为数据密集型AI和HPC应用的理想方案:
1.减少铜线传输损耗。与可插拔光学器件不同,CPO信号(从计算Die)无需通过损耗大的铜线链路穿过电路板到达板卡或服务器接口面板。与之相反,CPO将光纤直接连接到计算Die/芯片边缘,从而实现芯片和光纤之间的短距离、低损耗通信。
2.减少了数字信号处理器 (DSP)。基于DSP 的重定时器已成为高速可插拔光学器件中必备的组件,DSP会使整个系统功率提高 25-30%。在CPO中,由于消除了铜互连损耗,可以无需DSP进行主动分析和补偿信号衰减。
3.高带宽和低延迟。由于减少了铜线传输损耗和DSP传输延迟,CPO可以实现更高的带宽和更低的延迟。
4.更好的信号完整性和更低的误码率。与传统光通信系统相比,CPO通过减少电气连接和信号转换,降低了信号衰减和干扰的可能性。这提高了数据传输质量和信号完整性,降低误码率并提高系统可靠性。
我们结合完整的3.5D剖面结构来看,CPO的光学部分与HBM结构对称。通过Interposer或substrate与计算Die连接,这种方案的互连代价远小于现有的光模块方案。
根据已公开资料,博通的CPO设计能力涵盖了TH4-Humboldt和TH5-Baily两种。作为制造商,台积电预计在2025年下半年将CPO投入量产,为博通提供1.6T光传输产品。除了博通外,英伟达也是台积电CPO的首批客户,使用CPO技术为NVLink升级。
TH4-Humboldt等2.5D集成将 PIC(光学IC)和 EIC(电学IC)并排倒装放置在Interposer上,保持了类似于3D集成的互连性能和密度。TH5-Baily等3D集成将PIC放置在EIC之上,提供更高的互连密度,同时也会引入更复杂的热设计挑战。
当然CPO设计并不简单,想要进入CPO设计领域需要很强的资金实力和技术储备。对于典型的CPO设计来说,完整的设计流程/挑战包括:
1.计算Die高速接口IP/波形矫正电路设计能力
2.混合信号接口IC设计能力
3.光学器件制造/集成能力
4.2.5D/3D测试方案与集成方案设计能力
5.硅光电路设计能力
CPO方案的设计挑战(来源:博通)
按照牧本定律,半导体芯片会在通用化/标准化和定制的两种相反趋势振荡,这一振荡周期约为10年。大概10年前,Alexnet算法一鸣惊人,带飞了英伟达GPGPU的销量。那么,10年后的今天,博通已经拥有除了生态之外的AI芯片的顶级技术。在博通股价大涨之后,估计很多人会有一个疑问:博通定制AI芯片是否能够以定制AI芯片成为新的主流呢 ?
牧本定律
我们分析,这一问题的答案主要取决于2点:
1.大模型算法架构是否会止步于Transformer。目前Transformer架构的竞争者包括北美的Mamba和中国的RWKV。这两者都以RNN+长程注意力机制的方式试图减小巨大KV Cache带来的计算成本上升,在长序列处理方面具有显著优势。初步预测,要么Transformer在3-5年内有巨大升级,要么Mamba/ RWKV等新架构代替Transformer。
2.英伟达是否会自废内功更多的拥抱ASIC/DSA思路。事实上在早期的V100架构中,英伟达就已经引入了类似DSA的TensorCore,以提升传统GPGPU的GEMM性能。现在,面对新的挑战,据称英伟达专门成立了ASIC设计部门,目前尚无法确定英伟达是否会更多的采用DSA的思路来缩减传统GPU的计算单元。
但不管怎么说,想成为AI芯片这个领域的“武林盟主”,在3.5D IC和光互连方面都要有“几把刷子”。以往的ASIC/GPU积累,正成为人人都有的常规技术,只有不断的产业创新,才能坐稳算力霸主的位子。
此内容为平台原创,著作权归平台所有。未经允许不得转载,如需转载请联系平台。