百度智能云今日宣布成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群。百度智能云将进一步点亮 3 万卡集群。
从昆仑芯科技官方获悉,本次点亮的昆仑芯三代万卡集群,采用的是昆仑芯 P800。昆仑芯官网暂未公布该卡的参数。
国产昆仑芯万卡集群以及未来三万卡集群的建设,从硬件到软件,技术挑战是全方位的。而24年9月升级的百度百舸AI异构计算平台4.0,围绕落地大模型全旅程的算力需求,在集群创建、开发实验、模型训练、模型推理四大方面,能为企业提供“多、快、稳、省”的AI基础设施,在万卡集群的建设中发挥了至关重要的作用。
首先,突破硬件扩展性瓶颈,如卡间互联的拓扑限制,避免通信带宽成为瓶颈;同时,围绕芯片及集群功耗,基于万卡规模常规方案功耗可达十兆瓦或更高,采用创新性散热方案,从而解决万卡集群的能效与散热问题。
完善模型的分布式训练优化,采用高效并行化任务切分策略,训练主流开源模型的集群MFU提升至58%。
在提升稳定性方面,提供容错与稳定性机制,避免由于单卡故障率随规模指数上升而造成的万卡集群有效性大幅下降,保障有效训练率达到98%。
最后,针对机间通信带宽需求,建设超大规模HPN高性能网络,优化拓扑结构,从而降低通信瓶颈,带宽有效性达到90%以上。
去年6月,昆仑芯(北京)科技有限公司(以下简称昆仑芯)发生工商变更,新增北京市人工智能产业投资基金、社保基金中关村自主创新投资基金(北京)合伙企业(有限合伙)为股东,同时,公司注册资本由约1808.48万元增至约1835.08万元。
此前北京市人工智能产业投资基金五次出手皆为大模型企业,如今却转换细分方向,选择入资了一家AI芯片公司。
一位接近北京市人工智能产业投资基金的知情人士表示,此举或为北京市在布局大模型产业上下游,以及助力北京市芯片产业发展。而近年来,昆仑芯所在的中关村也迎来了另一重大产业标签:北京北部芯片产业聚集高地。
昆仑芯成立于2011年6月份,法定代表人为欧阳剑,经营范围含计算机系统服务、基础软件服务、应用软件服务、数据处理、模型设计、工艺美术设计、电脑动画设计、经济贸易咨询等,现由百度(中国)有限公司、北京昆仑传奇科技合伙企业(有限合伙)、中国互联网投资基金(有限合伙)、比亚迪(002594)等20余位股东共同持股。
昆仑芯的前身是百度智能芯片及架构部,2021年,带着李彦宏的期许,昆仑芯独立,成为新公司,专注研究AI芯片,分拆后首轮融资估值冲到约130亿人民币。
自2011年起,昆仑芯团队便基于真实AI场景需求研究AI计算加速,2017年正式提出自研XPU架构,并基于该架构打造两代云端AI芯片,相继推出多款AI加速卡及AI加速器组产品。主要产品包括:昆仑芯1代AI芯片、昆仑芯2代AI芯片,及多款基于昆仑芯AI芯片的AI加速卡:K100、K200、R200/R200-8F系列,以及AI加速器组R480-X8。
此外,公司还提供大模型端到端解决方案。昆仑芯大模型端到端解决方案是昆仑芯为创新企业推出的一款大模型算力软硬件解决方案。
如今,随着大模型火热,AI算力资源紧张,相关算力基础设施建设进程提速,AI芯片创企的受关注度正日益高涨。昆仑芯2代AI芯片是国内首款采用GDDR6显存的通用AI芯片,已在金融、工业、教育等领域布局。
比亚迪还低调入股了昆仑芯,并称后续将和昆仑芯有更深入的合作。
本次投资方之一的北京市人工智能产业投资基金,2024年以来已经投资智谱AI、面壁智能、瑞莱智慧、深势科技、生数科技,这五家企业均位于北京,代表北京市国资基金对关键技术企业的大力支持。除了深势科技外,北京市人工智能产业投资基金出手的四家企业,均为清华系背景。
而此番入资昆仑芯,上述知情人士称,北京市也意在布局北京大模型产业链,解决算力瓶颈,降低算力成本。
本文转自媒体报道或网络平台,系作者个人立场或观点。我方转载仅为分享,不代表我方赞成或认同。若来源标注错误或侵犯了您的合法权益,请及时联系客服,我们作为中立的平台服务者将及时更正、删除或依法处理。