一文看懂华为昇腾芯片
2 天前 / 阅读约11分钟
来源:36kr
华为昇腾AI芯片替代英伟达,310/910构建全栈生态。

最近这几年,网上关于华为昇腾的讨论很多,关注热度也很高。 

我们经常说的昇腾,其实有两层定义。 

一层是狭义的定义,特指华为昇腾芯片。 

昇腾910芯片 

另一层是广义的定义,是指围绕昇腾芯片的整个全栈计算生态。既包括硬件,也包括软件、算法以及应用服务。 

来自《昇腾计算产业发展白皮书》 

今天这篇文章,小枣君主要说说昇腾芯片和硬件体系。 

昇腾芯片的演进

昇腾(Ascend)芯片是华为(海思)自研的、专门面向高性能AI计算的NPU(神经网络处理器)芯片。 

现在AI浪潮风起云涌,到处都在搞AI大模型,还有AI应用落地。这些工作涉及到巨量的AI训练和推理计算需求,就会用到昇腾这样的AI芯片。 

昇腾的对标对象,毫无疑问就是英伟达的GPU系列。 

因为众所周知的原因,英伟达的GPU对我们禁售(现在连阉割版的H20都不卖给我们了),所以,昇腾作为国产AI芯片,就发挥了重要的替代作用,也迎来了巨大的市场机遇。 

昇腾芯片是一个大系列,主要包括昇腾310和昇腾910两个子系列。 

在2018年的华为全联接大会上,华为轮值CEO徐直军首次阐述了他们的AI战略,并正式公布了昇腾910和昇腾310两款AI芯片。当时,实体展示的,是昇腾310。 

一年后,2019年8月,华为又正式推出了昇腾910。 

昇腾310是SoC小芯片,和我们手机芯片差不多,只有指甲盖那么大,功耗仅有8W。 

它集成了多个运算单元,包括CPU(8个ARM A55 Core)、AI Core、数字视觉预处理子系统等,主要面向边缘计算与低功耗终端,以完成AI推理任务为主。 

AI Core是计算核心,采用了华为自研的达芬奇(DaVinci)架构,复杂执行矩阵、向量、标量计算的算子任务。CPU负责非矩阵类复杂计算。 

昇腾310架构 

根据海思官网的披露,昇腾310的FP16算力为8TOPS,INT8算力为16TOPS,采用12nm工艺制造。 

昇腾910是大芯片,和我们的掌心差不多大,功耗在300W以上,主要面向云端高性能计算。它的算力更强,既能用于AI推理任务,也能用于AI训练任务。 

华为早期发布的昇腾910,其实应该算是910A。 

当时,因为华为还没有被完全禁售,所以910A仍然采用了台积电的7nm增强版EUV工艺。 

芯片内建了32颗达芬奇Max核心(达芬奇核心分为Max/Lite/Tiny三种,Max最完整),支持混合精度计算(FP16/FP32/INT8),FP16算力为256TFOPs,最大功耗350W(一开始说是350W,后来变成了310W)。 

达芬奇架构参数(来自第31届Hot Chips大会) 

2020年华为被列入实体清单后,台积电那边的先进工艺就用不了。于是,华为与中芯国际(SMIC)合作,采用他们的N+1工艺(等效7nm),推出了910B。 

910B优化了架构设计,提升了能效比,芯片尺寸为21.32mm×31.22mm,FP16算力约320TFLOPS, INT8算力约640TOPS。显存为64GB HBM2e,显存带宽400GB/s。 

910B也分为B1/B2/B3。910B3引入了HBM3e内存,带宽提升至1.2TB/s,支持万亿参数模型训练。 

来自知乎(万文友) 

最近这两年,华为又推出了昇腾910C。 

昇腾910C采用中芯国际的7nm(N+2)工艺,晶体管数量达到530亿。 

910C采用了类似B200的双die封装设计(将两颗独立的芯片die分别放置在各自的中介层,再通过有机基板将两个中介层连接起来),通过把两颗昇腾910B整合到一起,实现了性能的提升。 

这种封装方式虽然在芯片间互联带宽上可能低于英伟达的先进封装方案,但具有更低的成本、更高的良率以及更快的量产速度。 

业界估测,910C在FP16精度下的单卡算力能达到800TFLOPS左右,大概是英伟达H100芯片(2022年推出)的80%。 

值得一提的是,910C的芯片逻辑面积大约比H100多60%。这意味着910C在架构效率和设计优化方面, 与H100依然存在差距。 

910C的HBM高带宽内存仍然来自海外厂商(国内DRAM制造商长鑫存储HBM2e相关技术还需要再等等)。芯片的整体国产化比例据说已经达到90%以上。 

910C的各方面参数以及进展信息都比较神秘。 

根据网络上的不可靠信息,910C于2024年四季度推出样片,2025年一季度开始量产,目前已经处于大规模出货阶段,全年销量大概在70-80万颗。 

也有不可靠消息指出,2024年910B的出货量约四十万张,今年910B出货量可能与去年持平或略低(约30万张),而910C的出货量预计可能超过40万张。因此,华为今年910B+910C的整体出货量可能是70-100万张。 

出货量和产能也有很大关系。中芯国际N+2工艺良率去年只有20%,今年据说已经达到40-50%,分配给910C的产能貌似是2.6万片晶圆/月(数据不靠谱,仅供参考,与我无关)。

价格方面,910B的均价据说大约是11万/片,910C可能是18-20万/片。网上很多文章说910C价格是1800美元,我觉得不靠谱。相比之下,英伟达H100的市场价格,大约是2.5-3万美元/张。 

值得一提的是,华为前段时间推出的CloudMatrix 384超节点,由384颗昇腾910C芯片构建,系统性能比英伟达的GB200 NVL72更强。 

这属于典型的“群殴”模式。虽然单芯片的性能打不过,但通过系统层面的创新,组成更大规模的集群,也能一定程度弥补差距,满足算力需求。 

在连接方面,需要提一下华为自研的HCCS高速互连接口。 

昇腾910集成了HCCS、PCIe 4.0和RoCE v2接口,可以灵活高效地实现横向扩展(Scale Out)和纵向扩展(Scale Up)。 

HCCS对标的是英伟达的NVLINK,能够给内核、设备、集群提供系统内存的一致访问。在单一链路的单向/双向互联带宽上,HCCS有显著优势,可以有效提升多个Al芯片协同训练的能力。 

910C之后,据说还有910D,采用5nm制程,4Die封装,支持FP8。今年5-6月份回片,预期2026Q2-Q3大规模量产。这个消息的来源不可靠,同样仅供参考。 

再往后,华为可能就会推出昇腾920系列,采用下一代工艺,更先进制程,努力缩小和英伟达的差距。 

哦,对了,差点忘了说,华为除了昇腾310和910之外,其实还有昇腾610。 

昇腾610也称为MDC610,是智能驾驶芯片,用于华为自己的智能驾驶平台(MDC)。根据资料显示,昇腾610采用了7nm制程,AI算力达到200TOPS@INT8或100TFLOPS@FP16,目前已经实现量产。 

昇腾610芯片(图片来自网络) 

昇腾硬件体系

基于昇腾芯片,华为开发了AI算力板卡、服务器、集群等一系列硬件产品,如下图所示: 

这些硬件覆盖了边缘推理、云端推理、云端训练三大场景,可以满足不同行业用户的AI计算需求。 

Atlas 200I DK A2,是面向开发者的高性能AI开发套件,集成了昇腾310芯片,内置2个Al core,可支持128位宽的LPDDR4X,最大算力为22TOPS。  

Atlas 200I DK A2 

Atlas 300T训练卡,基于昇腾910芯片,集成32个达芬奇AI核+16个TaiShan核,能够提供280TFLOPS FP16 算力,并集成了一枚100GE RoCE v2网卡,支持PCIe 4.0和1*100G RoCE高速接口。内存规格方面,包括32GB的HBM和16GB的DDR4。 

Atlas 300T A2训练卡,强化了高速接口和对PCIe 5.0的支持,集成20个AI 核、8个CPU核、1*200GE RoCE,提供280TFLOPS FP16 算力。 

Atlas 300T A2训练卡 

Atlas 300I推理卡,采用了4个昇腾310,可以实现快速高效的推理计算、图像识别及视频处理等工作,支持多种规格的H.264、H.265视频编解码。 

Atlas 300I Pro推理卡,采用24GB LPDDR4X,单卡最大提供140TOPS INT8 算力。 

Atlas 300I Duo推理卡,采用48GB LPDDR4X,总带宽 408GB/s,从表观上看是两颗昇腾310的组合产品,单卡最大提供280TOPS INT8 算力。 

Atlas 500 A2智能小站,是面向边缘应用的产品。 

Atlas 500 A2智能小站 

Atlas 800训练服务器,采用了8颗昇腾910(NPU)+4颗鲲鹏920(CPU),广泛应用于深度学习模型开发和训练, 

Atlas 800推理服务器,最大可支持8个Atlas 300l推理卡,广泛应用于数据中心侧的AI推理场景。 

Atlas 800I A2推理服务器 

Atlas 900是Al智算集群,包括了数千颗昇腾芯片,总算力达到256~1024P FLOPS@FP16,相当于50万台PC的计算能力。

Atlas 900智算集群

Atlas 900集群由Atlas 900 PoD集群基础单元组成。每个单元就是一个机柜,搭载超了32颗鲲鹏920,47U高度可最大提供20.4PFLOPS@FP16的算力。机柜采用液冷散热,最大功耗为46KW。

好啦,以上就是关于华为昇腾硬件体系的全部介绍。

欢迎纠错,也欢迎补充更多信息!谢谢!

参考资料:

1、《昇腾计算产业发展白皮书》,华为&信通院;

2、《昇腾发力铸造国产算力基石》,国投证券;

3、《昇腾万里,力算未来》,华安证券;

4、《华为昇腾:国产 AI 算力“扛旗者”》,民生证券;

5、《华为昇腾服务器研究框架》,浙商证券;

6、《“鲲鹏”展翅,“昇腾”万里》,东莞证券;

7、科技分析师Lennart Heim (@ohlennart) 在X平台发布的分析文章

8、《华为发布全球算力最强 AI 处理器,达芬奇架构巨无霸芯片昇腾 910 问世!》,新智元;

9、《解读神秘的华为昇腾910》,周博洋,知乎;

10、华为官网、华为云社区。