4800万颗芯片:两万字拆解数据中心
13 小时前 / 阅读约54分钟
来源:36kr
半导体是AI的基础,占AI服务器机架价值95%以上。AI数据中心需要全套半导体技术,预计2028年AI数据中心半导体年收入将超1.2万亿美元。

近日,半导体行业协会 (SIA) 与德勤合作,发布了一份报告,指出各种半导体技术都是人工智能 (AI) 不可或缺的一部分,在 AI 基础设施的价值中占据了相当大的份额,并在未来几年带来了巨大的市场机遇。

这份新报告指出,芯片在领先的人工智能服务器机架的组件价值中占比超过95%,在构建和运营人工智能数据中心所需的总资本支出中占比超过50%。该研究还详细阐述了人工智能如何需要涵盖逻辑、存储、模拟和基础芯片等全方位的半导体技术。此外,报告预测,到2028年,人工智能数据中心所用半导体的年收入可能达到1.2万亿美元。这比过去四年增长了近十倍,并且比2025年全球所有终端用途的半导体总销售额高出50%以上。

报告的其他主要发现:

1.人工智能数据中心需要大量的计算、存储和内存带宽、电力分配和网络能力,所有这些都由完整的芯片技术栈提供;

2.一个完整的AI服务器机架总共包含超过4500个封装芯片。其中包括:

(1)先进的逻辑芯片,例如人工智能加速器、专用集成电路 (ASIC)、现场可编程门阵列 (FPGA)、中央处理器 (CPU)、数据处理单元 (DPU) 和网络芯片。

(2)、存储器,例如高带宽存储器(HBM)、动态和静态随机存取存储器(DRAM 和 SRAM)以及非易失性闪存(NAND)。

(3)模拟芯片和基础芯片,例如电源芯片、收发器、控制器和传感器。

该报告还分析了人工智能数据中心领域的未来市场趋势,尤其关注未来几年人工智能的快速变革,这些变革将给半导体行业带来挑战和机遇。随着人工智能的持续快速发展,全球领先地位的竞争将愈演愈烈,技术变革也将需要持续不断的创新。

以下为报告正文编译:

摘要

半导体是人工智能 (AI) 的基础,这项技术正在改变我们的经济和社会,使整个行业更具生产力和创新力,并推动重大的科学突破。

如今的人工智能系统建立在整个半导体生态系统数十年的创新之上。随着芯片技术的不断进步,人工智能将变得更加强大、节能且经济高效。反过来,更强大的人工智能将有助于改进芯片设计、优化半导体制造,并推动对各种人工智能芯片的更大需求。

要点总结:

1. 半导体是人工智能的基础使能技术。芯片构成现代人工智能系统的基础硬件层,并在现代人工智能服务器的整体价值中占据重要地位:

单个人工智能服务器机架包含超过 4,500 个封装芯片,由大约 20,000 个独立的芯片组成——即独特的集成电路。

半导体占领先人工智能服务器机架内容价值的 95% 以上,并且占构建和运营人工智能数据中心所需总资本支出的 50% 以上。

2. 人工智能需要全套半导体技术。

为了运行复杂的人工智能训练和推理工作负载,如今的人工智能数据中心需要大量的计算、存储和内存带宽、电力分配以及网络能力——所有这些都由全套芯片技术提供。每一种芯片技术对于推动美国的人工智能建设都至关重要,而任何一个领域的关键依赖性问题都可能阻碍这一建设进程。人工智能数据中心中的芯片包括:

高级逻辑芯片,例如人工智能加速器、专用集成电路 (ASIC)、现场可编程门阵列 (FPGA)、中央处理器 (CPU)、数据处理单元 (DPU) 和网络芯片。

内存,例如高带宽内存 (HBM)、动态和静态随机存取存储器 (DRAM 和 SRAM) 以及非易失性闪存 (NAND)。

模拟和基础芯片,例如电源芯片、收发器、控制器和传感器。

3. 人工智能是整个半导体行业芯片需求的主要驱动力。

在正反馈循环中,人工智能的进步推动了对性能和效率更高的半导体的需求,而半导体技术的进步又使更强大、更先进的人工智能系统成为可能。

为了满足全球对新型人工智能应用的需求,政府和行业将在2028年前投资超过4万亿美元用于新建数据中心基础设施,其中高达2.8万亿美元将用于半导体。

到2028年,部署在人工智能数据中心的半导体年收入可能超过1.2万亿美元,四年内增长近十倍。

人工智能数据中心市场正经历前所未有的增长,预计2022年至2028年的复合年增长率(CAGR)将达到88.8%。虽然最初的增长势头是由生成式人工智能的快速普及推动的,但持续的需求依然强劲,预计2025年至2028年的复合年增长率将达到56.3%。

整个半导体供应链支撑着人工智能基础设施的构建。没有半导体,就没有人工智能。为了引领这项变革性技术,政府和产业界必须携手合作,推进相关政策,加速芯片技术领域的全面发展和创新,并与全球合作伙伴紧密协作,构建强大且富有韧性的供应链。

人工智能核心的众多芯片

近年来,人工智能 (AI) 经历了爆炸式增长,训练和部署 AI 模型的人员备受关注。种类繁多的半导体是 AI 硬件堆栈的骨干和使能技术,芯片技术的进步推动了 AI 应用的处理能力、计算效率和整体性能的提升。半导体是嵌入日常数字体验中的 AI 系统的基础。

本报告通过对最先进的 AI 数据服务器(现代 AI 基础设施的基础单元)进行虚拟拆解,从独特的视角深入剖析了构成 AI 基础设施核心的各种芯片。与仅停留在系统级性能或市场规模的传统分析不同,本报告深入研究了服务器中每个子系统内部的半导体组件,绘制了驱动当今数据中心的芯片、晶粒和支持组件的分布图。

我们进一步补充这项分析,重点关注这些服务器系统中价值的集中之处,以及哪些技术至关重要,从基于领先工艺节点构建的尖端逻辑,到成熟的节点组件——例如电源管理集成电路 (PMIC)、电子可擦可编程只读存储器 (EEPROM)、化合物半导体和微控制器——所有这些都对人工智能系统和基础设施的功能至关重要。

芯片创新推动人工智能发展

尽管人工智能看似是现代才出现的技术,但其基础却可以追溯到数十年来尖端计算能力的进步。然而,当时的硬件限制最终制约了人工智能的功能。

过去几年,逻辑、内存、网络、电源和散热等方面的规模和复杂性不断提高,为高性能人工智能系统的广泛部署铺平了道路。

这些技术进步加速了人工智能数据中心的兴起。传统数据中心已存在数十年,用于管理企业IT运营、网站托管和存储,而现代人工智能数据中心则代表着一项根本性的能力专精,而非渐进式的演进。每个人工智能数据中心服务器机架都集成了一系列复杂的先进半导体器件,这些器件经过精心设计,旨在支持并行处理、数据邻近性和可扩展性。一个人工智能服务器机架由大约20,000个独立的半导体芯片组成,这些芯片被封装在超过4,500个芯片中。这些芯片包括提供高吞吐量计算的逻辑处理器、超低延迟内存子系统、电源管理单元和网络组件。

半导体约占主流人工智能服务器机架内容价值的95%。人工智能数据中心中的每个服务器机架包含超过4500个芯片,而这些芯片又由大约2万个独立的半导体芯片组成。一个主流数据中心可以容纳超过4500万个芯片。

随着各行各业的组织竞相部署人工智能驱动的解决方案,对人工智能数据中心容量以及由此延伸出的先进半导体的需求也呈爆炸式增长。这种需求激增的影响波及整个半导体价值链。

芯片设计人员面临着缩短创新周期的压力,需要更频繁地发布新一代尖端器件。与此同时,制造商必须进行重大的制造技术升级,以满足人工智能工作负载对性能的飞跃式提升。这些工作负载正在突破前几代硬件的极限,暴露出架构优化、散热以及跨大型系统数据传输方面的关键问题。为了应对这些挑战,芯片制造商正在协同设计硬件和软件,并致力于更紧密地集成内存和计算能力,从而开发出能够实现高密度、高带宽配置的创新封装技术。

这是半导体和人工智能之间自我强化的创新循环:半导体技术和人工智能系统的进步催生了一个日益复杂的开发者生态系统,而这反过来又需要功能日益强大的人工智能系统和半导体技术。随着开发者生态系统的日益复杂,人工智能模型规模不断扩大,需要更多的数据、更快的处理速度、更紧密的系统间协调以及更多的计算,从而不断挑战现有芯片和系统的承载能力。这导致了半导体设计向高度专业化方向的转变,包括更高效、性能更强的处理器、更专业的内存堆栈以及能够支持分布式人工智能工作负载的高速互连。事实上,半导体设计人员和制造商正越来越多地利用人工智能方法来推进下一代产品的研发。

在本报告中,我们频繁提及两种主要的AI工作负载——训练和推理,它们代表了AI计算的不同阶段,并影响着芯片的设计方式。让我们通过一个简单的例子来更清楚地理解这两种工作负载:

训练是指通过向模型展示海量数据集来训练模型的过程。例如,要构建一个猫识别模型,可能需要向神经网络展示数千张猫和非猫的图像。通过反复展示,模型可以学习识别诸如耳朵、胡须或体型等模式,从而将猫与其他物体区分开来。

推理是将训练好的模型应用于新的、未见过的数据。继续以猫为例,一旦模型训练完成,它就可以生成一张新的猫的图像。

简而言之,训练是模型学习的过程,而推理是模型如何将所学知识应用于现实世界,例如生成查询响应、进行预测或识别模式。

半导体人工智能芯片分类

AI 服务器机架依赖于多种半导体技术协同工作,每一种技术都经过专门设计,以满足现代 AI 工作负载的苛刻要求(图 3)。

每台服务器内部都包含许多专用芯片,其中包括用于执行运行复杂人工智能训练和推理模型所需并行处理的人工智能加速器。这些芯片同时执行数十亿次运算,从而高效处理海量信息。

内存半导体是支撑这一计算层的关键,它们能够实现快速可靠的数据访问。随着人工智能模型规模的扩大,系统数据量也急剧增长。高性能内存有助于确保处理器持续加载数据,避免瓶颈,并保持系统响应速度。内存和逻辑针对人工智能任务的专用化设计,对于下一代人工智能系统设计而言日益重要。

大量的电源和网络半导体能够实现高效的能源输送,并在人工智能服务器内部以及系统之间实现无缝互连。人工智能服务器使用许多芯片同时运行,每个芯片都与其他芯片紧密协调,因此对电源、数据和计算资源进行快速可靠的管理至关重要。同时,分布式人工智能工作负载依赖于节点之间快速、低延迟的通信,因此网络半导体对于协调互连服务器组之间的计算至关重要。

人工智能硬件堆栈详解,人工智能数据服务器中的芯片

如下一节所述,对人工智能服务器机架硬件进行拆解,会发现其是一个高度模块化、垂直集成的系统。它由服务器内每个子系统中数万个相互依存的半导体组件构成,从CPU和加速器到信号调理芯片、电源调节器、内存芯片和控制逻辑,无一例外。

服务器机架包含一组协调的托盘(tray),每个托盘都旨在提供特定的功能。每个托盘(或子系统)都包含半导体和支持电子元件的组合——这些元件都加载了半导体组件——它们协同工作,为人工智能工作负载提供所需的吞吐量、能源效率和可靠性。理解这种分层架构是理解支撑它的半导体供应链战略重要性的关键。随着人工智能的不断扩展,确保、设计和集成这些组件的能力将与计算本身同等重要。

通常,现代数据中心中的人工智能数据服务器机架由五种类型的托盘组成,分别是:1) 计算托盘,2) 电源托盘,3) 网络和智能平台管理接口 (IPMI:intelligent platform management interface) 托盘,4) 人工智能加速器互连托盘,以及 5) 冷却剂分配单元 (CDU) 托盘。每个托盘都容纳着不同的半导体组件,这些组件发挥着关键作用。服务器机架中各个托盘的具体组成会因数据中心而异,这种差异取决于原始设备制造商 (OEM) 的选择、尺寸、布局、电源供应以及数据中心的建设者和/或运营商。

本报告逐个托盘地分析了通用人工智能数据服务器中的半导体组件。

从人工智能加速器到各个电压调节器,系统中的每个组件都对确保大规模下的性能、效率和可靠性起着至关重要的作用。

计算托盘

计算托盘是人工智能服务器机架的核心,提供人工智能工作负载所需的主要处理逻辑。每个计算托盘通常包含一个或多个计算板卡、用于存储的非易失性内存高速接口 (NVMe) 固态硬盘 (SSD)、用于连接的网络接口卡 (NIC)、用于将数据组织成独立处理单元的数据处理单元 (DPU) 以及电源分配单元 (PDU)。该托盘承载着服务器机架中最昂贵、最先进且最集中的半导体组件,因为它直接决定了每瓦性能和人工智能工作负载吞吐量。

1.计算机板

每个计算托盘包含一到两块计算板,用于协调和执行人工智能 (AI) 计算。每块计算板都作为计算托盘内的高密度处理模块。它通常将一个或多个高性能 AI 加速器与通用 CPU 集成在一起,并通过高带宽互连紧密耦合,并由本地随机存取存储器 (RAM) 提供支持。计算板的设计兼顾并行性、散热效率和信号完整性。

A.AI加速器

人工智能加速器是一个涵盖图形处理器 (GPU)、现场可编程门阵列 (FPGA) 和专用集成电路 (ASIC) 的总称,它们是专门设计的半导体硬件,旨在通过优化计算密集型操作来加速人工智能工作负载,这些操作原本会使通用处理器不堪重负。这些加速器在人工智能数据中心的大规模训练和推理中占据主导地位,在这些数据中心,最大化吞吐量和性能是首要任务。在边缘端,一种新型加速器应运而生:神经处理单元 (NPU)。NPU 专为以卓越的能效执行神经网络工作负载而设计,能够优化对推理至关重要的矩阵和张量运算。

尽管如上所示,存在多种人工智能加速器架构,但GPU(图形处理器)仍然是目前市场上最相关、应用最广泛的人工智能训练和高性能推理平台。它是现代人工智能基础设施的计算核心。GPU架构最初设计用于图形渲染,但它具备极强的并行处理能力,能够处理数十亿次计算。与其他现代人工智能加速器一样,它们集成了采用尖端工艺(7纳米)制造的逻辑芯片和HBM堆叠,从而实现了实时人工智能应用和大型语言模型处理所需的高速数据吞吐量。

这些人工智能加速器依赖于先进的封装技术,例如与高带宽内存(HBM)的2.5D集成,以及新兴的3D封装方法,这些技术远远超越了传统的封装方式——传统的封装方式只是将单个芯片封装在一个封装中。与传统封装方法不同,先进封装技术将多个芯片和内存紧密集成,从而最大限度地提高带宽、降低延迟并提升能效,这对于驱动人工智能数据中心工作负载至关重要。值得注意的是,这些人工智能加速器本身由主动和被动子组件构成。图 7 提供了这些子组件的通用物料清单 (BOM) 分解图。

B.高带宽内存(HBM)

HBM(图 6 中的组件 B)是一种动态随机存取存储器 (DRAM),封装在 AI 加速器中,旨在提供现代 AI 加速器所需的极快且高效的内存性能。与系统内存不同,HBM 使用垂直电连接(即硅通孔或“TSV”)垂直堆叠内存层,从而提高与逻辑处理器之间数据传输的速度、能效和可扩展性。HBM 在 AI 加速器中与逻辑芯片的物理距离很近,并且其强大的并行访问能力可以缓解内存瓶颈,否则内存瓶颈会限制 AI 模型的性能,尤其对于需要快速访问数十亿个参数的大型语言模型而言。HBM 通常用于训练大规模 AI 模型和处理高吞吐量推理工作负载,在这些工作负载中,内存带宽直接影响用户体验和运行效率。然而,并非所有 AI 系统都需要 HBM。许多 AI 芯片,尤其是那些针对成本敏感型、延迟容忍型或较窄推理工作负载进行优化的芯片,依赖于封装内 DDR、LPDDR 或更大的片上 SRAM 等替代内存架构,以平衡性能、功耗和系统成本。

VRM 和被动元件:电压调节模块 (VRM) 和被动元件(电容器、电感器、扼流圈、电阻器)是 AI 服务器硬件中默默无闻的幕后功臣。VRM 本身并非单个芯片,而是一个小型电源子系统,通常由多相控制器驱动功率级,功率级由 MOSFET 组成,MOSFET 又驱动驱动电路、电感器和电容器。它们共同将机架级电压降至 GPU、CPU 和内存所需的精确的 1V 以下电压。每个加速板可以容纳数十个 VRM 和数百个配套的被动元件,而整个 AI 服务器机架上的这些元件数量可达数千个。虽然单个元件价格低廉且已基本实现商品化,但它们对于在 AI 工作负载极端且快速变化的需求下维持稳定、高效的电源供应至关重要。

C.中央处理单元

中央处理器(图 6 中的组件 C)作为 AI 服务器中的协调器和通用计算引擎,负责数据准备(数据预处理和后处理)、协调工作负载执行以及管理整体系统控制。CPU 逻辑芯片基于先进或当前一代的节点构建,具体取决于性能和成本目标。在 AI 基础设施中,CPU 对于数据摄取、模型服务协调以及运行支持 AI 工作负载的操作系统和框架至关重要。现代服务器 CPU 采用多芯片模块封装 (MDM),将多个半导体芯片与大型缓存层次结构相结合,从而支持分布式 AI 训练和推理操作的任务调度和内存管理。

D.系统内存/随机存取存储器

系统内存/随机存取存储器(图 6 中的组件 D)为 AI 服务器提供主要的数据暂存和缓冲能力,作为永久存储单元和处理单元之间的高容量、高速存储层。系统内存/RAM 由动态随机存取存储器芯片构成,这些芯片排列在双列直插式内存模块 (DIMM) 上,或直接焊接在主板上。系统内存的容量和带宽直接影响 AI 数据服务器可以同时处理的数据集大小以及服务器可以支持的并发 AI 工作负载数量,因此它是决定系统整体吞吐量和成本效益的关键因素。

架构权衡:串行计算、并行计算与可重构计算

CPU 和 AI 加速器的主要区别在于它们的处理架构。CPU 针对串行处理进行了优化,能够以低延迟顺序执行少量复杂任务。CPU 可以处理小型、基础、低参数 AI 模型的推理,而无需专用加速器,因此足以满足对延迟和规模要求不高的基础 AI 任务。而 AI 加速器则专为大规模并行处理而构建,能够同时处理数千个更简单的操作。这使得 AI 加速器每秒的计算量比 CPU 高 10 到 100 倍,并实现更高的数据处理吞吐量,使其在 AI 训练和推理等涉及大规模矩阵运算的工作负载中尤为高效。因此,AI 加速器已成为 AI 数据中心的首选计算引擎。

直到 2015 年,高端 GPU 还主要用于游戏机,而非数据中心。当时,大多数数据中心任务都由 CPU 处理——串行处理器一次只能执行一个任务。 2016年,研究人员发现用于游戏的GPU由于其并行性,能够高效运行机器学习模型。随后,数据中心开始采用针对人工智能优化的GPU,但市场规模仍然有限。2022年,大型语言模型(LLM)在生成式人工智能领域的出现,推动了对更专业的人工智能加速硬件的需求,这些硬件通常与高带宽内存(HBM)配合使用。这些硬件依赖于数据中心级或服务器级CPU,其架构与标准CPU类似但又有所区别,以及其他关键组件,例如扩展的I/O通道、增强的内存带宽和高速互连支持。到2025年,全球排名前500的超级计算机几乎都采用了这种人工智能加速器、HBM和CPU的组合。实际上,如今的超大规模人工智能数据中心是专门建造的超级计算机,旨在大规模训练和运行人工智能。

现场可编程门阵列 (FPGA) 是一种可重构半导体器件,可在制造完成后进行编程,以执行各种逻辑运算。与具有固定指令集和执行架构的 CPU 和 AI 加速器不同,FPGA 由灵活的逻辑块矩阵和高速互连组成,可通过硬件描述语言重新连接以适应特定的工作负载。这种可编程性使 FPGA 能够为特定任务提供高度定制化的加速,而无需像设计定制 ASIC 那样的前期成本或开发周期。

FPGA 在 AI 基础设施中扮演着适应性强的加速器的角色,占据着一个对低延迟、确定性执行和接口灵活性要求极高的特定领域。与其他擅长大规模并行矩阵运算的 AI 加速器或管理通用控制任务的 CPU 不同,FPGA 的价值在于其针对特定工作负载的加速能力,尤其擅长推理。它们优化数据路径,减少输入输出瓶颈,并与各种传感器和网络协议无缝集成,因此非常适合边缘人工智能、电信和专业数据中心等应用场景,在这些场景中,可配置性和每瓦性能至关重要。

FPGA 与人工智能数据中心中的其他人工智能加速器互补,在专业推理领域创造价值。

E.非易失性存储器高速存储

非易失性存储器高速固态硬盘(图 6 中的组件 E)存储结构化和非结构化数据,以支持现代 AI 工作负载。NVMe 利用 PCIe 接口和针对并行性优化的精简命令集,实现超低延迟和极高的吞吐量,从而能够快速摄取大型数据集、快速模型检查点和无缝推理模型加载。这些功能消除了可能阻碍 AI 加速器利用率的 I/O 瓶颈,使 NVMe 存储成为端到端 AI 流水线效率的核心推动因素。NVMe SSD 在大型训练数据集的暂存中发挥着关键作用。在以推理为中心的系统中,这些存储驱动器通常充当模型缓存,按需向内存提供大型模型,以减少冷启动延迟。除了 AI 加速器和 CPU 等逻辑组件之外,存储组件也由多个子组件组成,如表 4 中典型的 NVMe SSD 的物料清单 (BOM) 分解所示。

F.数据处理单元

数据处理单元(图 6 中的组件 F)是一种专用的可编程基础设施处理器,可将非计算任务从 AI 数据中心的 CPU 和 AI 加速器卸载。它运行于网络、存储和安全交叉领域,充当控制器和数据路径使能器,以实现高效的资源编排。在以 AI 为中心的工作负载中,海量数据集在 AI 加速器之间进行流式传输和混洗,DPU 可优化网络数据流(东西向流量),处理诸如隔离工作负载之类的安全任务,并收集实时系统数据。

现代分布式处理单元 (DPU) 在提升人工智能基础设施的灵活性方面发挥着关键作用,它允许通过软件动态分配和重新配置计算、存储和网络资源。与人工智能加速器类似,DPU 也由其他半导体组件构成(表 5)。

G.网络接口卡

现代人工智能工作负载需要海量带宽。网络接口卡(图 6 中的组件 G)可实现高速互连,这对于分布式人工智能训练和推理服务至关重要,支持服务器机架、计算托盘和存储系统之间 TB 级数据传输。具备远程直接内存访问 (RDMA) 和硬件加速网络协议等高级功能的网卡可最大限度地减少通信开销和延迟,从而直接提高大规模人工智能部署中的训练效率和推理响应时间。核心半导体组件包括一个网络控制器专用集成电路 (ASIC) 以及用于信号完整性和时钟/数据恢复的模拟物理链路 (PHY) 芯片。网络 ASIC 分为两种类型:纵向扩展型,用于在系统内实现低延迟数据传输;横向扩展型,用于在更大的分布式系统之间实现连接和协调。这些芯片通常封装有板载内存缓冲区,以支持拥塞控制和数据包排队(表 6)。

H.配电单元

在先进的AI计算托盘中,电源分配单元(图6中的组件H)将高压输入电源转换并分配到CPU、AI加速器、内存和其他子系统所需的精确低压电源轨。在先进的AI计算托盘中,PDU接收机架级48V或更高的电压,并向具有高瞬态负载的高密度组件提供严格调节的电压,通常低于1V。其内部包含多个数字和模拟半导体组件,包括电源管理IC、电压调节模块(VRM)、集成场效应晶体管(FET)和微控制器。这些芯片通常采用当前或更成熟的工艺节点制造,以确保其耐用性和热稳定性。

随着人工智能数据中心对电力需求的不断增长,负责管理和转换电力的芯片也在不断发展,以实现更高的效率。化合物半导体,例如氮化镓 (GaN) 和碳化硅 (SiC) 等,由于能够以更低的能量损耗和发热量处理更高的电压,因此在电源管理系统中的应用日益广泛。此外,人工智能数据中心很可能会从目前高压交流电与 48V 直流电混合供电的模式,转向拟议的 400V 直流供电模式,这将带来诸多效率提升。甚至还有一些计划在不久的将来采用 800V 高压直流 (HVDC) 架构,以支持单个机架需要 1 MW(即 1000 kW)功率的机架,而目前最强大的机架的功率需求仅为 100-120 kW。

化合物半导体,超越硅

化合物半导体代表了材料科学的战略性演进,拓展了性能范围,弥补了硅材料性能接近物理极限的不足。氮化镓 (GaN)、碳化硅 (SiC)、砷化镓 (GaAs) 和磷化铟 (InP) 等材料具有宽带隙、高电子迁移率和优异的导热性等特性,这些特性对于下一代数据中心扩展和光技术至关重要。这些进步使得器件能够在更高的电压、频率和温度下运行,从而减小支撑基础设施的尺寸和冷却需求。

加速器互连托盘

加速器互连托盘创建了一个统一的高性能计算架构,使AI服务器内的AI加速器能够作为一个整体运行。该托盘包含高带宽交换机专用集成电路(ASIC)、电源分配模块和信号调理有源铜缆(ACC)芯片,这些芯片协调服务器机架中数十个AI加速器之间的无缝通信(图10)。这使得它们能够共享内存、同步计算,并共同处理超出单个加速器能力的大规模AI工作负载(表8)。

A. 交换机专用集成电路 (ASIC)

交换机 ASIC(图 10 中的组件 A)支持服务器机架内或跨机架的多个 AI 加速器之间进行高速、低延迟通信。其性能直接影响 AI 工作负载的可扩展性和效率,尤其是在 LLM 训练和其他需要跨多个加速器同步处理的计算密集型应用中。

B. 电源分配模块

加速器互连托盘内的电源分配模块(图 10 中的组件 B)负责管理向交换机 ASIC 和互连组件的局部高电流供电,并在整个服务器机架内聚合和重新分配电源。该模块内部集成了电源芯片,用于向托盘分配和调节电源。

C. 有源铜缆芯片

ACC 芯片(图 10 中的组件 C)是一种紧凑型模拟信号调理集成电路,嵌入在 ACC 的两端,支持跨托盘或机架的高速短距离(最远 5 米)通信。

D. 背板连接器

背板连接器(图 10 中的组件 D)是连接计算托盘上多个 AI 加速器的主要枢纽。背板连接器是将加速器互连托盘和其他模块连接到背板的物理接口。背板连接器是机电元件,而非半导体器件,但鉴于其在系统互连中的作用,此处仍保留以保证完整性。

电源托盘

电源托盘是人工智能服务器机架的电气基础,负责转换、调节和分配电源至机架内的所有系统组件。该托盘容纳了主电源单元 (PSU),这些单元必须可靠地提供数千瓦的功率负载,同时保持高效率并提供实时监控功能。电源托盘内的关键半导体组件包括:桥式整流器,用于转换电流;功率因数校正 (PFC) 控制器 IC,用于优化输入电源的质量和效率;以及功率晶体管(通常基于氮化镓),用于快速切换和调节电压转换以实现高效率。

与位于计算托盘上或附近、负责局部电压调节和向计算托盘上各个组件精细化电流输送的PDU不同,电源托盘在系统级运行,负责整个服务器机架的大功率转换和智能电源协调。这些电源组件共同构成了一个分层式电源输送网络,专为高密度、高可靠性的计算环境而设计(图11)。

在电源托盘内,电源单元 (PSU) 用作 AI 服务器的主要电源转换和调节系统,将数据中心基础设施的高压交流电转换为服务器组件所需的多个直流电压轨(表 9)。

A. 电源管理模块 (PSMM)

电源管理模块(图 11 中的组件 A)充当 AI 服务器内部电源分配和监控的智能协调器。PSMM 系统通过在必要时限制功率来防止过热,平衡服务器不同部分的电力,并通过持续监控电源质量来支持主动维护。为此,PSMM 集成了一系列芯片,包括智能微控制器、本地电源电压调节器、远程访问功能(以太网 PHY)和传感器,它们协同工作,以确保服务器高效运行并最大限度地减少停机时间。

B. 电源单元 (PSU)

在电源托盘内,PSU 作为 AI 服务器的主要电源转换和调节系统,将来自数据中心基础设施的高压交流电转换为服务器组件所需的多个直流电压轨(表 9)。

网络和智能平台管理接口托盘

网络和智能平台管理接口(IPMI)托盘基于半导体组件构建,可为人工智能服务器操作提供安全、可扩展的控制和连接。该托盘中的关键半导体包括基板管理控制器、硬件安全芯片、本地存储器和高速网络交换机(图 12)。

A.底板管理卡(BMC)

基板管理卡(图 12 中的组件 A)可实现远程电源循环、硬件健康监控和系统配置,而不会中断正在运行的 AI 工作负载(表 10)。

B. 现场可更换单元

现场可更换单元电可擦可编程只读存储器 (FRU EEPROM)(图 12 中的组件 B)充当服务器组件的数字“铭牌”,存储诸如标识、配置和服务历史记录等重要信息。这使得数据中心能够轻松地自动跟踪、管理和维护硬件。

C. 带外 (OOB:Out-of-band) 交换机

带外 (OOB) 交换机(图 12 中的组件 C)使用专用半导体芯片为服务器管理任务创建一个独立的网络。这些交换机(由网络处理器和微控制器驱动)有助于维持对服务器的可靠监控和控制,即使在系统负载较高的情况下也是如此。这种隔离得益于 OOB 交换机内部先进的网络半导体,这些半导体确保管理员能够安全、不间断地访问网络。

D.带内(IB:In-band )开关

带内交换机(图 12 中的组件 D)通过支持 400G/800G 以太网或 InfiniBand 等高级网络协议,管理 AI 数据中心内计算节点和存储系统之间的高速数据流量。带内交换机确保可扩展的同步通信,这对于跨多机架 AI 集群的训练和推理至关重要。

E.可信平台模块 (TPM:Trusted platform module)

可信平台模块(图 12 中的组件 E)为 AI 服务器提供基于硬件的安全基础,包括安全启动功能、加密密钥存储和硬件认证服务。TPM 也称为安全模块。在处理敏感数据或专有模型的 AI 环境中,TPM 模块通过提供防篡改的安全锚点来确保系统完整性并实现安全的多租户操作。这些功能支撑着新兴的机密计算架构,在该架构中,数据和模型不仅在静态和传输过程中受到保护,而且在执行过程中也受到保护,这得益于 CPU 和加速器中硬件强制执行的隔离和加密。虽然机密计算尚未成为 AI 训练或推理的默认选择,但随着标准和平台支持的不断成熟,其应用正在不断增加,尤其是在受监管或多租户环境中的推理工作负载方面。

(a)共封装光器件互连

随着人工智能模型日益复杂,庞大的加速器集群必须协同工作,才能开发出拥有数十亿参数的前沿模型。同样,基于智能体人工智能的推理解决方案也需要越来越大的集群规模来部署多个可同时运行的智能体。为了满足这种对计算和内存的无限需求,数据中心正在部署高速可扩展网络,以在单个计算单元或集群内提供高带宽连接。

迄今为止,这些计算集群一直依赖电信号传输数据。然而,随着带宽需求的增加和集群规模的扩大,电信号连接越来越难以满足这些网络的传输距离和带宽需求。高速电信号的信号质量会随着网络规模和距离的增加而显著下降。光学器件,特别是共封装光学器件,为实现更高带宽和更高能效的可扩展网络提供了一条途径。共封装光学技术利用了过去十年芯片技术取得的进步,将硅光子解决方案集成到加速器和开关封装上。通过将光链路放置在靠近加速器的位置,它们提供了一种节能的解决方案。

尽管取得了这些进步,共封装光学解决方案的实施仍然面临一些挑战。CMOS工艺技术和供应链已经相当成熟,但光学技术仍处于早期应用阶段。建立光通信标准协议对于构建生态系统合作伙伴可以轻松访问的供应链至关重要。诸如激光模块(光引擎的光源)和可插拔光纤模块等标准组件对于将光学技术从实验室规模扩展到大规模生产至关重要。

(b)热机械集成

下一阶段的人工智能基础设施将受到热通量、机械翘曲、界面稳定性以及组装/制造工艺等诸多因素的制约,其重要性不亚于计算能力。在人工智能/高性能计算(AI/HPC)领域,封装面积预计将达到约9000-10000平方毫米,芯片面积预计将达到约4000-5000平方毫米,而平均加速器芯片功率预计将在未来十年内超过约5000瓦,这意味着即使硅片尺寸缩小,有效功率密度也至少要翻一番。这些因素使得在封装和系统级组装过程中,对导热界面材料(TIM)在实际平面度/曲率、夹紧载荷极限以及循环可靠性(硅片开裂、分层、互连疲劳)方面的表现更加敏感,因此,封装-保持-冷板的协同设计成为一项战略性要求。

与此同时,随着人工智能工厂和数据中心从风冷转向液冷(到2035年,风冷将下降至约65%,液冷将上升至约30%,其他冷却方式如两相制冷剂冷却约占5%),关键问题在于如何在不过度限制机械结构的前提下,维持液界面低而稳定的热阻。现场实际情况也至关重要:随着人工智能部署规模的扩大,可返工性和可维护性对正常运行时间和总成本的影响日益显著。

展望未来,随着晶圆级系统/面板级系统概念的出现,热机械设计将迎来一个转折点。在这些概念中,模块/托盘级功率有望突破25千瓦级别,而更深层次的光子集成将降低延迟,从而对热稳定性和机械对准提出更严格的要求。最终的赢家将是那些将热系统视为机械使能系统的架构:针对OSAT/EMS规模的可制造性进行设计,通过相关测试验证,经受任务剖面循环的考验,并针对高效的现场维护进行优化。

冷却液分配单元托盘

冷却液分配单元 (CDU) 托盘用于管理高性能 AI 服务器的机架级液冷。由于现代 AI 加速器和 AI 工作负载中的 CPU 产生的热负荷远高于传统服务器,仅靠风冷已不足以满足需求。CDU 通过在连接到 CPU、AI 加速器和内存模块上的冷板的闭环系统中循环液冷液,确保可靠的散热管理。这不仅可以防止过热降频,还能在密集配置下实现更高的持续计算性能。

这些托盘中的各种泵、传感器、电路控制阀和电源单元均由半导体驱动。例如,CDU 控制器板配备嵌入式逻辑半导体,可管理流量、监测压力和温度,并调节泵速和阀门位置,从而实现精确的温度控制。以太网接口包含半导体芯片(PHY 和 MAC 控制器),可转换信号并管理数据包,从而实现远程监控;而本地 LCD 显示屏则提供实时诊断和运行状态信息(图 13)。

芯片如何协同工作,以执行人工智能训练工作流程

大规模训练人工智能模型需要一个紧密协调的专用芯片系统,每个芯片都针对工作流程中的特定角色进行了优化。图 14 展示了 CPU、AI 加速器高带宽内存 (HBM)、非易失性存储和光互连如何协同工作,以管理并行工作负载、同步节点间的计算,并最终交付一个可供部署的完全训练模型。

AI 模型训练始于数据摄取,该过程由数据处理单元 (DPU) 负责,这些 DPU 作为协调器,负责将可扩展的 Web 数据导入系统。数据摄取完成后,将被写入 NVMe SSD,这些 SSD 针对检查点机制进行了优化,并可同时为多个加速器提供数据。这种架构能够实现快速吞吐量并降低训练期间的延迟,尤其是在与 GPUDirect 等技术结合使用时,GPUDirect 允许从存储设备直接访问 AI 加速器内存,从而完全绕过 CPU。

DPU 还以线速对数据进行预处理,在数据直接传递给计算单元之前对其进行解析和格式化。这最大限度地减少了 CPU 的工作负载,并确保 AI 加速器接收到干净、结构化的数据用于训练。集成 SmartNIC 的 DPU 可以同时支持存储卸载、网络加速和协议处理,从而在降低功耗的同时实现更高的可扩展性。一旦数据到达 AI 加速器集群,训练就会通过数千个核心上的高度并行计算来加速,HBM 则支持跨分布式节点管理庞大的模型权重和激活值。

同时,CPU 负责协调训练工作负载,管理同步、内存协调和任务分配。它们处理控制流逻辑并卸载激活值以平衡内存利用率,从而支持更大的模型和更大的批处理规模。利用互连技术,AI 加速器可以高速交换模型状态和中间激活值,从而允许在多个设备上高效地迭代训练大规模模型。训练完成后,CPU 会汇总输出并完成模型组装,使其准备好进行下游部署。

人工智能增长曲线:市场观点

人工智能的普及应用正在迅速增长,这推动了对支撑这些工作负载的数据中心所需半导体的需求不断增长。预计到2028年,部署在人工智能数据中心的半导体收入将超过1.2万亿美元,五年内增长近十倍(图15)。数据中心逻辑芯片(主要是人工智能加速器)的市场规模在2022年约为300亿美元,到2024年增长至700亿美元,世界半导体行业协会(WSTS)预测,到2026年将达到1900亿美元。

不同的AI应用需要不同的计算基础设施,这对半导体硬件的设计和部署有着重要影响。虽然数据中心对半导体的需求主要来自AI模型开发的训练,但推理(例如,将训练好的模型应用于实际场景)的市场也在不断增长。

训练和推理是两种不同的计算任务。AI模型训练是指数据中心处理海量数据集以学习模式并理解复杂的现实世界变量,这需要具有强大计算能力的半导体。专为AI训练设计的芯片能够提供极高的并行性并支持巨大的内存带宽,使模型能够调整其内部参数数百万次甚至数十亿次,直到能够做出准确的预测或建议。这需要具有先进互连、高密度晶体管布局和高速内存层次结构的硬件。

训练工作负载呈阶段性且效率不断提高,这将导致对特定训练芯片的需求趋于平缓。模型架构和训练技术的进步减少了训练大型模型所需的时间和计算资源。此外,预训练基础模型的可用性进一步降低了对大规模训练运行的需求。

训练完成后,模型即可部署用于推理——执行实际任务、生成查询响应、进行预测或识别模式。推理可以在数据中心(通常称为“云端”)或设备上(称为“边缘”)进行(例如,在人工智能电脑、智能手机、车辆或工厂系统内部)。在数据中心,推理芯片针对吞吐量和延迟进行了优化,利用高效计算在毫秒级内执行操作。在边缘,设备端人工智能加速芯片优先考虑低延迟、小尺寸和能效,从而实现无需持续服务器通信的本地决策。鉴于人工智能训练与推理工作负载的独特特性,数据中心运营商越来越多地选择垂直定制的专用集成电路 (ASIC) 来优化性能和效率提升。

预计推理工作负载将成为人工智能相关芯片需求的主要驱动力。随着消费者对生成式人工智能工具的使用、企业采用以及嵌入式人工智能代理在应用程序中的兴起,对推理计算的需求也在不断增长。与超大规模训练集群不同,边缘人工智能部署的资源消耗要低得多,它依赖于更小巧、更节能且针对推理优化的芯片。不断增长的推理工作负载预示着对定制化、节能型芯片的需求日益增长:包括针对吞吐量优化的人工智能加速器、专用推理ASIC/FPGA、针对延迟敏感型任务调优的CPU以及相关的内存和网络芯片。

尽管训练和推理工作负载的工作负载特性不同,但它们目前运行在相同的硬件组件上。也就是说,芯片制造商正在设计专门用于推理工作负载的产品,以满足对更高效率或高吞吐量的需求。

随着产品差异化的不断推进,行业可能会看到训练专用硬件和推理专用硬件之间更加明显的分化。

训练芯片可能会专注于最大化并行计算,而推理芯片则会朝着超低延迟、高能效的设计方向发展。行业预测表明,未来几年推理工作负载的收入将增长数倍,而训练收入预计将趋于平缓。例如,波士顿咨询集团 (BCG) 估计,2023 年至 2028 年,训练的复合年增长率将达到 30%。相比之下,同期推理的增长率将达到 122%。为了更好地理解这一转变,行业专家预测,推理在总需求中的份额将从 2024 年的 20% 增长到 2032 年的 80%。

人工智能有望在本十年末推动半导体行业的大部分增长。麦肯锡预测,到 2030 年,半导体行业的年收入将达到 1.6 万亿美元,这主要得益于人工智能和数据中心的发展。2025-2026 年半导体市场规模为 7917 亿美元,因此,人工智能在未来几年可能占到该行业增长的 40% 以上。

大笔支出,半导体含量价值分析

为了满足全球人工智能需求,预计从2023年到2030年的八年间,将累计投资4万亿美元用于建设人工智能数据中心,其中高达2.8万亿美元预计将用于人工智能服务器所需的半导体和其他硬件。在典型的人工智能数据中心中,大部分资本支出都集中在计算基础设施上,占人工智能数据中心总资本支出的50%以上。这笔投资主要集中在人工智能服务器机架上,这是一种模块化的高价值系统,每个机架的成本在150万美元到400万美元之间,专为满足人工智能工作负载的独特需求而设计。一个领先的数据中心最多可以容纳1万个机架。

为了进一步了解这项投资在半导体价值链中的位置,我们分析了标准工业级人工智能服务器中的半导体含量,以及这些含量如何转化为全球半导体供应链中的经济价值。 (注:图 16 基于一个价值在 150 万美元至 400 万美元之间的 AI 数据中心机架。所示百分比代表该机架内各组件价值的大致占比。)

对于现代领先的 AI 服务器机架而言,约 95% 的价值体现在半导体上。在组件层面,AI 加速器占据了 AI 数据服务器机架中超过 70% 的半导体价值。每个 GPU 模块都封装了一个或多个大型领先节点逻辑芯片、HBM 内存堆栈、中介层和专用互连,这些都构成了整体价值。CPU 作为架构中的关键组件,占 8%,DPU 则贡献了另外 2%。

总体而言,逻辑芯片占服务器机架中半导体价值的 65%,服务器机架还包括 AI 加速器、CPU、DPU、网卡控制器、BMC 和 ASIC。

存储和内存半导体占机架半导体总价值的20%以上,包括集成在各种服务器托盘中的HBM、DRAM和NAND闪存器件。这些数据反映了现代人工智能工作负载的架构特性:庞大的矩阵、分布式模型和大型训练集,不仅需要强大的计算能力,还需要极高的内存带宽和低延迟的数据访问。

整个人工智能数据服务器的稳定性还依赖于一系列低成本的、当前一代的节点组件和新兴材料创新,这些组件约占机架半导体价值的10%。虽然这些芯片的单价较低,但它们对于电压稳定性、信号完整性和热控制至关重要,尤其是在功率密度高达兆瓦级的紧凑型机架中。此类芯片包括模拟半导体,例如电源管理IC、稳压器和时钟发生器,它们确保可靠的电源供应和信号时序。它还包括化合物半导体(例如 GaN 和 SiC 功率器件),这些器件能够为液冷泵和高压分配提供高效的功率转换。这些辅助芯片共同提供了所需的弹性、效率和安全裕度,使高价值的逻辑和存储组件能够大规模运行。

如前所述,特定服务器内的半导体价值构成会因某些因素而有所不同(有关方法和更多详细信息,请参阅附录)。然而,这种差异主要取决于具体的逻辑芯片选择。集成尖端 AI 加速器的服务器机架中,逻辑芯片的价值占比为 65% 至 75%,而使用中端 AI 加速器的服务器机架中,逻辑芯片的价值占比仅为 40% 至 50%,其余部分则更多地用于存储和存储组件。价格更高的系统通常具有更高的计算密度和更高的峰值性能。

性能与实用主义的权衡

系统集成商和超大规模数据中心运营商在设计人工智能平台时,首先会确定性能、容量、功耗和总体拥有成本 (TCO) 等方面的需求。这些需求取决于预期的工作负载组合、部署规模和运营限制,并指导结构化的组件选择流程,而非单一的“最佳芯片”选择。从这个角度来看,加速器的选择体现了一系列权衡取舍:

性能目标(TFLOPS):并非所有 AI 工作负载都需要尖端 GPU 提供的最大计算吞吐量。对于许多训练和推理用例,中端加速器即可提供足够的性能,同时还能提高资源利用率和系统平衡性。

总拥有成本 (TCO):加速器的选择需综合评估,包括购置成本、功耗、冷却需求、机架密度和预期使用寿命。对于性能要求不高的工作负载,低功耗或中端加速器可提供更优的 TCO。

容量和可用性考量:供货周期、平台兼容性和部署时间表会影响加速器的选择,尤其是在大规模部署中,可预测性和可重复性至关重要。

计算托盘占据了数据服务器中半导体占比的大部分——约占内容价值的 95%,半导体芯片总数的近 90%,以及单个芯片数量的 80% 以上(图 18)。

托盘的价值分布与半导体技术的先进程度或工艺节点高度相关。本报告将先进节点定义为小于 10 纳米的工艺节点,通常采用极紫外 (EUV) 光刻技术制造。除了计算托盘占据了半导体芯片总量的大部分之外,这些芯片大多采用先进工艺技术制造(图 18)。

加速器互连托盘和 IPMI 托盘也利用了一些先进芯片,但由于芯片数量较少,且用于制造这些芯片的技术节点相对成熟,因此这些托盘的总体价值要低得多。

价值集中度与成本动态

虽然人工智能数据服务器的大部分价值都集中在少数逻辑芯片上,但绝大多数组件(按数量计)成本较低,却对系统功能至关重要(图 19)。

前沿技术的集中价值体系与更广泛的半导体领域的关键依赖关系之间的这种二元性,凸显了塑造人工智能基础设施未来的机遇和脆弱性。

从设计到数据中心,了解AI数据中心的全球供应链

在本报告的这一部分,我们已经将数据中心人工智能服务器的芯片拆解到了最底层。然而,要制造这样一颗芯片,需要整合整个生态系统。数据中心芯片的制造需要跨越全球分布式供应链的数千个步骤。该过程涉及两个主要的供应链环节:一个环节是根据初始设计制造封装芯片,另一个环节是将这些芯片集成到可供数据中心部署的系统中。

人工智能服务器并非即插即用。它们必须插入预先配置的电源域,与能够最大限度降低延迟的网络拓扑相匹配,并连接到能够确保吞吐量的分布式存储集群。设施运营商、云超大规模运营商和基础设施提供商都在这一部署过程中扮演着重要角色,并且通常与半导体供应商密切合作,以确保满足计算性能要求。随着人工智能基础设施的不断扩展,供应链需要能够提供芯片以及完整的集成系统,以便从一开始就能够运行复杂的工作负载。

如图 20 所示,整个流程始于半导体设计。工程师们使用电子设计自动化 (EDA) 工具来构建和模拟集成电路和印刷电路板 (PCB),以确保其功能正确性和可制造性,然后再进行生产。接下来,在半导体制造阶段,工程师们在洁净室环境中,利用各种精密的原材料和先进的设备,通过光刻和蚀刻等工艺,将设计图印制到硅晶圆上。在封装阶段,经过严格测试的芯片采用先进的 2.5D/3D 互连技术进行互连,用于高性能芯片;而标准芯片则采用传统的互连方法,例如引线键合。最终得到一个完全封装且经过电气验证的芯片,可以集成到系统中。芯片通过电气验证后,进入模块和电路板组装阶段,将封装好的芯片安装到 PCB 上,例如 DIMM(用于 DRAM)、SSD 板(用于 NAND)或计算板(用于 AI 加速器)。系统集成和最终组装涉及将计算、内存、存储、网络和散热系统组合成功能齐全的服务器单元。单元的具体配置会根据客户对性能、散热和供电的要求进行调整。

高性能芯片采用 2.5D/3D 技术,而标准芯片则采用传统的焊接方法,例如引线键合。最终产品是经过完整封装和电气验证的芯片,可随时集成到系统中。芯片通过电气验证后,将进入模块和电路板组装环节,封装好的芯片会被安装到 PCB 板上,例如 DIMM(用于 DRAM)、SSD 板(用于 NAND)或计算板(用于 AI 加速器)。系统集成和最终组装包括将计算、内存、存储、网络和散热系统集成到功能齐全的服务器单元中。单元的具体配置会根据客户对性能、散热和供电的要求进行调整。

人工智能基础设施领域的新兴视野

随着人工智能数据中心日趋成熟,一系列技术变革和市场力量正在重塑基础设施的设计、部署和维护方式。本节重点介绍正在推动下一阶段增长的关键趋势:

边缘计算需求的影响

推理需求正从集中式数据中心转向结合云计算、边缘计算和设备端计算的混合模型。边缘人工智能正在重塑计算需求,将工作负载从集中式数据中心重新分配到分散式环境。预计到 2025 年,超过 50% 的数据将由边缘设备生成,其中许多设备的设计目标是独立运行人工智能模型,而无需依赖云基础设施。小型化、特定任务模型的普及进一步强化了这一趋势,这些模型可以本地部署。在对更快响应速度、降低网络依赖性和更强隐私保护的需求驱动下,混合计算正成为企业人工智能战略的核心要素。

边缘推理的扩展可能会将部分市场推向低功耗、低成本的半导体,例如嵌入式人工智能系统芯片 (SoC) 和神经网络处理器 (NPU)、微加速器和专用电源管理集成电路 (PMIC)。由于边缘部署优先考虑的是容量、集成度和效率而非原始性能,因此这一趋势也可能维持对当前一代和成熟节点芯片、传感器和连接芯片的需求。

架构和封装转型

另一个重大转变是向领域特定架构的转变,这种架构将高性能逻辑、内存和互连紧密集成。未来的人工智能工作负载将越来越多地利用模块化设计,从而允许异构组件(即“芯片组”)以最小的延迟代价进行共封装。2.5D 和 3D 封装技术的进步为这种架构转型提供了支持,这些技术能够更紧密地集成计算和内存单元,同时提高电源效率和散热管理。采用共封装光学器件 (CPO) 的光子学也是一项新兴突破,它将光互连直接嵌入到交换机 ASIC 或加速器中,从而提供更高的带宽和更低的每比特能耗。更广泛地说,光互连被视为下一代降低延迟和节能的解决方案,尤其适用于具有多节点人工智能加速器架构的大规模训练集群。

软硬件协同设计

另一个关键趋势是硬件和软件堆栈之间日益增强的集成和优化,从而显著提升人工智能工作负载的效率。通过对芯片架构、封装和部署策略进行端到端的控制,这些组织和超大规模数据中心可以根据特定的性能、延迟或能耗目标来调整系统。预计这一趋势将影响市场动态,减少对现成解决方案的依赖,并提升内部半导体能力的战略重要性。

工艺技术演进

半导体在密度和效率方面持续进步,但晶体管尺寸的原始微缩速度正在放缓。业界正从FinFET转向纳米片FET设计,后者能够改善功率控制并降低能量损耗。与此同时,研究人员正在探索二维半导体和化合物半导体等新材料,以突破硅的性能极限。由于仅靠微缩已不足以推动进步,系统级创新正日益成为推动技术进步的关键。虽然3纳米技术目前已将晶体管尺寸微缩推向极限,但未来的制程节点可能会采用纳米片FET、环栅(GAA)晶体管等新材料,以及高数值孔径极紫外光刻(High-NA EUV)等先进光刻技术。即使摩尔定律增速放缓,这些方法也能使芯片实现更高的性能、能效和成本效益。

存储器和数据传输

HBM和下一代DRAM的持续创新至关重要。预计到2025年,HBM市场规模将达到210亿美元,凸显了其在实现高带宽计算方面的关键作用。未来版本的 HBM 将拥有更高的堆叠高度、更佳的能效以及与计算核心更紧密的集成。同样,预计未来将出现新的内存层次结构,将 SRAM、DRAM 和持久内存相结合,以优化数据局部性并减少数据移动。

能源与可持续性的迫切需求

随着人工智能基础设施能源需求的增长,能效和可持续性将成为更加紧迫的问题,促使企业加大对节能芯片设计、动态工作负载分配和智能冷却系统的投入。基础设施提供商需要优先考虑每瓦特能耗的计算效率,这主要是为了节省成本,同时也是为了应对全球可持续发展目标和能源市场的波动。随着人工智能部署在各个行业和地区日益多元化,积极投资于适应性强、能效高的系统的运营商将更有能力维持长期价值。

随着每一代数据中心的出现,人工智能计算的能效都在显著提高,这一趋势正在重塑现代数据中心的经济模式和架构。持续提升驱动人工智能的半导体硬件的能效是释放人工智能潜能的关键,这涵盖了从计算芯片到管理冷却、稳定电力需求、分配和转换电力以及组织整个数据中心工作负载的芯片。每瓦性能的提升将使数据中心运营商能够更密集地部署服务器,并在无需相应增加能源的情况下提升人工智能性能。随着芯片公司开发出降低每个计算单元能耗的解决方案,一个采用更高效芯片的10兆瓦数据中心最终可以提供与使用上一代半导体技术的50兆瓦数据中心相同的处理能力。随着电力成本和电网需求的上升,更高的能效不再是“锦上添花”,而是大规模部署人工智能的唯一途径。

最后,人工智能的整体能效不仅取决于芯片本身,还取决于端到端的数据中心系统。这包括电力如何接入数据中心(这一领域的发展速度与芯片开发速度相当)、电力转换损耗、散热管理效率、利用率和工作负载部署。人工智能数据中心的供电架构现在几乎每年都在变化,在某些情况下变化速度甚至更快,这些变化共同决定了每瓦供电最终能提取多少有效计算能力。

结论

本报告阐述了支撑人工智能基础设施的半导体供应链中各种投入的多样性——从高端处理器和加速器到信号调理芯片、电源稳压器、存储芯片和控制逻辑。随着人工智能的不断发展,维持具有竞争力的半导体创新体系的能力将是人工智能持续进步的基础。整个半导体供应链,包括美国半导体设计、制造和制造设备公司,共同构建了人工智能基础设施。简而言之,没有半导体就没有人工智能。

为了引领这项变革性技术,政府和产业界必须携手合作,推进相关政策以加速半导体创新,增强芯片技术领域的整体能力,并与全球合作伙伴紧密合作,构建强大且富有韧性的供应链。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。