过去几年,围绕摩尔定律是否仍在延续的争论从未停止。英伟达CEO黄仁勋认为摩尔定律已趋于终结,华为也部分持类似观点;AMD、英特尔则坚持认为摩尔定律仍在持续演进,并依然是半导体发展的核心驱动力。而台积电对此则显得更为淡然,其副联席COO Kevin Zhang甚至表示:“我不在乎。“那么,摩尔定律究竟走到了哪一步?
如果要找一家始终坚信摩尔定律的公司,IBM无疑是最具代表性的。2021年,IBM率先展示了可扩展的环栅(GAA)晶体管技术,并将其定义为”2nm级”工艺,为后来台积电、三星、英特尔等厂商全面迈向GAA时代奠定了技术基础。尽管如今各家都已推出自己的GAA方案,IBM仍是这一代晶体管技术的重要开拓者。
如今,IBM又把目光投向了下一代晶体管架构——CFET(互补场效应晶体管)。相比GAA继续在二维平面缩小尺寸,CFET通过垂直堆叠NMOS和PMOS晶体管,进一步提升晶体管密度,被普遍视为GAA之后的重要发展方向。而IBM最新提出的交错式顺序CFET设计,也再次走在了行业前沿。

在昨晚,IBM宣布推出全球最小、最强大的计算机芯片技术。这些芯片是首批采用亚纳米节点设计的芯片,其晶体管节点宽度仅为0.7纳米(7埃)。这使得它们成为目前世界上最小的晶体管——而且优势非常明显。IBM团队通过在晶圆键合、SRAM微缩和沟道材料创新方面的几项关键突破实现了这一壮举。

为了更直观地理解这种微小的尺寸,我们可以参考一下人类红细胞的大小:一个红细胞的直径约为7000纳米,比这些新型节点大约大1万倍。在指甲盖大小的7埃芯片上,大约集成了1000亿个晶体管。这是人类历史上首次在如此小的空间内集成如此多的晶体管。
IBM表示,新推出的 1 纳米以下芯片比 IBM在 2021 年首次发布的2 纳米制程芯片效率提高了 70%,性能提高了 50%。在此之前,这些芯片仍然是世界上最小的制程芯片。
凭借如此巨大的性能提升,7埃器件的潜力无比巨大,对人工智能领域有着深远的影响。目前主流的人工智能加速器每秒可处理约1500 TOPS(万亿次运算),而IBM的研究人员估计,采用7埃技术的加速器性能可提升约六倍,达到9000 TOPS左右。因此,如果使用7埃芯片来训练目前庞大的前沿模型LLM,我们可以将典型的训练时间从大约三个月大幅缩短至几周。
IBM强调,这些仅仅是基于我们现有技术的革命性突破。这7埃器件或许能开启我们尚未设想的各种创新。任何需要更强大处理能力或更节能芯片才能完成的任务都可能成为现实——从未来能够自主完成更多任务的机器,到充电频率大大降低的监控设备。
IBM 为其新技术取了一个营销术语:NanoStack(纳米堆叠)。其基准数据令人瞠目结舌,类似于我们从 FinFET 过渡到 GAA 时所看到的景象:
在这些数据中,IBM 是与其自身的 2nm 工艺技术进行比较的。
666 这个数字来自 IBM 的新闻稿,新闻稿中称“指甲盖大小的芯片可以容纳 1000 亿个晶体管”。IBM 之前曾表示,其 2nm 工艺的芯片在指甲盖大小的芯片上可以容纳一半数量的晶体管,后来我们确认他们指的是大约 150 平方毫米。因此,100 亿个晶体管 / 150 平方毫米= 666.66 兆晶体管/平方毫米。文章后面会给出更精确的数字。
IBM预计,这项技术需要大约五年时间才能实现规模化生产并推向市场。IBM表示,能够从中受益的“预期市场”可能会率先采用这项技术,而根据目前的宏观经济形势和芯片设计方法,这些市场仍然很可能是智能手机或小型人工智能芯片。
这项全新的7埃设计突破是IBM多年研究的成果。早在2015年,IBM研究院就发布了纳米片(nanosheet)技术,这是一种全新的芯片架构,当时研究人员认为它将成为未来数年全球芯片设计的基础。随着采用3纳米工艺节点制造的芯片,以及最终采用2纳米工艺节点制造的芯片,这一设想已成为现实。

纳米片技术的发展还有很长的路要走。要到本十年末,我们才能看到2纳米器件的广泛应用,之后才会出现1.4纳米和1纳米器件。但IBM始终致力于发明未来技术。正是这种理念促使一个团队探索纳米片之后的领域。过去几年,他们一直在研究如何在给定空间内提高晶体管密度。他们没有仅仅局限于二维尺寸的缩小,而是思考:如果在第三个维度上增加高度呢?如果说之前的创新主要集中在x轴和y轴上,那么该团队开始考虑z轴。
这一理念催生了团队称之为纳米堆叠的复杂设计。正是这种架构推动了7埃分辨率的突破,团队也相信,它将引领至少十年的硅芯片创新。
这款采用纳米堆叠器件架构的7埃芯片,是多个关键领域取得突破的成果。与2纳米芯片相比,该团队在相同空间内封装的晶体管密度几乎翻了一番。首要突破在于薄介质晶圆键合技术。该团队开发了一种将两片晶圆键合在一起的新技术,从而形成一种新型的多层结构。新方法缺陷极少,两片晶圆能够根据需要进行精确对准。最终成果是一种真正的3D晶体管,测试表明,该晶体管具有可扩展性,能够满足新一代计算机处理器的需求。
利用堆叠式晶体管,该团队还可以在每个节点的沟道中使用新型材料,从而最大限度地提高每个节点的性能——彼此独立。这种新型交错式场效应晶体管(FET)设计改进了单元设计,甚至为未来探索更小的节点指明了方向。NFET 和 PFET 沟道均在“栅堆叠”解决方案中进行了优化,使得这两个沟道可以独立运行。
最终,该团队成功地将7埃设计中的SRAM(静态随机存取存储器)容量提升了40%。这是存储容量的巨大飞跃——业界十多年来都未曾见过如此巨大的提升。片上存储器的访问是人工智能计算的关键瓶颈之一,而该团队通过新的7埃设计解决了这一问题,确保这些芯片能够比以往的设计更快地处理信息。此外,通过缩小存储器的物理尺寸,可以在相同的空间内实现更大的容量。

与近期晶体管尺寸的所有进步一样,7埃指的是采用特定制造工艺生产的新一代芯片。这里的7埃并非指芯片中金属导线的宽度,这与许多代以前芯片密度远低于现在的情况有所不同。一般来说,更小的工艺节点技术可以生产更小的晶体管。这意味着每一代新产品都能在相同的空间内集成比上一代更多的晶体管,从而使芯片速度更快、能效更高。
我们看到,这种纳米堆叠架构有望为未来多代变革性设备提供动力。它将加速埃级时代的到来。它对未来计算乃至整个世界都蕴藏着巨大的潜力。如今难以解决的问题,对于基于这种架构构建的未来计算机来说,或许将变得轻而易举。
IBM在一篇文章中表示,它能够以三维方式构建晶体管。这项创新代表着范式转变。与过去 60 多年来仅限于 X 轴和 Y 轴两个维度的扩展相比,纳米堆叠技术使 IBM 能够突破 Z 轴的限制,实现更大的扩展空间。正如在高密度城市景观中,在给定面积上向上发展意味着更有效地利用空间。基于同样的逻辑,这项新技术在单位面积上实现的晶体管数量几乎是 IBM 在其 2 纳米节点芯片中使用的纳米片技术的两倍。IBM 的研究人员通过将硅晶圆及其组成晶体管堆叠在一起,成功地实现了 3D 器件的运行。
最终实现的晶体管密度令人惊叹——指甲盖大小的芯片上集成了近1000亿个晶体管。初步性能预测显示,与2纳米制程芯片技术相比,能耗降低70%,速度提升50%。这意味着采用纳米堆叠技术制造的芯片在人工智能模型训练和推理方面速度更快,笔记本电脑和手机电池续航时间更长,并且设备在实现相同性能的同时可以消耗更少的电量。
IBM强调,从本质上讲,纳米堆叠是由纳米片堆叠而成。纳米片由IBM开发,并于2017年推出。它们超越了当时主流的鳍式场效应晶体管(FinFET)技术,采用了环栅(GAA)晶体管。这一变革使得晶体管可以更紧密地排列,而不会像在如此小的空间内那样发生能量泄漏。
但仅仅将纳米堆叠描述为堆叠的纳米片,掩盖了这种新型器件的真正复杂性。例如,一项重大进步在于,n型和p型晶体管可以顺序堆叠,而不是并排排列。至关重要的是,将n型和p型器件分离意味着电源和信号可以通过不同的器件进行传输。
两种类型的晶体管均由半导体材料制成,这些材料经过有意“掺杂”以控制电流的流动方式。在n型晶体管中,会引入额外的电子(通常是通过在硅中添加磷等元素),因此带负电荷的载流子主导导电。相比之下,p型晶体管掺杂了硼等元素,这些元素会产生“空穴”(带正电荷的载流子),电流可以通过这些空位的运动而流动。
IBM研究院半导体技术业务开发总监尼尔森·费利克斯表示,通过使用不同的材料可以提升每种晶体管的性能。IBM通过在同一器件中将它们分开,为试验能够优化每种晶体管特性的新材料提供了可能。
构建纳米堆叠需要新的制造技术。薄片之间的关系也至关重要。纳米堆叠中的晶体管像砖块一样交替排列,而不是一个接一个地上下堆叠。再加上极其精细的亚18纳米级工艺,后端工艺是半导体制造过程中晶圆上完成器件图案化之后的一个阶段。它指的是连接芯片上各个晶体管的导线网络。线路末端纳米堆叠技术能够实现更高的单位面积密度。
IBM表示,之所以需要一种新的晶体管技术,是为了克服晶体管密度带来的一些挑战。
“鉴于它们不同的材料组合,我们已经没有多少办法能把它们越来越紧密地结合在一起了,”菲利克斯说。
英特尔联合创始人戈登·摩尔在1965年预测,芯片上的晶体管密度每年都会翻一番。然而,十年后,他修正了自己的预测,也就是现在被称为摩尔定律的理论,将晶体管密度的翻番周期缩短至大约每两年一次。这巧妙地预示了晶体管密度的不断提升将带来新的挑战。
作为行业,我们正面临一个根本性的限制,即两种不同类型的晶体管无法紧密地并排放置。因此,我们不再将它们并排放置,而是采用堆叠的方式。这样一来,我们既可以缩小电路尺寸,又能独立地控制两种类型的晶体管。
“早在10到15年前,我们就一直在讨论晶体管尺寸缩小会遇到瓶颈,认为晶体管尺寸缩小到一定程度就会停止,因为我们无法达到目标,”IBM研究院专门研究半导体的科学家格里塞尔达·博尼利亚说道。“但材料和工具的创新确实极大地推动了这些技术的发展。仔细想想,这真是令人惊叹。”
通过重新构想晶体管架构,纳米堆叠技术有望将逻辑技术的发展延续到 2040 年。

基于这种思考,IBM现在我们已经将p型和n型晶体管解耦,可以自由地探索适用于它们的各种新材料组合。过去,材料选择是一种妥协——最适合制造p型晶体管的材料未必最适合n型晶体管。而在纳米尺度上,能够探索针对每对晶体管功能进行优化的材料组合至关重要。
IBM研究院高级逻辑路径规划技术高级经理山下天子表示,纳米堆叠架构更加灵活。“根据所需的沟道材料和工艺,您可以将n型层放在p型层之上,或者将p型层放在n型层之上。”他说道。
Nanostack芯片的电源供应并非像传统芯片那样在晶圆正面(信号传输所在的位置),而是在晶圆背面。这种改变被称为双背面供电(BPD)或背面电源分配网络(BSPDN),有助于提高芯片密度。
山下表示,纳米堆叠芯片通过提高晶体管密度,在降低能耗的同时,还能提供更快的计算速度。性能提升的最终结果是片上内存容量增加了40%。
那么纳米堆叠的难点是什么?
在IBM看来,纳米堆叠技术带来的新挑战主要体现在两个方面。首先是晶圆对准和均匀性:由于采用晶圆间键合技术,因此需要严格控制晶圆的平整度,并确保晶体管之间的正确对准。解决这一问题的关键在于使用一层薄的氧化物介电层,称为键合层,它位于晶体管层之间,用于最大限度地降低寄生电容和电阻。
第二点是,由于导线变得更细,而且必须跨越多层晶体管进行连接,因此晶体管的布线更加困难。新型高科技光刻技术正在帮助解决这一难题。
随着我们进入纳米堆叠时代,IBM正在改变逻辑电路扩展的格局。问题不再是如何在给定的二维空间内封装多少晶体管——我们已经通过进入三维空间改变了参数。
“我们祝贺合作伙伴 IBM 推出全新的纳米堆叠架构,这体现了 3D 逻辑微缩技术的真正进步,”晶圆制造设备主要供应商 Lam Research 的 Aether 产品线副总裁 Rich Wise 表示。这项干式 EUV 光刻胶技术摒弃了传统的湿化学方法,提高了将电路图案转移到硅片上的分辨率、生产效率和良率。它将与多种其他半导体工艺工具一起,支持新一代芯片技术的高良率生产。“这项成就建立在我们双方在先进干式 EUV 光刻胶领域的合作创新之上。先进的器件架构需要原子级精度——而 Lam 的 Aether 干式光刻胶恰好满足了这一需求,使芯片制造商能够充分发挥高数值孔径 EUV 光刻技术的潜力,” Wise 补充道。
展望未来,IBM研究院的科学家们将继续尝试使用能够提升n型和p型晶体管性能的新材料。即使我们已接近空间极限(7埃接近几个原子的直径),通过优化材料,我们仍然可以进一步提升性能。
“Nanostack标志着IBM和东京电子(TEL)长期合作历史的最新篇章,它将助力逻辑器件迈入新时代,”东京电子(TEL)总裁兼首席执行官河合俊树表示。东京电子与IBM在半导体创新领域已合作超过二十年。“展望未来,IBM和TEL将继续紧密合作,在光刻、蚀刻和键合以及相关使能技术方面进行持续创新,这将是推动这项技术发展并塑造其未来十年演进的关键。”
Bu表示,除了所有促成纳米堆叠架构实现的技术创新之外,未来几年还需要在几个关键领域取得进展,才能使纳米堆叠技术做好被业界广泛应用的准备。这些领域包括:采用导热材料进行薄介电层键合,这将有助于在日益狭小的空间内改善散热;改进芯片背面和斜面制造工艺;用于质量控制的3D计量和检测;以及与这些新型3D芯片设计兼容的电子设计自动化系统。Bu及其团队目前正在致力于这些方面的工作,以确保半导体行业能够尽快做好大规模应用纳米堆叠技术的准备。
其实从IBM这个发布开始,我们发现,晶体管已经开始出现分歧。这首先从晶体管的发展看起。
迄今为止,晶体管的发展历程大致如下。

左侧是平面晶体管,直到2010年代,它一直是制造晶体管的主要方法。它仍然是所有22纳米及以上制程芯片的基础设计,也是相对最简单的设计,然而,它却是该领域诸多进步的根源。当我们缩小平面晶体管的尺寸以在芯片上容纳更多元件时,如果缩小过度,源极和漏极之间的距离就会过近,导致电子泄漏,并且随着尺寸的缩小,设计的静电性能也会达到极限。
中间的FinFET晶体管解决了这个问题。通过将源极和漏极从衬底中抽出,并将栅极环绕其周围,实现了更好的静电控制,并在三个侧面(而非只有一个侧面)形成导电沟道。这提高了驱动电流,从而提升了性能。多代FinFET晶体管缩小了器件尺寸,但增加了鳍片的高度以保持平衡。随着尺寸的不断缩小,高鳍片的制造难度增加,而且没有栅极的“第四面”鳍片容易受到电场的干扰。不仅如此,提高密度的另一种方法是减少鳍片数量,即每个晶体管只使用一个或两个鳍片,但这会降低驱动电流和开关速度。
这促成了环栅设计(Gate-All-Around)的诞生。通过将栅极环绕整个沟道,可以实现更好的控制和电流流动。与传统的“鳍片去填充”方法不同,设计人员可以控制栅极的层数以及栅极宽度,从而微调特定单元或单元库的性能和功耗。环栅设计的复杂性在于构建这些层或“薄片”的必要性——尽管它们在图中看起来很简单,但每一层都需要被保护层包裹,而实现这一过程依赖于一些有趣的化学和物理原理。薄片本身可能只有五纳米厚(即15个原子),并带有少量原子的保护层,但薄片的宽度通常在20到40纳米之间变化。
在全环栅极(Gate-All-Around,GAA)的设计阶段,我们看到了主要厂商和研究机构提出的各种各样的方案。首先是如何让GAA技术首先实现可操作性,然后是2层到7层不等的设计方案,并对材料和间距进行了微调。首款GAA硅芯片已于2025年底上市,其特点如下:
英特尔在其 18A 工艺节点技术(Clearwater Forest、Panther Lake、Wildcat Lake)中使用了一种名为“RibbonFET”的四层设计。
台积电在其 N2 节点中使用三层芯片实现了 GAA 技术,预计首款产品将于今年晚些时候与 AMD 及其新款 CPU Venice 一起上市。
三星声称,他们在2022年率先将GAA技术应用于其3nm工艺SF3E芯片,并推出了一款用于MicroBT的加密ASIC芯片。他们首款采用GAA技术的主流产品是2025年末推出的Exynos 2600移动处理器,该处理器采用SF2工艺。
Rapidus已获得IBM的技术设计授权,目前正在其位于北海道千岁市的新建2纳米晶圆厂安装相关设备。该公司已于2025年开始运行测试晶圆,首批产品将于2026年底完成流片,并于2027年实现量产。

这是imec 2023年的路线图。工艺节点名称稍有滞后,但这代表了现代半导体技术发展的一个关键特征。
从 N7 到 N3,imec 重点介绍了三代 FinFET 技术,其中一个主要方面是金属间距缩小。
从 N3 到 N2,我们经历了从最新一代 FinFET 到第一代纳米片全环栅技术的过渡。
N2、A14、A10 和 A7 都是环栅设计(Gate-All-Around,GAA)的升级版。按照路线图,到了 A10 版本,相邻 NFET 和 PFET 之间的间隙将被一个挡板取代,使它们能够更紧密地排列——这种设计在文献中被称为“ForkSheet”,但现在大多数厂商都将其视为 GAA 的升级版。接下来,我们将进入 CFET 的开发阶段。
芯片制造商一致认为,未来十年的晶体管实际上是两个晶体管堆叠而成,在相同的硅片面积上集成更多器件,从而使电路尺寸缩小到现在的一半。但他们的研究成果在细节上开始出现一些重要的分歧。商业化应用可能还需要六年时间,因此距离最终版本还很遥远,但上周在檀香山举行的IEEE超大规模集成电路研讨会上发表、并由IBM今天详细介绍的研究表明,未来主要有两种发展方向。
尽管各公司对这种未来器件的称呼各不相同,但在研究领域,它通常被称为CFET,即互补场效应晶体管。CFET将构成互补金属氧化物半导体(CMOS )逻辑的两种晶体管——p沟道场效应晶体管(PFET)和n沟道场效应晶体管(NFET)——堆叠起来,而不是并排放置。具体来说,它堆叠的是一种近期才商业化的晶体管,称为纳米片晶体管或环栅晶体管。这种架构本身包含一叠纳米级厚度的硅片,电流流经这些硅片。硅片周围环绕着几原子层厚的绝缘层和精心配制的金属混合物,这些材料统称为栅堆叠层。器件的两端分别由晶体硅盖构成,即源极和漏极。
关键在于,每一种基础晶体管设计都考虑到了多代产品的发展,以便在转向难度更大、步骤更多,或者仅仅是因为相关研究尚未完成或材料科学尚不成熟之前,先进行一些容易实现的改进。完成这些步骤中的任何一个都需要很长时间,并且需要数十万人的参与。这不仅包括晶体管本身,还包括功率传输、金属堆叠设计以及其他所有方面。

这意味着,当我展示上图时,每一步都可以被视为一个多代发展的过程,而不仅仅是依次进行。CFET也有多种设计,其本身也是一个多代发展的过程。
从上图来看,CFET 似乎是硅芯片设计师的梦想。一夜之间,它的密度就比 GAA 翻了一番。立竿见影。
我们先来回顾一下CFET的一些前期研究。从技术角度来说,根据图中所示的NMOS/PMOS定义,两个器件并非总是GAA结构,即GAA叠层。过去五年里,我们看到英特尔和其他公司的研究表明,单层鳍片GAA、鳍片叠层鳍片,甚至还有平面结构。这主要是因为平面和鳍片工艺都是成熟的技术。此外,很多研究也是在大节点上进行的。

然而,在过去三年左右的时间里,我们看到了更多基于双层GAA的双层GAA技术及其发展演变。最终,量产型CFET预计将采用3对3或4对4结构,或介于两者之间的混合结构。
但说实话,业界目前主要有两种方式来构建这些设计。我们称它们为单片CFET和顺序CFET。

单片CFET(mCFET)的名称就暗示了这一点。与多层GAA设计类似,单片CFET会将所有六到八层器件构建在一块硅片上,然后根据需要进行蚀刻、电镀和填充。虽然实现这种结构需要一些额外的控制,但总体而言,其复杂程度与在GAA设计上构建更多层器件相当。这种方法的主要优势在于其简洁性和高密度。
为了确保mCFET的性能、良率和可扩展性,人们投入了大量精力。其中一个主要问题是,随着堆叠层数的增加,工艺步骤受到限制。由于pMOS和nMOS的构成材料不同,任何在pMOS之上构建nMOS(反之亦然)的步骤都不能干扰其下方的层。因此,人们不得不放弃1400℃的退火步骤,转而花费数年时间研究一种性能同样出色、成本同样低廉且可扩展性同样强的新方法。
顺序式CFET(sCFET)则使用两个或多个晶圆进行键合。这是一种相对简单的理解方式,但实际上还有多种方法。
首先,每片晶圆上都排列着一组 GAA 器件,可以是全 nMOS 或全 pMOS,通过巧妙的物理原理将它们键合在一起,使它们以正确的位置和叠层方式连接,从而像一对 CMOS 晶体管一样工作。这种设计的优势在于,每种类型的晶体管都可以进行深度优化,而无需担心对其他晶体管的影响——甚至比传统的 GAA 或 FinFET 设计更具优势。
第二,第一片晶圆上封装了一组GAA器件,第二片载体晶圆则承载了上层结构,其余部分的设计则在其上完成。这是一种权宜之计,旨在辅助特定器件的优化,但如上所述,仍需仔细规划以解决热集成问题。
缺点在于粘合——它具有电容和误差范围,任何轻微的偏差都会使两者都变得更糟。

关于哪种工艺成本更高,目前存在一个有趣的讨论。一方面,单晶硅CFET在同一晶圆上需要额外的层数,导致单片硅片上的良率指标呈级联式变化。相比之下,单晶硅CFET每片晶圆只需要一半的层数,但成本主要来自键合精度和良率损失。在上图中,imec展示了三代单晶硅CFET及其键合工艺的演变。
很难说哪种更好,这取决于长期的研究进展。同样,如果我们预计首批 CFET 设计要到 2031 年才能上市(在此之前,我们还有 3-4 代 GAA 技术),那么这些设计的改进和研究成果将最终决定哪种技术更胜一筹。SemiAnalysis在 2024 年的一份报告中声称,所有领先的晶圆厂主要都在关注 mCFET。
为了制造CFET,英特尔、三星和台积电都在采用一种称为单片工艺的方案。从根本上讲,这意味着它们同时制造上下两层器件,一层直接叠放在另一层之上。
相比之下, IBM开辟了一条新路径,致力于采用一种通常被称为顺序工艺的方案,因为它先制造一层完整的晶体管,然后再在其上方制造另一层。此外,IBM的方案要求晶体管对略微错开排列,而不是像单片工艺那样直接排列成一条直线。
众所周知,NMOS 和 PMOS 晶体管对硅原子的取向有不同的偏好。如果你想知道硅原子为什么会有不同的取向,这完全取决于其内部的晶格结构,以及如果你沿着特定方向切割硅原子,切割的具体位置。

图中绿色线条表示切割无限重复晶体的位置。例如,左侧沿 (001) 晶面切割硅晶体,会得到五个红色原子;而沿 (110) 晶面切割则会得到八个红色原子。当然,也可以沿任何晶面切割,例如 (010)、(101) 或 (011) 晶面,但这里主要讨论的是 (010) 和 (110) 这两个晶面。
事实证明,就晶体管性能而言,NMOS 晶体管更倾向于 (001) 晶向,而 PMOS 晶体管更倾向于 (110) 晶向。这意味着,不同的硅晶向可以改善每种晶体管中“导电元件的迁移率”。如果您也想知道为什么我用这种说法而不是直接说电子迁移率,那是因为 NMOS 使用的是电子,而 PMOS 使用的是空穴。这是一种材料科学原理,虽然每种材料的迁移率都很重要,但这超出了本文的讨论范围。
需要两种不同硅取向的问题在于,在单片设计中,至少在平面晶体管和FinFET晶体管中,你只能选择其中一种。理论上,你可以在正确的位置以正确的取向外延生长硅,但这通常很困难、耗时且成本高昂。因此,大多数晶圆优先考虑NMOS晶体管,并寄希望于PMOS晶体管的性能能够达到要求。多年来,人们还人为地在沟道上施加额外的应力来提高性能。在FinFET中,由于设计中多了一个侧面,理论上沟道暴露在两个平面上,这可能是有益的。
在环栅设计中,同样存在两个平面,但不同之处在于,这些平面是长条状而非高条状,从而突出了NMOS器件所青睐的(100)平面。此外,通过在平面周围添加硅锗衬垫来施加应变,以提升器件性能。
在顺序CFET中,现在有机会使用两种不同晶格取向的晶圆。这是IBM正在研究的一部分。
制造流程如下:
它看起来有点像这样:

仔细阅读的朋友请注意,我上面的列表和图片中都有三个星号。这很重要,因为IBM正在新的晶体结构中构建顶层晶体管。这意味着我们面临着与单片CFET类似的问题——一个高温工艺步骤出错,整个器件就会失效。
IBM表示,他们借鉴了2012年推出的栅极优先型高介电常数金属栅极技术,通过对NFET进行金属栅极替换,成功解决了这个问题。他们展示了这张图表。

在单片设计中采用传统的栅极替换方法时,左侧的两个数字显示了热问题的影响。我们可以看到它造成的损害:阈值电压 (Vt) 从 0.35 伏增加到 0.55 伏,栅极电流/漏电流增加了两个数量级。这有时被比作漏水的水龙头,但漏水不是滴水,而是水会溅到街上。
右边是 IBM 在解决其堆叠器件中的热问题方面取得的成果——阈值电压几乎相同(看起来相当不错),栅极漏电甚至更好。
但简而言之,IBM CFET 存在缺陷(第 1 部分)的原因是,它们在顺序 CFET 设计中使用了两个不同的晶格方向。
他们的研究表明,CFET设计的关键限制因素之一是沟道触点的位置。普通的CFET图像并不能很好地展示这一点,但晶体管的两侧都需要电源和信号触点才能正常工作。在纯堆叠式线性设计中,这会带来一些问题。

在这张图中,左侧是我们的三片式GAA晶体管,每个晶体管都有信号输入和某种形式的背面电源输入。这就是目前市面上一些GAA晶体管的设计样貌。
中间部分描述的是堆叠式设计的情况。由于每个晶体管的信号和电源都来自另一侧,并且必须绕过其他部分,最终需要处理更多的信号和电源。此外,由于这些额外的连接,sCFET 中薄片的宽度必须缩小,尺寸也受到限制。
右侧展示的是IBM正在研发的技术。他们声称这是业内独树一帜的方法——一种名为NanoStack的交错式sCFET设计。通过错开NMOS和PMOS层,可以实现双向直接连接。这不仅简化了设计,还允许薄片具有更宽的有效宽度范围,从而为目标市场提供更高功率和更快开关速度的晶体管。
关键区别在于,单片CFET的电路图通常省略晶体管上的连接,因为在讨论密度和驱动电流时,这些连接通常并不重要。然而,这一次,IBM声称与“对齐式”sCFET设计相比,每个4轨单元的有效栅极宽度最多可增加65%。

这是他们在建模软件中展示的交错式设计的另一张精美图片,展示了交错式设计带来的更简单、更规律的方法。
IBM认为,阻碍顺序工艺发展的最大障碍之一是制造高质量晶体管所需的高温。“关键的权衡在于,较低的FET层必须承受其上方各层的全部热量预算,” IBM研究院的研究科学家Nirmaan Shanker在VLSI研讨会上表示。
这种热量可超过 900°C,并持续数小时,最终会降低晶体管可提供的电流,并使控制其开启或关闭的电压变得更加困难。
IBM 此前的研究表明,NFET 可以经受住这种工艺的考验。在VLSI研讨会上,Shanker 解释了研究人员如何对 PFET 也进行同样的改造。
虽然仍需进一步改进工艺,但这预示着未来晶体管密度将进一步提高。“理论上,这种工艺可以扩展到更多FET层级,”Shanker说道。研究团队计算得出,与两层晶体管芯片相比,四层晶体管芯片的电路尺寸可缩小40%。
IBM的另一项创新在于略微错开两层晶体管的位置。将NFET和PFET错开排列而不是直接堆叠,乍一看似乎会占用更多空间,但据IBM称,这实际上会带来更小的逻辑电路和更好的晶体管性能。
专家指出,CFET器件面临的最大挑战之一,通常是在极其有限的垂直空间内,如何为两个晶体管建立所有必要的连接。例如,顶部晶体管可能需要连接到电源(电源来自堆叠下方的互连线),而来自堆叠上方的数据信号可能需要连接到底部晶体管。由于这些连接需要绕着晶体管堆叠的侧面布线,因此CFET器件的间距受到限制。
交错式设计通过实现更直接的连接解决了部分问题。“每个晶体管的正面和背面都可以独立连接,”Bo说道。他表示,交错式设计是Nanostack实现存储电路尺寸缩小40%的关键所在。
IBM着重强调,这种交错式sCFET设计之所以能够实现,完全得益于他们独创的键合技术,该技术能够改变晶格取向。我曾在演讲和与客户的电话会议中详细讨论过各种键合技术的差异,但IBM表示,他们采用了一种与众不同的独特技术来实现这一目标。
IBM 对具体方案守口如瓶,但给出了一些线索。所以我将描述一下问题所在,以及我们目前已知的信息。我们不妨拿出一张图表,这张图表因华为最近的公告而再次流行起来。它是 AMD 的 3D 堆叠比例图。

此图展示了为实现不同堆叠方式,连接间距需要达到多小。其原因在于性能、功耗和复杂性。设计中的子区域越靠近硅片,所需的连接就越多,因此连接间距也必须越小。最左侧是传统的 C4 凸点键合,凸点间距约为 50 微米,使用微型焊球可缩小至 35 纳米,使用铜柱可缩小至 20 微米。右侧是混合集成的直接铜对铜键合,间距从 9 微米缩小至 4 微米、3 微米甚至 1 微米。
问题是,即使到了那个层面,我们仍然只停留在电路拼接阶段。现在,这里有个定义上的问题——究竟什么才算是电路拼接?它和IP折叠有什么区别?我们是在库级别、单元级别,还是更深层次进行细分?我尝试在原幻灯片的基础上进行改进。

我在这件事上确实钻研了一番,结果被一些技术宅给套路了。问题在于AMD最初的幻灯片展示了使用TSV进行电路切割,而TSV通常是后端制造工艺(在最后阶段完成)。为了实现这一点,它实际上更像是“真正的后端制造工艺开始之前”的某个环节。
另一方面,IBM 则明确表示其键合工艺并非后端工艺,而是采用完全不同的技术,能够实现更精细间距的触点。这是因为他们在硅沉积过程中就将 NFET 集成到硅中,因此晶体管之间的键合不像电路级分割图中所示的 TSV 那样简单。

IBM 将他们所做的称为“栅极合并”设计。他们在前端设计流程(即初始阶段)中使用了键合介质。这使得在制造顶层之前就能确定底层和顶层之间的键合,因此像 TSV 设计那样需要考虑套刻精度等指标。
尽管如此,IBM 在我们的会议上一直强调,键合技术是这一切的关键所在,因此这项技术非常特殊,也极其保密。他们在论文中提到,10 纳米的键合氧化层会导致单元级有效电容增加 2.5%,因此尽可能减小氧化层厚度至关重要。在 VLSI 展会上,IBM 展示了厚度小于 30 纳米的键合层,并通过扫描声学显微镜验证,在整片 300 毫米晶圆上,键合层厚度误差在 1.5 纳米以内。

最终在晶圆顶部形成一系列晶格层,可供后续的器件构建。下图分别展示了键合后和构建晶体管后的状态。

最终得到的晶体管与任何其他设计都毫不违和。通常,晶体管设计的一个主要指标是电流随施加电压的变化率。CMOS 设计的关键在于尽可能接近每十倍电流变化(每数量级电流变化)60 毫伏,因为该数值越低,晶体管的开关就越容易。

IBM 的器件每十倍电压变化可达 68-70 毫伏,考虑到其大规模生产所需的时间,这个数值相当不错。相比之下,FinFET 器件的每十倍电压变化可达 65-85 毫伏,平面晶体管约为 80-100 毫伏。高性能平面器件 FD-SOI 的每十倍电压变化则在 65-75 毫伏之间。GAA 器件在其生命周期内预计每十倍电压变化可达 60-75 毫伏。
尽管顺序CFET具有诸多优势,但其实现并不像单片工艺那样简单直接。“我认为在整个行业中,单片工艺仍然是领先的集成方案,”英特尔副总裁、CFET专家罗明熙(Myunghee Na)表示。
单片式方案本质上是将纳米片堆叠成稍高一些的阵列,并将顶层用于一个器件,底层用于另一个器件。难点在于如何修改、分离和紧凑地集成所有部件和连接,其中一些部件和连接会相互遮挡。为了解决这些问题,芯片制造商正在尝试新型连接方式并提升器件性能。
三星率先发布了三纳米片PFET和三纳米片NFET,但英特尔和台积电一直在研究2×2结构。英特尔器件工程师Jami Wiedemer在VLSI研讨会上向工程师们解释说,对于英特尔而言,这是一种折衷方案:一方面,增加纳米片层数可以提高晶体管的开关速度;另一方面,堆叠层数过高会导致电容过大,从而损耗信号,增加功耗。但她也表示,即使是这种结构,“随着技术的成熟,也可能会发生变化”。
这些公司还在以其他方式改进器件的电气特性。如今,为了满足从低功耗移动芯片到高时钟频率服务器CPU等各种应用的需求,代工厂提供相同晶体管的不同版本,它们之间的区别仅在于开启或关闭所需的电压。台积电成功制造出CFET,其上下器件的开启电压均可设置为三个不同的级别。
英特尔则采用了不同的硅晶体取向来制造顶部和底部晶体管,因为一种取向可以制造速度更快的PFET,而另一种取向可以制造速度更快的NFET。其实现方式是在两个不同的晶圆上分别生长用于制造这两个器件的硅,然后将两个晶圆键合在一起。
该工艺本身就适用于将英特尔和台积电使用的顶部和底部晶体管进行电气隔离,从而在两个晶圆之间的绝缘界面形成“中间介质隔离”层。
三星的做法有所不同:它采用优化的晶体生长方法,首先在构成上下器件的纳米片之间添加额外的纳米片。然后蚀刻掉多余的纳米片,并用介电材料填充空隙。
芯片制造商也采用了不同的方法来连接CFET的上下两部分。台积电采用的是沿两个器件源极和漏极侧面的垂直连接。英特尔的“内部互连”完全形成于CFET内部的源极和漏极之间,而三星则是通过切割顶部晶体管的源极,将两个器件连接到上方的金属线上。
预计芯片制造商在接近可商用的CFET时,会尝试更多不同的设计方案。“这是最终的架构,”英特尔的娜表示。她指出,这需要整个行业的共同努力,包括半导体制造设备制造商和电子设计自动化软件供应商。“我们还有很多工作要做,但这确实是一个令人振奋的时刻。”
IBM此次公布的大部分数据实际上已在其2025年VLSI论文中发布,但正是2026年提交的数据才使得他们今天能够发布这一消息。晶体管节点微缩的关键限制之一在于SRAM,考虑到现代处理器中SRAM与逻辑的比例,如果SRAM尺寸不缩小,那么工艺节点的改变几乎毫无意义。CFET的优势之一在于其晶体管堆叠结构,这意味着如果几何形状完美,SRAM单元密度有望在一夜之间翻倍。这种简单的想法固然不错,但考虑到SRAM控制所需的额外外围电路,IBM声称其单元高度相比2nm工艺仅降低了40%。即便如此,这仍然意义重大。
现代SRAM的性能比较通常以单元面积(平方微米)或密度(兆比特/平方毫米)为单位,并且通常采用高密度工艺制造。目前领先的SRAM参数如下:
IBM 的研究发现,与基本的对齐方法相比,交错顺序 CFET 方法实际上可以缩小一些晶体管栅极间距,从而获得更高的密度。

此图的y轴表示位单元高度,x轴表示间距的扩展程度。从表面上看,最小的位单元为0.011 µm²。理论上,这可以带来90.91 Mb/mm²的最大SRAM密度,但实际密度通常在理论值的55%到65%左右,这意味着实际密度可能略低于60 Mb/mm²。
IBM 7A NanoStack:0.011 µm² , 54.5-59.1 Mb/ mm²
从历史上看,晶体管密度顾名思义,应该用单位面积内能容纳的晶体管数量来衡量。自古以来(也就是公元1189年9月3日),该领域的大多数研究者都假定这个数值指的是单片硅片上的晶体管数量,即x/y方向的尺寸限制。
需要仔细审视的是,当涉及到垂直堆叠时,这个定义是否仍然适用。这不仅适用于多个芯片堆叠在一起的情况,也适用于IBM正在使用的sCFET技术。
首先,我认为我们可以达成共识,单片 CFET 仍然符合最初的定义,并且没有问题。
我们通常不会将直接键合的芯片组密度相加来认为是密度增加——例如AMD的V-cache或MI300X技术。每块硅片都有其自身的密度。
问题在于,IBM 并没有这样做。他们仍然在同一块硅片上构建晶体管。只不过,他们构建的晶体管是沿用下来并键合到原有晶体管上的。这种划分并非通过硅通孔 (TSV) 实现,而是通过该方法构建的直接晶体管间连接,而非传统的混合键合。它是在单元库内部进行的,而不是在单元库之间进行的。在我看来,这仍然很重要。
最后,我们来谈谈晶体管单元的一些物理参数。设计芯片时,设计人员关注的是单元布局,而不是晶体管布局。

下表列出了 IBM 的 2nm 工艺与其 7A Nanostack 工艺的对比,中间还有一些对齐的 sCFET。
主要变化在于走线高度降低了 50%。在单元设计中,走线用于支持信号和电源连接——IBM 认为 4T 设计对于他们的 sCFET 来说是最有效的。如果我们将走线高度乘以金属间距,就可以得到单元的八位数字。
标准单元格的面积近似值等于 CPP 乘以单元格高度。由此可得:
2nm GAA:6045 nm²
取向sCFET:3953 nm²(减少35%)
纳米堆叠式sCFET:2958 nm²(减少51%)
相对于 2nm 工艺,这就是 IBM 实现 50% 扩展性的原因。
IBM 还展示了这张图表:

遗憾的是,没有提供关于该图表是如何计算的详细信息,但值得注意的是,它是基于晶体管级指标,而不是单元级、IP 级或芯片级设计。
说实话,我认为最令人印象深刻的是纳米片(6T)的峰值性能。它的量子密度为 1.2 AU,但功率消耗却高达 2 AU。我们可以从这里向下画一条线,一直到 NanoStack 7A。

在文章背后,我们补充一点IBM关于这个发布的一些问答。
问:最小阈值电压是多少?一篇论文显示,在Vds为650毫伏时进行了测试,而热测试表明Vt约为350毫伏。
答:它类似于缩小版的 2nm 工艺。
问:栅极合并界面采用的是什么材料?它是否沿用了IBM使用钨和氮化钛衬垫作为通孔触点的研究成果?
答:目前不便透露。
问:IBM还在研究单片CFET吗?我知道这其中有很多因素,比如物理和经济因素,但您个人认为,单片CFET和交错/顺序CFET,哪种更有扩展潜力?
答:IBM 最初在 mCFET 领域起步,我们在 2014 年称之为 3DSFET。我们花了三年多的时间来了解其局限性。然而,当我们意识到交错式设计能够提供更大的灵活性时,我们就开发了这种设计。
此外,这种交错式设计可以堆叠更多层。与mCFET不同,一旦将信号线和电源线集成到每个晶圆中,它就可以堆叠。sCFET支持z方向堆叠,从而充分利用z方向的扩展性来实现晶体管尺寸的缩小。
问:幻灯片上的图像显示栅极宽度约为 60 纳米。通常,我们目前看到的环栅设计栅极宽度为 20-40 纳米。60 纳米是参考值还是仅仅是代表性数值?
答:当薄片更宽时,如果能满足密度要求,性能会更好。纳米薄片的这种限制不仅取决于器件本身,还取决于器件堆叠上的CMOS图案化工艺。此外,NFET和PFET之间也存在差异。与必须保持不变的CFET相比,使用顺序CFET可以独立进行调整。由于不受NFET和PFET差异的限制,薄片宽度有了更大的裕量,从而可以更好地进行优化。
问:交错式顺序CFET是否对降低缺陷良率有直接好处?后续问题——是否可以在键合之前测试不同的NFET和PFET以确保晶体管正常工作?
答:我们还没有真正实践过——在制造过程中引入测试存在一些顾虑。我们花了一年时间建模和开发薄介质键合技术——但我们测试薄介质时晶圆没有变形,所以它是无缺陷的。不过,对于测试,我们正在考虑这个想法。
问:您认为 NanoStack 将如何改变电路设计的 EDA 方法?
答:我们之前说过,这项技术要实现量产需要五年以上的时间。这涵盖了所有方面——技术、供应链,以及EDA。现在是EDA转向垂直整合的时候了——它类似于芯片级3DIC的EDA,但这是首次在晶体管级实现3D打印,未来几年EDA的普及至关重要。我们还需要与工具合作伙伴共同解决3D测量和检测问题。
问:为了提高良率,需要克服哪些散热、信号完整性和供电方面的挑战?您预计这些领域会有材料创新吗?
答:材料方面的挑战是肯定的,3D EDA 也与之相关。IBM 正通过 NanoStack 从 2D 向 3D 转型,但在物理领域,我们正从电气方面的挑战转向机械和热学方面的挑战。我们必须明确技术及其应用方式。我们正努力将机械和热学特性纳入 PDK 的定义中。技术定义不仅包括 PPA,还包括机械和热学要求。我们正与 EDA 合作伙伴携手合作,确保尤其是在热学方面,相关技术能够在初期就得到开发和集成。
关于材料方面,我们的设计允许NFET和PFET各自独立地实现灵活性,从而避免了制造过程中NFET到P或P到N转换所带来的限制。例如,我们正在寻找用于通孔的高导电性材料的创新方案。键合质量必须高且无缺陷。
问:我们需要高数值孔径的极紫外光刻机吗?
答:对于这项技术而言,实现单层金属图案化至关重要。我们正在等待奥尔巴尼纳米科技学院的高数值孔径极紫外光刻机安装完毕,以便测试这些极限。
这个答案明确指出不需要高数值孔径(High-NA),可以通过多重曝光实现。因为这更像是堆叠式GAA,关键尺寸变化不大,所以这个答案也说得通。然而,考虑到某些单元的轨道数量较少,高数值孔径(High-NA)可能会将多次极紫外(EUV)曝光步骤合并为一次,从而降低成本并提高长期良率。
IBM 的 NanoStack 技术发布会是那种罕见的工艺技术披露案例,我越看越觉得匪夷所思,直到最终理解为止。它并非简单地将两组晶圆堆叠在一起,而是一种晶格承载和蚀刻工艺。
这种交错式设计解决了将电源和信号输入器件的实际问题,而采用不同的硅片取向则为NFET和PFET层提供了独立优化的空间。据我所知,栅极合并键合工艺才是真正的秘诀,因为它将所有部件连接在一起,使其仍然感觉像是晶体管尺寸缩小,而不仅仅是封装工艺节点的简单升级。
从数据上看,亮点可谓包罗万象——晶体管密度翻倍,超过500个,SRAM密度也大幅提升。如果单元功耗和效率数据可信,那么在7A电流下,性能最高的N2单元功耗仅为原来的21%。这简直让人觉得顺序CFET技术还没来得及普及就已迫不及待了。
但这并不意味着IBM已经解决了CFET制造难题。该工艺仍需经受住从研究晶圆到大批量生产的过渡,而且键合本身也必须极其牢固可靠。一旦晶体管设计转向垂直方向,检测、缺陷管理、热建模、电源传输和机械限制等问题都会变得更加复杂。
