荣格工业资源APP
了解工业圈,从荣格工业资源APP开始。
英特尔、三星和台积电这三家领先的代工厂已经开始在其路线图中填补一些关键部分,为未来几代芯片技术增加了积极的交货日期,并为性能的显著提高奠定了基础,同时为定制设计提供更快的交付时间。
与过去不同,当单一的行业路线图决定如何进入下一个工艺节点时,三大晶圆厂越来越多地开辟自己的道路。它们都在朝着相同的大方向发展,包括3D晶体管和封装、一系列支持和扩展技术,以及更大、更多样化的生态系统。但是,它们在方法、架构和第三方支持方面正出现一些关键差异。
这三者的路线图都表明,晶体管的缩放将至少持续到18/16/14埃范围,可能会从纳米片和叉片FET转向,然后在未来的某个时候出现互补FET(CFET)。关键驱动因素是人工智能(AI)和机器学习(ML)和需要处理的数据爆炸式增长,在大多数情况下,这些将涉及处理元素阵列,通常具有高水平的冗余和同质性,以实现更高的产量。
在其他情况下,这些设计可能包含数十或数百个小芯片,其中一些是为特定数据类型设计的,而另一些则用于更通用的处理。这些小芯片可以以2.5D配置安装在基板上,这种方法在数据中心获得了关注,因为它简化了高带宽内存(HBM)以及移动设备的集成,其中还包括其他功能,如图像传感器、电源和用于非关键功能的附加数字逻辑。这三家代工厂也在开发全3D-IC。此外,还将提供混合选项,逻辑叠加技术安装在基板上,但与其他功能分开,以最大程度地减少热量等物理效应——这种异构配置被称为3.5D和5.5D。
快速和大规模定制
最大的变化之一是将特定领域的设计比过去更快地推向市场。尽管这听起来很平凡,但对于许多领先的芯片来说,这是竞争的必需品,它需要从根本上改变芯片的设计、制造和封装方式。要使这一方案发挥作用,需要结合标准、创新的连通性方案以及过去互动有限的工程学科(如果有的话)。
它有时被称为“大规模定制”,包括通常的功耗、性能和面积/成本(PPA/C)权衡,以及快速组装选项。这就是异构小芯片组装的前景,从缩放的角度来看,它标志着摩尔定律的下一阶段。十多年来,整个半导体生态系统一直在逐步为这一转变奠定基础。
但是,让异构芯片(本质上是来自多家供应商和代工厂的强化IP)协同工作是一项必要又艰巨的工程挑战。第一步是以一致的方式将小芯片连接在一起,以获得可预测的结果,这是晶圆厂花费大量精力的地方,特别是在通用小芯片互连高速(UCIe)和线束(BoW)标准方面。虽然这种连通性是这三者的关键要求,但它也是分歧的主要领域之一。
在完全集成的3D-IC之前,英特尔代工厂当前的解决方案是开发行业消息人士所描述的小芯片“sockets”。该公司不是为商业市场对每个小芯片进行表征,而是定义规格和接口,以便小芯片供应商可以开发这些功能有限的微型芯片来满足这些规格。这解决了商业小芯片市场的一大绊脚石。从数据速度到散热和噪声管理,所有部分都需要协同工作。
英特尔的方案在很大程度上依赖于其嵌入式多芯片互连桥接器(EMIB),该桥接器于2014年首次推出。“EMIB基础真正酷的地方在于,你可以添加任何数量的小芯片,”英特尔技术开发副总裁Lalitha Immaneni表示:“我们对设计中可以使用的IP数量没有限制,而且不会增加中介层的尺寸,因此它具有成本效益,并且与过程无关。我们已经提供了一个封装装配设计套件,它就像您的传统装配PDK。我们给他们设计规则、参考流程,并告诉他们允许的结构。它还会为他们提供我们将其带入组装所需的任何附属品。”
根据设计的不同,封装中可能有多个EMIB,并辅以热界面材料(TIM),以散发可能被困在封装内部的热量。TIM通常是经过设计用于将热量从源头传导出去的焊盘,随着封装内部计算量的增加以及基板变薄以缩短信号传输所需的距离,它们变得越来越普遍。
但是,基板越薄,其散热效率就越低,这可能导致热梯度与工作负载相关,因此难以预测。消除这种热量可能需要TIM、额外的散热器,以及可能更奇特的冷却方法,例如微流体。
台积电和三星也都提供桥接器。三星在RDL中嵌入了桥接器——这种方法被称为2.3D或I-Cube ETM——并且它正在使用它们将子系统连接到这些桥接器,以加快芯片工作的时间。一些集成工作将在已知良好的模块中预先完成,而不是依赖于套接字方法。
“将两个、四个或八个CPU组装到一个系统中是非常老练的客户知道如何出去做的事情,”Arm首席执行官Rene Haas在最近的三星铸造活动的主题演讲中表示:“但是,如果你想构建一个SoC,它有128个CPU连接到神经网络、内存结构、与NPU接口的中断控制器,以及一个用于连接到另一个小芯片的片外总线,那就是很多工作。在过去的一年半时间里,我们看到一大批人正在构建这些复杂的SoC,他们希望从我们这里得到更多。”
三星还一直在建立针对特定市场的小型芯片提供商的小型联盟。最初的概念是,一家公司构建I/O芯片,另一家公司构建互连,第三家构建逻辑,当证明有效时,其他公司就会加入其中,为客户提供更多选择。
图1:台积电的3Dblox方法(图片来源:台积电)
台积电已经尝试了许多不同的选项,包括RDL和非RDL桥接、扇出、2.5D晶圆上芯片(CoWoS)和集成芯片上系统(SoIC),这是一种3D-IC概念,其中小芯片使用非常短的互连封装和堆叠在基板内。事实上,台积电几乎为每种应用都提供了工艺设计套件,并且一直积极创建用于先进封装的装配设计套件,包括与之配套的参考设计。
挑战在于,愿意投资这些复杂封装的晶圆代工客户越来越需要非常定制化的解决方案。为了促进这一点,台积电推出了一种名为3Dblox的新语言,这是一种自上而下的设计方案,融合了物理和连接结构,允许在两者之间应用断言。这种沙盒方法允许客户利用其任何打包方法—InFO、CoWoS和SoIC。这对台积电的商业模式也至关重要,因为该公司是三家公司中唯一的纯晶圆代工厂——尽管英特尔和三星近几个月来都已经疏远了他们的代工厂业务。
“我们从模块化的概念开始,”台积电先进技术和掩模工程副总裁Jim Chang在2023年首次推出3Dblox时的演讲中说。“我们可以使用这种语言语法和断言来构建完整的3D-IC堆栈。”
Chang认为,造成这种情况的原因是物理和连接设计工具之间缺乏一致性。但他补充说,一旦这种方法被开发出来,它也使得在不同设计中重用小芯片成为可能,因为大部分表征已经明确定义,而且设计是模块化的。
三星紧随其后,于2023年12月推出了自己的系统描述语言3DCODE。三星和台积电都声称他们的语言是标准,但它们更像是新的代工厂规则平台,因为这些语言不太可能在他们自己的生态系统之外使用。英特尔的2.5D方法不需要新的语言,因为规则是由插槽规范决定的,通过缩短上市时间和更简单的方法对小芯片开发人员进行一些定制。
Chiplets挑战
小芯片(Chiplets)具有明显的好处。它们可以在任何有意义的工艺节点上独立设计,这对于模拟特性尤为重要。但是,弄清楚如何将各个部分组合在一起并产生可预测的结果一直是一个重大挑战。DARPA提出的最初的类似乐高积木的架构方案被证明比最初设想的要复杂得多,它需要广泛的生态系统付出巨大而持续的努力才能使其发挥作用。
小芯片需要精确同步,以便准确处理、存储和检索关键数据,而不会出现延迟。否则,可能会出现计时问题,其中一个计算会延迟或与其他计算不同步,从而导致延迟和潜在的死锁。在任务或安全关键型应用中,几分之一秒的损失可能会产生严重的后果。
简化设计过程,特别是对于特定领域的设计,其中一种尺寸并不适合所有人,是一项极其复杂的工作。这三家晶圆代工厂的目标是为将要开发高性能、低功耗芯片的公司提供更多选择。据估计,目前有30%至35%的前沿设计始于谷歌、Meta、Microsoft和特斯拉等大型系统公司,领先的芯片和封装设计的经济性已经发生了重大变化,PPA/C公式和权衡也发生了变化。
为这些系统公司开发的芯片可能不会进行商业销售。因此,如果它们能够实现更高的每瓦性能,那么设计和制造成本可以通过降低冷却功率和更高的利用率来抵消,并且可能还会减少服务器数量。对于销售到移动设备和商用服务器的芯片来说,情况正好相反,在这些设备中,高昂的开发成本可以大量分摊。先进封装中定制设计的经济性对两者都有效,但原因却截然不同。
图2:英特尔的流程路线图。(图片来源:Intel Foundry)
缩小、放大和扩展
人们认为,在这些复杂的chiplet系统中将存在多种类型的处理器,其中一些高度专业化,另一些则更通用。由于功率预算有限,至少其中一些处理器可能需要在最先进的工艺节点上开发。先进的节点仍然具有更高的能效,这使得可以在相同的区域内更紧密地排列更多的晶体管,从而提高性能。这对于AI/ML应用至关重要,因为在高度并行的配置中,处理更多数据需要更多的乘法/累加操作。较小的晶体管具有更高的能效,可以在每平方毫米硅片上实现更多的处理,但门结构需要改变以防止泄漏,这就是为什么鳍式场效应晶体管(forksheet FETs)和通道场效应晶体管(CFETs)即将问世。
简而言之,工艺领先地位仍然具有价值。在领先的工艺上率先上市对业务有利,但这只是更大拼图中的一块。所有三家晶圆厂都宣布了将工艺推进到埃单位范围的计划。英特尔计划今年推出18埃,随后是两年后的14埃。
图3:台积电进入埃时代的扩展路线图。(图片来源:台积电)
与此同时,台积电将在2027年增加埃16(见图3)。
图4:三星的工艺扩展路线图(图片来源:三星晶圆厂)
三星将在2027年的某个时候通过其SF1.4达到14埃,显然跳过了18/16埃。(见图4)
从工艺节点的角度来看,这三家晶圆厂都在同一条轨道上。但是,进步不再仅仅与过程节点联系在一起。人们越来越关注特定域中的每瓦特延迟和性能,而这正是在真正的3D-IC配置中堆叠逻辑对逻辑的优势所在,它使用混合键将小芯片连接到基板并相互连接。在平面芯片上通过导线移动电子仍然是最快的(假设信号不必从芯片的一端传播到另一端),但将晶体管堆叠在其他晶体管之上是次好的做法,在某些情况下甚至比平面SoC更好,因为一些垂直信号路径可能更短。
在最近的一次演讲中,Samsung Foundry的代工业务开发副总裁Taejoong Song展示了一个路线图,该路线图将逻辑对逻辑安装在基板上,将2nm(SF2)芯片结合在4nm(SF4X)芯片之上,两者都安装在另一个基板的顶部。这基本上是2.5D封装上的3D-IC,也就是前面提到的3.5D或5.5D概念。Song表示,从2027年开始,晶圆厂将开始在SF2P之上堆叠SF1.4。这种方法特别吸引人的是散热的可能性。由于逻辑功能与其他功能分离,因此热量可以通过基板或五个裸露侧面中的任何一个从堆叠的芯片中散发出去。
与此同时,英特尔将利用其Foveros Direct 3D面对面或面对面地堆叠逻辑。根据英特尔的一份新白皮书,该方法允许来自不同代工厂的芯片或晶圆,连接带宽由铜通过间距确定。该论文指出,第一代将使用9μm的铜间距,而第二代将使用3μm的间距。
图5:三星用于AI的3D-IC架构(图片来源:三星)
“真正的3D-IC配备了Foveros,然后还配备了混合键,”英特尔的Immaneni说。“你不能走传统的设计路线,你把它放在一起并运行验证,然后发现,‘哎呀,我有一个问题。’你不能再这样做了,因为你正在影响你的上市时间。所以你真的想提供一个沙箱来使其可预测。但是,即使在我进入这个详细的设计环境之前,我也想运行我的机械/电气/热分析。我想看看连通性,这样我就不会有开路和短路。3D-IC的负担更多地在于代码设计,而不是执行。
图6:Intel的Foveros Direct 3D(图片来源:Intel)
Foveros允许将有源逻辑芯片堆叠在另一个有源或无源芯片上,基层芯片用于以36微米的间距连接封装中的所有芯片。通过利用先进的分类技术,英特尔声称它可以保证99%的已知良好模具,并在组装后测试中保证97%的良率。
与此同时,台积电的CoWoS已经被NVIDIA和AMD用于其AI芯片的先进封装。CoWoS本质上是一种2.5D方法,使用中介层通过硅通孔连接SoC和HBM内存。该公司对SoIC的计划更加雄心勃勃,将逻辑上的内存以及其他元素(如传感器)封装在生产线前端的3D-IC中。这可以显著减少多层、尺寸和功能的组装时间。台积电称,与其他3D-IC方法相比,其绑定方案可实现更快、更短的连接。一份报告称,苹果将从明年开始使用台积电的SoIC技术,而AMD将扩大对这种方法的使用。
其他创新
将工艺和包装技术落实到位,为更广泛的竞争选择打开了大门。与过去不同,当大型芯片制造商、设备供应商和EDA公司定义芯片路线图时,Chiplet世界为最终客户提供了做出这些决策的工具。这在很大程度上是由于可以放入封装中的功能数量与可以适应SoC的光罩限制的功能数量相比。封装可以根据需要水平或垂直扩展,在某些情况下,它们可以通过垂直楼层规划来提高性能。
但是,鉴于云端和边缘领域的巨大机遇,特别是随着人工智能无处不在的推广,三大晶圆厂及其生态系统正在竞相开发新的功能和特性。在某些情况下,这涉及利用他们已经拥有的东西。在其他情况下,它需要全新的技术。
例如,三星已经开始详细制定有关定制HBM的计划,其中包括3D DRAM堆栈,其下方有一个可配置的逻辑层。这是这种方法的第二次采用。早在2011年,三星和美光就共同开发了混合内存立方体,将DRAM堆栈封装在一层逻辑上。在JEDEC将其变成标准后,HBM赢得了战争,而HMC在很大程度上消失了。但是,HMC的方法没有任何问题,除了可能时机不对。
图7:三星路线图和创新
(图片来源:Semiconductor Engineering/MemCon 2024)
在其新形式中,三星计划提供定制的HBM作为选项。内存是决定性能的关键元素之一,在内存和处理器之间更快地读取/写入和来回移动数据的能力会对性能和功耗产生重大影响。如果内存的大小适合特定的工作负载或数据类型,并且如果可以在内存模块内部进行一些处理,从而减少需要移动的数据,那么这些数字可能会明显更好。
与此同时,英特尔一直在致力于开发一种更好的方式来为紧密排列的晶体管供电,随着晶体管密度和金属层数的增加,这一问题一直存在。过去,电力是从芯片顶部向下输送的,但在最先进的节点上出现了两个问题。一个是如何为每个晶体管提供足够的电力。第二个是噪声,它可以来自电源、基板或电磁干扰。如果没有适当的屏蔽(由于基板和导线变薄,每增加一个节点屏蔽就变得更加困难),这种噪声会影响信号完整性。
通过芯片背面供电可以最小化这些问题并减少布线拥堵。但是这也带来了其他挑战,例如如何在更薄的基板上钻孔而不造成结构损坏。英特尔似乎已经解决了这些问题,计划今年推出其PowerVia背面供电方案。
台积电表示,计划在A16节点(2026/2027年)提供背面供电。三星的进度大致相同,将在SF2Z 2nm工艺中提供背面供电。英特尔还宣布了玻璃基板计划,这种基板的平面度和缺陷率比CMOS更好。这对于先进节点尤其重要,因为即使是纳米级的坑也会造成问题。
与背面电源传输一样,处理问题很多。好处是玻璃的热膨胀系数与硅相同,因此它与硅组件(如chiplets)的膨胀和收缩兼容。经过多年在一旁观望,玻璃突然变得非常有吸引力。事实上,台积电和三星也在开发玻璃基板,整个行业开始使用玻璃进行设计、处理和检查。
与此同时,台积电专注于建立生态系统并扩大其工艺产品线。许多业内消息人士表示,台积电真正的优势在于能够为几乎任何工艺或封装提供工艺开发套件。据《日经新闻》报道,台积电生产了全球约90%的最先进芯片。它也是所有代工厂中拥有最先进封装经验的,并且拥有大而广泛的生态系统,这一点很重要。
这个生态系统至关重要。芯片产业极为复杂多样,没有哪家公司能够包揽一切。未来需要考虑的是这些生态系统的完整性,尤其是随着工艺流程数量的不断增加。例如,EDA供应商是至关重要的推动者,任何工艺或封装方法要取得成功,都需要自动化工具。但随着工艺流程和封装选项的增多,EDA供应商要支持每一个细微的改进或提升将变得越来越困难,而且从宣布到交付的时间可能会越来越长。
结论
最近的供应链中断和地缘政治事件让美国和欧洲意识到,他们需要将制造业重新带回本土,并与友好国家合作。对半导体工厂、设备、工具和研究的投资前所未有。这些投资对三大晶圆厂的影响还有待观察,但它们确实为新技术的发展提供了动力,比如共封装光学器件、一系列新材料以及低温计算。
所有这些变化对市场份额的影响越来越难以追踪。这不再是哪个晶圆厂能够生产最小尺寸的芯片,甚至不再是芯片的出货量。一个先进的封装可能包含数十个chiplet。真正的关键在于能够快速、高效地向客户提供有价值的解决方案。
在某些情况下,驱动因素将是每瓦性能;而在其他情况下,可能需要将功率作为次要考虑因素来产生结果。在另一些情况下,它可能只是只有一家领先的晶圆厂才能提供足够数量的功能组合。但显而易见的是,代工厂的竞争比以往任何时候都更加复杂,而且变得更加复杂。在这个高度复杂的世界中,简单的比较指标不再适用。
(本文编译整理自semiengineering)
作者:ED SPERLING
来源:荣格-《智能制造纵横》
原创声明:
本站所有原创内容未经允许,禁止任何网站、微信公众号等平台等机构转载、摘抄,否则荣格工业传媒保留追责权利。任何此前未经允许,已经转载本站原创文章的平台,请立即删除相关文章。