未来芯片面临的散热挑战日益凸显,过热会减慢处理器中关键信号的传播速度,导致芯片性能永久性下降。
2.传统散热方式如空气冷却和液体冷却无法满足更高性能芯片的需求,新型散热技术如微流体冷却和喷射冲击冷却正在研究之中。
3.另一方面,芯片背面技术如背面供电网络、高储能电容和集成电压调节器有望降低芯片电压和温度,从而减少热量产生。
4.为此,芯片设计师需要全面了解功耗分布、热点位置、传感器放置和冷却时间,以实现散热与性能之间的平衡。
5.专家们呼吁系统技术协同优化方法,通过整体考虑消除系统、物理设计和工艺技术之间的抽象界限,以应对未来芯片散热挑战。
50多年来,在摩尔定律看似必然性的推动下,工程师们每两年就能将相同面积内可容纳的晶体管数量翻一番。然而,在业界追逐逻辑密度的同时,一个不良副作用也日益凸显:发热。
在当今的CPU和GPU等片上系统(SoC)中,温度会影响性能、功耗和能效。随着时间的推移,过热会减慢处理器中关键信号的传播速度,并导致芯片性能永久性下降。它还会导致晶体管泄漏更多电流,从而浪费电能。反过来,功耗的增加会削弱芯片的能效,因为执行相同的任务所需的能量越来越多。
问题的根源在于另一条定律的终结:登纳德缩放定律。该定律指出,随着晶体管线性尺寸的缩小,电压应降低,以使给定面积的总功耗保持不变。登纳德缩放定律实际上在2000年代中期终结,因为任何进一步降低电压的做法都不可行,否则会损害晶体管的整体功能。因此,虽然逻辑电路的密度持续增长,但功率密度也随之增长,并产生热量。
随着芯片体积越来越小、功能越来越强大,高效的散热对于维持其性能和寿命至关重要。为了确保这种效率,业内需要一种能够预测新半导体技术(制造晶体管、互连和逻辑单元的工艺)如何改变热量产生和消散方式的工具。 Imec的研究同事已经开发出这样的工具。仿真框架使用行业标准和开源电子设计自动化 (EDA)工具,并辅以内部的工具集,以快速探索半导体技术与基于该技术构建的系统之间的相互作用。
迄今为止的结果是不可避免的:随着每个新技术节点的出现,散热挑战也在不断增加,业内需要新的解决方案,包括设计芯片和系统的新方法,如果业内希望它们能够处理热量的话。
传统上,SoC 的冷却方式是将空气吹向其封装上附带的散热器。一些数据中心已经开始使用液体冷却,因为它比气体吸收的热量更多。液体冷却剂(通常是水或水基混合物)可能足以满足最新一代高性能芯片的需求,例如英伟达的新款 AI GPU,据报道其功耗高达 1,000 瓦。但无论是风扇还是液体冷却器,都无法与即将推出的更小节点技术相媲美。
热量从芯片中散发出去的路径很复杂,但95%的热量是通过散热器散发出去的。
以纳米片晶体管和互补场效应晶体管 (CFET) 为例 。领先的芯片制造商已经开始转向纳米片器件,这种器件将目前鳍式场效应晶体管中的鳍片替换为水平堆叠的半导体薄片。利来国际注册CFET 将这种架构发挥到极致,垂直堆叠更多薄片并将它们分成两个器件,从而将两个晶体管放置在与一个晶体管大致相同的空间内。专家预计半导体行业将在 2030 年代引入 CFET。
在研究中,科研人员研究了即将推出的纳米片版本A10(指的是 10 埃,即 1 纳米节点)和 CFET 版本 A5。Imec 预计 A5 将在 A10 之后两代问世。测试设计的模拟结果表明,A5 节点的功率密度比 A10 节点高出 12% 至 15%。在相同工作电压下,这种密度的提升将导致预计温度上升 9°C。
互补场效应晶体管 (CFET) 将纳米片晶体管堆叠在一起,从而提高密度和温度。为了在与纳米片晶体管(A10 节点)相同的温度下工作,CFET(A5 节点)必须在较低的电压下运行。
9 度的温度似乎不算高。但在数据中心里,数十万甚至数百万个芯片密集排列,9 度的温差可能意味着稳定运行和热失控之间的差异——热失控是一个可怕的反馈回路,温度升高会导致漏电功率增加,温度升高又会导致漏电功率增加,如此反复,直到最终安全机制必须关闭硬件以避免永久性损坏。
研究人员正在寻求替代基本液体和空气冷却的先进方法,以缓解这种极端高温。例如,微流体冷却利用蚀刻在芯片上的微小通道来循环设备内部的液体冷却剂。其他方法包括喷射冲击冷却(将气体或液体高速喷射到芯片表面)和浸入式冷却(将整个印刷电路板浸入冷却液槽中)。
但即使这些新技术得以应用,仅仅依靠冷却器来消除多余的热量可能也不切实际。对于移动系统来说尤其如此,因为它们受到尺寸、重量、电池电量以及避免烫伤用户的需求的限制。与此同时,数据中心面临着另一个限制:由于冷却是一项覆盖整个系统的基础设施支出,因此每次新芯片到货时更新冷却装置的成本过高,而且干扰太大。
幸运的是,冷却技术并非防止芯片炸裂的唯一方法。各种系统级解决方案都可以通过动态适应不断变化的热条件来控制热量。
一种方法是将热传感器放置在芯片周围。当传感器检测到令人担忧的温度上升时,它们会发出信号,降低工作电压和频率,从而降低功耗,以抵消热量。然而,虽然这种方案解决了散热问题,但它可能会明显影响芯片的性能。例如,芯片在高温环境下可能总是工作不佳。
另一种方法称为“热冲刺”,对于多核数据中心 CPU 尤其有用。该方法通过运行一个核心直至过热,然后在第一个核心冷却期间将操作转移到第二个核心来实现。此过程可以最大限度地提高单线程的性能,但当工作必须在多个核心之间迁移以执行较长的任务时,可能会导致延迟。热冲刺还会降低芯片的整体吞吐量,因为在芯片冷却期间,部分功能始终处于禁用状态。
因此,利来国际注册系统级解决方案需要在散热和性能之间取得平衡。为了有效地应用这些解决方案,SoC 设计人员必须全面了解芯片上的功耗分布、热点出现的位置、传感器的放置位置以及它们何时触发电压或频率降低,以及芯片各部件冷却所需的时间。然而,即使是最优秀的芯片设计人员,利来国际注册也很快需要更具创意的散热管理方法。
一项颇具前景的研究是在晶圆的底面或背面添加新功能。该策略主要旨在改善电力输送和计算性能。但它也可能有助于解决一些散热问题。
新技术可以降低多核处理器所需的供电电压,使芯片在可接受的频率下工作时保持最低电压。背面供电网络通过降低电阻来实现这一点。背面电容可以降低瞬态电压损耗。背面集成稳压器允许不同的核心根据需要在不同的最低电压下工作。IMEC
Imec 预见了几种背面技术,这些技术可能允许芯片在较低电压下工作,从而减少它们产生的热量。路线图上的第一项技术是所谓的背面供电网络 (BSPDN) ,它的作用正如其名:将电源线从芯片正面移到背面。所有先进的 CMOS 代工厂都计划在 2026 年底之前提供 BSPDN。早期演示表明,它们通过将电源拉得更靠近晶体管来降低电阻。电阻越小,电压损失就越小,这意味着芯片可以在较低的输入电压下运行。而当电压降低时,功率密度就会下降,温度也会随之下降。
通过改变散热路径中的材料,背面供电技术可以使芯片上的热点变得更热。Imec
在采用 BSPDN 之后,制造商很可能也会开始在芯片背面添加高储能电容。印刷电路板和芯片封装中的电感引起的较大电压摆幅在高性能 SoC 中尤其成问题。背面电容应该有助于解决这个问题,因为它们更靠近晶体管,可以更快地吸收电压尖峰和波动。因此,这种布置可以使芯片在比单独使用 BSPDN 更低的电压和温度下运行。
最后,芯片制造商将引入背面集成电压调节器 (IVR) 电路。这项技术旨在通过更精细的电压调节进一步降低芯片的电压需求。例如,智能手机的 SoC 通常有 8 个或更多计算核心,但芯片上没有足够的空间为每个核心配备独立的电压调节器。因此,通常需要一个片外调节器来同时管理四个核心的电压,无论这四个核心是否面临相同的计算负载。而 IVR 则通过专用电路单独管理每个核心,从而提高能效。将它们放置在背面可以节省正面的宝贵空间。
目前尚不清楚背面技术将如何影响热管理;需要进行演示和模拟来绘制其影响。添加新技术通常会增加功率密度,芯片设计人员需要考虑其热影响。例如,在放置背面 IVR 时,如果 IVR 均匀分布,还是集中在特定区域(例如每个核心和内存缓存的中心),热问题会得到改善吗?
最近,研究人员展示了背面供电技术,即使解决了旧问题,也可能引发新的散热问题。其根源在于制造背面供电网络 (BSPDN) 时留下的一层极薄的硅。在正面设计中,硅衬底厚度可达 750 微米。由于硅导热性良好,这层相对较厚的硅层有助于横向散热,从而控制热点。
然而,添加背面供电技术需要将衬底厚度减薄至约 1 毫米,以便从背面接入晶体管。这层薄薄的硅片被夹在两层导线和绝缘体之间,无法再有效地将热量向侧面传导。结果,过热晶体管产生的热量会被困在局部,并被迫向上流向温度较低的区域,从而加剧热点问题。
研究人员对一款 80 核服务器 SoC 的模拟发现,BSPDN 可使热点温度升高高达 14 °C。设计和技术调整(例如增加背面金属的密度)可以改善这种情况,但研究人员需要更多缓解策略才能完全避免这种情况。
BSPDN 是 Imec 称之为 CMOS 2.0 的新型硅逻辑技术范式的一部分。这个新兴时代还将出现先进的晶体管架构和专用逻辑层。这些技术的主要目的是优化芯片性能和功率效率,但它们也可能带来热性能优势,包括改善散热性能。
在当今的CMOS芯片中,单个晶体管驱动信号到附近和远处的元件,导致效率低下。但如果有两个驱动层会怎样呢?一层处理长线,并用专用晶体管缓冲这些连接;另一层仅处理10毫米以内的连接。由于第二层中的晶体管针对短连接进行了优化,它们可以在较低的电压下工作,这又会降低功率密度。不过,具体能降低多少功率密度仍不确定。
未来,芯片的各个部件将采用各自合适的制程技术,在各自的硅晶圆上制造。然后,它们将被 3D 堆叠,形成比仅使用单一制程技术制造的 SoC 性能更佳的芯片。但工程师必须仔细考虑热量如何在这些新的 3D 结构中流动。Imec
显而易见的是,解决行业散热问题将是一项跨学科的努力。任何一项技术——无论是热界面材料、晶体管、系统控制方案、封装还是冷却器——都不太可能单独解决未来芯片的散热问题。研究人员需要所有这些技术。借助优秀的仿真工具和分析,研究人员可以开始了解每种方法的应用范围和实施时间表。尽管CMOS 2.0技术(特别是背面功能化和专用逻辑)的散热优势前景光明,但研究人员需要验证这些早期预测,并仔细研究其影响。例如,对于背面技术,研究人员需要精确了解它们如何改变热量的产生和散发,以及这是否会带来比解决的问题更多的新问题。
芯片设计师可能会倾向于采用新的半导体技术,认为不可预见的发热问题可以在后期通过软件处理。这或许没错,但效果有限。过度依赖软件解决方案会对芯片性能产生不利影响,因为这些解决方案本身就不够精确。例如,修复单个热点可能需要降低更大区域的性能,而该区域原本不会过热。因此,SoC 和用于构建 SoC 的半导体技术必须协同设计。
好消息是,越来越多的 EDA 产品正在添加高级热分析功能,包括在芯片设计的早期阶段。专家们也呼吁一种名为 “系统技术协同优化”的芯片开发新方法。STCO 旨在通过整体考虑来消除系统、物理设计和工艺技术之间僵化的抽象界限。资深专家需要走出自己的舒适区,与其他芯片工程领域的专家合作。研究人员或许尚不清楚如何解决业界日益严峻的热挑战,但研究人员乐观地认为,只要有合适的工具和合作,就能实现这一目标。