成为拥有核心技术的半导体元器件供应商和解决方案商
电话咨询(微信同号): +86 18926567115

新闻资讯

知识专栏

理解集成电压调节器及其对xPU吞吐量的影响

作者: 浮思特科技2026-01-07 14:09:48

芯片功耗达1.5千瓦且预计将攀升至4-5千瓦的人工智能(AI)工作负载,正在迫使数据中心电源架构发生根本性转变。当前的挑战已不仅仅是供电容量,更在于电力输送本身。传统的横向供电路径如今会产生高达10%的电阻性(I²R)损耗,并以热量形式散失。此外,AI处理固有的巨大电流瞬变会产生电压波动,迫使设计者采用保守的电压保护带,这直接限制了芯片的峰值性能。

安杜拉科技公司执行副总裁兼首席产品官Davood Yazdani博士指出:"为满足不断升级的功率需求,AI基础设施已汇聚于集成电压调节器(IVR),使其从一项小众技术转变为关键任务必需品。"

数据中心发电瓶颈

Yazdani首先阐述了数据中心飙升的电力需求。他援引国际能源署(IEA)的估计,未来三到四年内,全球数据中心总耗电量将达到100太瓦时(TWh)。紧接着,他提到了国际货币基金组织(IMF)的预测,到2030年,这一数字将飙升至1500 TWh,其规模之大相当于印度每年的用电量。

"那么问题来了,在未来三到四年内,我们真的能为数据中心生产出那么多额外的电力吗?答案很可能是'不'," Yazdani说道。在某些时候,需求将超过为数据中心生产额外电力的能力。

Yazdani将能效视为满足短期电力需求的关键推动因素。"我们在每瓦效率或性能上获得的每一个百分点,都直接转化为发电和制冷资源的显著节约,这对于未来这些系统的可行性至关重要。"

他认为,可扩展AI的关键在于更智能的供电和最大化每瓦计算能力。目标是在现有可用电力的基础上最大化数据吞吐量。或许有人会认为,将向xPU(GPU、TPU和其他AI加速器)的供电与数据吞吐量混为一谈是不准确的;然而,事实远非如此。向芯片的供电不仅会影响转换效率,也会影响吞吐量。

横向、背面与集成供电方案

横向与垂直供电

传统数据中心采用横向方式为芯片供电。历史上,尽管电源与CPU引脚之间的供电网络(PDN)存在不可避免的损耗,但这种方式曾是足够的。

然而,现代xPU的电流消耗量要大得多。"以前是几百瓦,但现在达到了1.5千瓦,下一代芯片预计将升至4到5千瓦,"Yazdani说。当电流增加时,PDN损耗也随之增加,高达10-15%的输送电力在到达芯片之前就以热能形式损耗掉——横向供电的局限性已变得至关重要。

通过从电路板背面供电,工程师可以显著缩短电气路径。然而,这也带来了新的设计限制:"当转向电路板背面时,主要的挑战是空间密度。在如此有限的空间内输送高功率是很困难的,"Yazdani继续说道。

这些空间限制迫使设计采用更高的开关频率,从而允许使用更小的分立元件(如电感器和电容器)。尽管有这些进步,高度限制仍阻碍了这些解决方案完全集成到封装内部。

板载侧与封装集成

"为了进一步最小化PDN损耗,行业正将稳压环节越来越靠近硅核心,"Yazdani表示。这导致了IVR的兴起,它将电压转换过程移入封装内部或直接置于芯片本身上。

作为IVR领域的领导者,安杜拉对这些集成方法保持灵活、中立的态度,支持背面、板载侧和封装内集成的架构,以满足不同的热性能和性能要求(图1)。

image_8b4958_100%.jpg

图1

在板载侧方法中,一种思路是移除专用集成电路(ASIC)封装上的部分焊球,让电源管理器件可以直接附着在ASIC上。然后在主板上创建一个约0.5毫米至1毫米的小型腔体,将其安装在板载侧。

集成化的下一个前沿在于封装内部,这一举措带来了独特的挑战。"要进入封装内部,整个生态系统必须准备就绪,"Yazdani解释道。博通、迈凌科技、英特尔(通过EMIB技术)和台积电(通过CoWoS技术)等业界领导者已经建立了能够实现2.5D和3D封装集成的生态系统。

Yazdani继续说道:"实现封装内集成需要同时纳入电源管理芯片、电感器和电容器。"此外,各公司正致力于实现芯片直接供电,通过从分立的外部元件演变为嵌入中介层和封装基板内部的集成解决方案,将电压调节环节移至更靠近负载(特别是逻辑核心和HBM电源轨)的位置。

正如Yazdani所指出的,朝向芯片集成发展带来了严峻的热设计挑战:"你的SoC本身就很热,而你正把另一个热源——你的电源管理IVR——就放在它旁边。"他阐述了整个行业正在探索究竟可以在封装中集成多高功率的IVR:"他们能集成1千瓦吗?能集成5千瓦吗?但最终,行业会解决这个问题;然而,短期内,我们可能会达成某种混合解决方案,部分稳压在内部完成,部分在外部完成。"

IVR的作用是什么?

混合信号集成电路电路和版图设计师会集成各种芯片级电容器,例如金属-绝缘体-金属(MIM)电容器和深沟槽硅电容器(ECAP),以调节电源并在快速负载瞬变期间维持电压稳定。这些元件充当本地能量储存器;正如Yazdani所解释:"电源管理的任务是确保这些电容器始终处于充电状态,保证系统能够即时响应高性能需求而不会出现电压骤降。"

Yazdani进一步阐述:"在150 MHz的开关频率下,每相所需的电感值降至约2.5 nH。在此尺度下,可以利用薄膜技术显著缩小电感器尺寸。"这种超低电感值使得电流变化率(V = L*di/dt)可以高得多,从而能够近乎即时地响应AI工作负载的快速动态波动。因此,这确保了集成封装电容器能更高效地得到补充,在高需求瞬变期间维持电压稳定。

IVR的设计挑战与优势

AI工作负载具有高度动态性,转换速率(slew rate)高达10至100 A/ns。快速的转换速率会在瞬变期间导致不可避免的电压骤降;因此,系统电源必须保持稳定,以避免xPU中的时序问题。这推动了将电源管理尽可能靠近芯片的动机,在某些情况下甚至直接集成在芯片上,从而最小化电感。最小化电感可以实现更快的电流响应(V=L*di/dt),提供更强的能力为芯片电容器充电并响应负载瞬变。

然而,靠近性也带来了复杂性。在100至150 MHz的开关频率下,IVR容易受到不期望的谐振和电磁干扰(EMI)的影响,需要精心设计以降低这些风险。

尽管存在这些障碍,该设计提供了固有的优势:"当IVR在这些开关频率下工作时,它们能够快速响应任何负载瞬变并从中恢复,"Yazdani说。这种能力直接影响延迟,因为负载变化必须等到系统恢复稳定才能进行:"电源恢复中的更高延迟直接减少了AI芯片在给定时间内可以完成的总工作量(吞吐量)。"

直到最近,供电限制还很少影响数据吞吐量。转向垂直供电只解决了问题的一半——效率。为了最大化性能,系统需要超高带宽的供电,以确保在快速的工作负载瞬变期间实现近乎即时的响应和恢复。

通过改进供电提升芯片数据速率

接下来,Yazdani更详细地探讨了下一代供电技术带来的吞吐量提升,描述了芯片设计与电源设计之间长期存在的界限可能已不再适用。

"传统上,xPU供应商设计好他们的AI芯片,然后将规格交给电源或系统工程师,由后者构建电源管理方案以满足这些要求,"Yazdani说道。

这种传统方法对于之前200-1000瓦的xPU是足够的,但如今已不再适用。芯片设计者常用的一种安全工具是保护带设计,即降低芯片性能(时钟速度)以确保AI芯片能够安全通过瞬变。

然而,保护带设计现在已成为苛刻AI工作负载的障碍。有必要与AI芯片设计师紧密协调来设计电源管理方案,以避免在部署过程中采用过大的保护带。

IVR最大限度地减少了AI芯片设计中过度保护带设计的必要性,因为它们的高速电路对负载瞬变的响应要快得多。Yazdani对此进行了扩展:"这一优势在核心电压降至0.75V以下的更小工艺节点上变得更加明显。通过减少电压骤降,IVR允许实现更高的'安全'时钟速度,这直接提高了AI芯片的性能和整体计算能力。"

CMOS功耗中的V²因子

电源管理优化为ASIC带来的性能提升比典型电源系统要显著得多。这是因为CMOS数字逻辑中的动态功耗与电压的平方成正比,而不是典型的P=IV公式:

PD = Ceff * VDD² * f

其中,PD是动态功耗,Ceff是有效开关电容,VDD是电源电压,f是工作频率。

实际上,对于高功耗AI芯片,使用安杜拉的IVR有巨大的性能提升空间。"例如,对于0.8V的核心电压,将电压骤降减少50毫伏,很容易带来约14%的性能提升。而如果使用传统VR或低带宽IVR并设计大量保护带,则无法获得这种提升,"Yazdani说道。

一个多方面的问题

为现代AI芯片供电是一个多方面的挑战。传统的VR和低带宽IVR已无法满足大规模部署的需求,也无法最大化AI芯片的吞吐量。迫切需要一类新的高带宽IVR架构,能够实时响应并恢复高度动态的AI工作负载。"这是实现现代AI系统中更智能的电力利用,并确保在每瓦可用电力下最大化AI芯片吞吐量的唯一途径,"Yazdani说。

Yazdani认为,IVR的成功大规模采用需要半导体和数据中心生态系统的协调转变和深度协作。这种演进必须超越简单的部件采购,走向深度的硬件协同设计。具体来说,必须有一个统一的芯片和封装设计策略,即AI芯片设计师与IVR供应商(如安杜拉)合作,在封装架构最终确定之前就优化供电和集成方案。

这种方法需要在传统上相互分离的设计团队之间建立前所未有的凝聚力。这种合作可以带来显著的性能增益;通过缓解因电源异常导致的GPU降频,系统可以实现更高的持续吞吐量和更优的能效。