

新闻资讯
知识专栏人工智能数据中心正将配电架构推向传统保护机制失效的新领域。在AI训练集群所需的功率水平下,48V配电将需要庞大的铜母线,这会占用宝贵的机架内部空间。通过将配电电压提升至800V,传输给定功率所需的电流得以降低,从而使铜材用量减少30%到50%,并显著降低I²R电阻损耗。
然而,降低铜材用量的更高直流电压却使故障管理变得更加困难。交流系统每秒有多次自然过零点,而直流系统没有这样的过零点。因此,故障电流可能持续流动,电弧持续时间可能更长。同时,转换器、不间断电源系统、母线电容器和服务器功率级中储存的能量会极快地释放到故障点。
因此,直流保护正成为高压AI数据中心电源架构面临的关键工程障碍。
AI数据中心的保护区域划分
在AI数据中心,直流保护必须按区域划分。这些区域通常遵循以下电源路径:市电或中压输入、变压器或固态变压器输出、整流器或不间断电源前端、中央直流母线、排级或吊舱级母线、机架输入、机架高压直流转48V级、48V shelf或服务器托盘、板级中间总线,以及负载点转换器。
这种级别的划分至关重要,因为故障能量并非均匀分布。在上游源端,故障可能持续更长时间;而在下游组件端,如母线电容器、热插拔电路和短距离、低电感互连,会在故障初期产生极快的电流峰值。因此,保护必须在时间和能量上都是分层的。
需要遵循的基本原则是选择性协调,即距离故障最近的设备首先响应,而只有当本地设备无法清除故障时,上游设备才会动作。这在直流系统中比传统交流系统更难实现。交流保护依赖于时间-电流曲线,并能容忍100-200毫秒的清除延迟。在快速直流系统中,这个延迟可能过长,因为在故障清除之前,母线电压就可能已经崩溃,尤其是当多个储能设备向同一故障点放电时。
这在速度与选择性之间产生了权衡。快速的固态保护可以限制故障能量并缩短电弧持续时间,这对保护机架连接器至关重要。但如果每个快速设备都将瞬态的高图形处理器负载视为故障,系统就可能发生跳闸,从而将局部扰动升级为机架级或吊舱级的断电。
机械断路器和熔断器有助于在系统的某些部分保持协调性,但它们在清除故障前可能会让过多能量注入故障点。因此,实用的直流保护可能会采用混合架构,其中快速的本地电子保护负责限制能量,而更高级别的分支保护则用于故障安全隔离和维护断开。
AI工作负载带来的图形处理器和加速器会产生极端的负载瞬变,这使故障检测更加困难。开放计算项目指出,未来的核心供电瞬变可能超过3千安/微秒;而西北太平洋国家实验室强调,快速的AI负载波动非常显著,需要进行电磁瞬态或EMT域建模。
各区域的故障中断
由于直流故障发展极快,固态保护在高压直流数据中心架构中正变得日益重要。在富含转换器的直流母线中,故障电流可在微秒内上升,电容器、母线和功率级中存储的能量可能在机械断路器来得及断开之前就损坏半导体。这就是固态断路器、混合断路器、电子熔断器、热插拔控制器和预充电电路成为直流保护架构关键组成部分的原因。
固态断路器响应故障时间尺度
与机械断路器不同,固态断路器无需等待触点分离。这使其能够在几百纳秒到几微秒内做出响应,比机械中断更接近快速直流故障事件的时间尺度。
一个实用的固态断路器需要具备双向阻断能力,这通常根据拓扑结构采用背对背金属-氧化物半导体场效应晶体管来实现。英飞凌的固态断路器参考设计展示了此类架构。它采用背对背金属-氧化物半导体场效应晶体管、瞬态电压抑制钳位、用于气隙隔离的安全继电器,以及电流、电压和温度监测。在其碳化硅型号中,该设计在约330-370 VDC电压下运行,标称电流为16安培。

图1
参考指南显示,在10-15安/微秒的测试条件下,过流跳闸行为发生在约145安培左右,测试到的最大di/dt高于100安/微秒,CoolSIC器件的总传播关断延迟约为420纳秒。虽然此参考设计的工作电压低于800 VDC机架母线,但它展示了用于快速直流中断的器件级构建模块。
碳化硅器件需要快速短路保护
碳化硅器件对固态断路器和高压转换器级具有吸引力,因为它们能阻断高电压并实现极快开关速度。然而,它们的短路耐受时间也有限。英飞凌的1200V CoolSiC数据显示,根据器件代次不同,短路耐受时间仅有几微秒量级。这使得短路检测和栅极驱动关断变得至关重要。Wolfspeed的短路应用笔记解释了为什么去饱和检测对于碳化硅器件是强制性的。一旦器件吸收了过多短路能量,就可能因热失控而发生失效。
在Wolfspeed的一个例子中,去饱和检测将800V测试条件下的短路暴露时间从约2.9微秒减少到300纳秒。这将吸收的短路能量从约1.4焦耳降低到0.2焦耳以下。关键在于,碳化硅保护必须在器件达到其临界能量极限之前动作。
快速关断产生过电压问题
快速中断电流解决了一个问题,但又引发了另一个问题。当流过电感的电流被迫迅速停止时,储存的磁能必须有一个去处。如果不受控制,其结果就是在开关器件两端产生电压尖峰。这就是为什么在固态直流断路器设计中,瞬态电压抑制二极管、金属氧化物压敏电阻、缓冲电路和有源钳位不是可选项。它们决定了关断期间故障能量的去向以及半导体承受的电压应力。

图2
Littelfuse的白皮书针对电池储能系统和数据中心应用中的固态直流断路器强调了这一点。瞬态电压抑制二极管可以钳位瞬态电压,但当器件并联时,均流变得困难。实际的钳位电压还取决于布局对称性、杂散电感以及保护器件的物理位置。
栅极驱动完整性成为直流保护的一部分
快速中断通常取决于开关器件在需要时关断,并在故障清除过程中保持关断状态。在高压直流保护电路中,栅极驱动电路、封装寄生参数、布局电感和dv/dt决定了中断器在故障期间是否能阻断电流。
一个关键风险是米勒诱导导通。当处于关断状态的器件漏极电压快速上升时,电流可通过米勒电容耦合,从而抬升栅极电压。如果栅极超过阈值电压,器件可能会意外导通。在保护电路中,这种非预期的导通会使故障期间电流持续流动。
电源设计人员可以采用米勒钳位、负栅极偏置、强下拉路径、开尔文源极连接和栅极回路布局等技术。意法半导体的应用笔记解释了为什么通常使用米勒钳位来防止意外导通,同时又不牺牲开关性能。
热插拔和预充电是保护系统的一部分
高压直流保护还必须控制那些看似故障的正常操作事件,尤其是在启动、热插拔和电容器充电时。当机架、shelf、转换器或功率模块连接到直流母线时,其输入电容器会吸收大涌流,如果不加控制,这种电流可能导致保护装置跳闸、使连接器受力并损坏半导体。
热插拔电路可以通过控制浪涌电流,同时仍能对真正的短路做出快速响应来管理这个问题。德州仪器的热插拔指南将这些电路描述为高可用性系统中浪涌电流管理和故障保护的重要组成部分。安森美的电信热插拔控制器强调在承受插入浪涌的同时,实现快速的短路响应。在更高的母线电压下,同样的原理适用,但实现时必须考虑器件额定电压、隔离、爬电距离和电气间隙以及故障能量限制。
对于较大的电容性母线,通常需要预充电电路。典型的顺序是首先通过限流电阻为直流母线电容器充电。一旦电容器电压接近电源电压,主接触器闭合,旁路掉电阻。德州仪器将此描述为高压预充电的标准方法。森萨塔也警告说,不受控的浪涌电流可达数千安培,并可能将接触器触点熔焊在一起。
结论
总而言之,高压直流配电可以降低AI数据中心中的电流、铜材用量和转换损耗。但是,只有当保护从一开始就被设计为一个协调的多层系统时,这些益处才能真正实现。