文章
高性能计算电源常见问题
这些常见问题涵盖了高性能计算以及一些当前可用的创新解决方案相关的电源系统设计问题。
作者:Anish Jacob,HPC 首席现场应用工程师
高性能芯片有哪些特征?
当代 GPU 有数百亿颗晶体管。更好的处理器性能是以指数级增长的电源需求为代价的,因此人工智能 (AI) 和机器学习 (ML) 等应用的高性能处理器需要不断增加功率。同时,由于先进的处理器节点实现了电流的增长,核心电压正在下降。
在高达 2000A 的峰值电流越来越普遍之际,一些 xPU 公司正在评估多轨方案,将内核主电源轨分成五个或五个以上小电流电源输入。
此外,机器学习工作负载的高动态性还将导致芯片出现持续数微秒的高 di/dt 瞬态。这些瞬态会在高性能处理器模块或加速卡的 PDN 上产生应力。
高性能计算的电流峰值需求水平是多少?
目前的趋势是处理器的功耗每两年翻一番。2,000A 的峰值电流现在已经很普遍。
限制高性能计算性能进一步提高的因素有哪些?
在大多数情况下,供电现已成了计算性能的限制因素。如果提供适当的电源,处理器性能还能更高。供电不仅涉及配电,而且还涉及供电网络 (PDN) 的效率、规模、成本和散热性能。PCB 空间有限,因此高功率密度组件是优化 PDN 的最佳选择。
PDN 不仅会受到功率水平的进一步挑战,而且还会受到可能产生电压尖峰的高动态工作负载的挑战;这些可能会干扰或损坏精密的处理器。数量庞大的其它 PCB 组件也需要占用空间,通过电源布线来限制这种情况就变得非常复杂。PDN 还会受 I2R 损耗的影响,这不仅会降低效率,而且如果管理不当还会产生散热问题。
为什么 AI 或高性能计算的电流难以管理?
人工智能/高性能计算电流难以管理有两个原因:首先,随着负载和电流的增加,更大的电流可能很快会导致整个供电网络中无法支撑的 I2R 损耗。
其次,由于消耗的峰值和空闲电流之间绝对差的增加,应对瞬态的难度更大。此外,还有更高的 di/dt。
而且还需要大量的外部插座电容器来将负载电流保持在纹波包络内。
48V 为什么是“新 12V”?有哪些挑战?
挑战有两个。首先,为了提高数据中心的整体效率,他们正在从 12VDC 电源轨迁移至 48VDC 电源轨。因此,印刷电路板输入和最终转换级之间的电流下降为 1/4 ,相应的欧姆损耗(I2R)下降为 1/16 。
与此同时,CPU 内核电压下降到了远低于 1V 的水平。因此,电源电压和负载点电压之间的差距正在扩大,这是这是第二个值得关注的问题,稳压器效率会随电压差的增加而降低。
为什么传统的供电方式不能胜任?
在典型的处理器封装中,所有电流均被中间内核消耗掉了。也就是说,即使稳压器部署在封装边缘附近,大电流到达内核仍然必须经过相当长一段距离。该电流路径被称为“最后一英寸”距离,受 PCB 电阻损耗以及寄生电感及电容的影响。
在传统的多相稳压器方案中,电流越大,相位就越多。由于大多数多相稳压器为分立式器件,因此电感器和开关必须单独布局,而且在大多数情况下,还必须单独散热。因此,相位越多,稳压器就越大,会增加处理器附近布局挑战。
此外,任何使用常规多相电源解决方案都必须调整尺寸,才能适应不同的峰值电流。相比之下,Vicor 设计只需针对稳态条件进行尺寸调整,因为 Vicor VTM 模块可针对瞬态提供 2 倍的额定功率。
如何缓解 AI/HPC 的供电挑战?
Vicor 分比式电源架构 (FPA) 是针对当前激增的高性能计算需求提供更高效电源的基础。FPA 将电源转换器的任务分为稳压和变压的专用功能。将这两种功能分开,可对其进行单独优化,以实现高效率和高密度。与正弦振幅转换器 (SAC) 拓扑相结合的 FPA 支撑了几个创新的电源架构,解决当前的高性能处理器的电源需求。
Vicor 利用 FPA,可通过专有架构、横向供电 (LPD) 和垂直供电 (VPD) 最大限度降低“最后一英寸”电阻。在 LPD 中,两个电流倍增器(Vicor VTM™ 模块)位于处理器的上下侧或左右侧。
垂直供电是在低内核电压下以最低 PDN 电阻提供大电流的终极方式。在这种情况下,电流倍增器直接安装在处理器正下方。其在这两种情况下,都能显著降低最后一英寸损耗。
此外,在极高电流的情况下,还可结合这两种方法来优化 PCB 的使用。
对于 VPD,最终电流倍增器级和旁路电容器可以相互堆叠,形成一个集成型电源模块(geared current multiplier),可取代旁路电容器组合,直接安装在处理器下面。
为什么封装技术对 AI/HPC 供电解决方案很重要?
虽然用于实施高性能稳压器的拓扑和架构很重要,但封装技术也很重要。Vicor 的 SM ChiP™(Converter housed in Package)封装将无源、磁性、FET 和控制等所有组件都集成在一个统一的器件中。
此外,该封装经过精心设计,能够以最低的热阻抗,实现最高效的电流提取,从而可增强散热性。许多 SM-ChiP 还包括通过器件重要表面实现的接地金属屏蔽。这不仅有助于散热,而且还可将高频率寄生电流旁路,以防止将其传播到器件外。
如何在 48V 中间母线电源系统中使用原有 12V 单元?
随着系统功率不断提高,各数据中心正纷纷部署 48V 供电网络 (PDN);基于 48V 的架构在保持安全超低电压 (SELV) 水平的同时,可最大限度提高供电网络的效率。
因此,开放式计算机项目 (OCP) 正在通过其开放式机架标准 V2.2 为向 48V 过渡提供支持,这不仅可满足分布式 48V 服务器背板架构的需求,而且还可为 AI 开放式加速器模块 (OAM) 提供 48V 标准工作电压。
这些新标准要求 48V 至 12V 与 12V 至 48V 兼容,以便为处理器的原有 12V 背板及 12V 多相位 VR 提供支持。然而,常规 1/8 及 1/4 开放式框架砖型转换器非常笨重,无法满足先进系统的功率密度需求。此外,常规转换器拓扑的低效率会降低 48V 的配电增益。
Vicor 推出的全新高密度、高效率模块解决方案可用于将 48V 至 12V 系统与 12V 至 48V 系统桥接起来。这些固定比率的稳压转换器以其固有的效率优势实现了 48V PDN 部署,同时减轻了重新设计 12V 传统系统的负担。这些转换器不仅设定了新的功率转换性能标准,而且还带来了面向各种应用需求的选项。
数据中心的电源使用效率 (PUE) 对高性能计算供电网络有何影响?
数据中心的 PUE 反映了进入数据中心的电力有多少用于非计算工作、有多少用于计算机 PDN。
Vicor 如何设计高效的 AI/HPC 供电网络?
虽然每个设计都各不相同,但 Vicor 会通过有条不紊的七个步骤来优化有特定用途的 PDN:
- 了解整个应用。应用的主要功能是什么,哪些与电源相关的功能可以实现进一步提升?
- 看看客户过去和现在的解决方案,弄清楚我们可以改进的地方。
- 检索需求(CART 文件)并推荐相应的 PRM™ 和 VTM。
- 基于现有评估板准备的原理图和布局。
- 经过现场及工厂应用的彻底审核后,客户制作了一些测试板。
- 然后将这些测试板放在工作台上,运行多种类型的测试(针对瞬态、相位/增益裕度等进行环路调谐)。
- 一旦客户满意,我们就会保存上一步的所有设置,然后将信息发给工厂进行批量生产。
为什么边缘计算特别具有挑战性?
边缘计算的成功取决于适当硬件的可用性;系统能够经济地提供必要的处理速度和能力,同时还能经受在常规数据中心之外遇到的不太稳定、不可预测性更大的环境考验。
边缘计算硬件必须包含紧凑、节能的解决方案,可广泛部署在空间有限的恶劣环境中,让计算更接近传感器以及其它数据源。这些硬件包括供电网络以及大型的常规低压电源解决方案。这些都无法支持边缘不断增长的功率密度和小型化,是边缘计算创新的主要瓶颈。
Vicor 技术如何助力实现边缘计算供电?
Vicor 技术可用于设计高度可扩展的紧凑边缘计算资源,其可在恶劣外部环境中蓬勃发展。
这些资源不仅可解决较短电气走线上信号完整性的技术瓶颈问题,同时还可提供极为紧凑的高效率电源转换以及低功耗散热与工程设计。除了不受限于设备、灵活和可扩展之外,该系统还具有高性能,与传统系统相比,至少可降低 40% 的能耗。
Vicor 高功率密度、高效率的电源模块有助于实现散热良好而且节能的紧凑固态 EMDC 设计。
Anish Jacob 是 Vicor 公司的首席现场应用工程师,主要专注于数据中心和人工智能市场。他毕业于俄亥俄州立大学和南加州大学并获学位证书,自 2015 年 4 月以来一直是 Vicor 团队的重要成员,具有扎实的专业技术,可为客户提供尖端解决方案和支持。
Anish Jacob,HPC 现场应用工程师