生成式AI正将大数据技术推向物理极限,这要求基础设施和硬件专家必须应对日益增长的算力需求。随着算力的提升,设备产生的高热量使得数据中心及AI设备的散热面临严峻挑战。
尽管风扇和架空地板是有效的辅助手段,但要控制运营成本并确保基础设施性能的可扩展性,先进的数据中心液冷基础设施才是未来的发展方向。
AI硬件前所未有的功率密度
新一代图形处理单元(GPU)是数据中心(尤其是支持AI运算的数据中心)中耗电量最大的组件之一。服务器机架上密集部署了这些组件,有时单个机架的功耗超过100千瓦——这一数值远超美国普通家庭的用电量。
鉴于数据中心某个区域的能耗可能超过整个居民社区,传统的风冷或被动散热技术已无法满足高密度服务器的热管理需求。设备产生的热流密度极高、热量巨大,常规手段难以实现有效散热。虽然这些传统技术可作为液冷方案的补充,但已不足以单独承担散热重任,特别是在芯片制造和AI技术推动美国基础设施建设激增的背景下。
风冷技术的低效与 PUE 达标的必要性
电源使用效率(PUE)是衡量数据中心能耗水平的关键指标,它反映了设施的能源密集程度。该指标将建筑总耗电量与 IT 设备的实际用电需求进行了对比。过去,行业专业人员很难将 PUE 降至 2.0 以下,这意味着设施浪费了超过一半的能源。尽管目前的平均水平已降至 1.6 到 1.8 之间,但数据中心仍需设法减少因辅助系统运行而产生的能源浪费。
冷却基础设施一直是能源损耗的主要来源;现代超大规模数据中心正采用定制化的自适应硬件来实现智能冷却。虽然这种做法显著优化了 PUE,但这并非行业标配。在评估冷却方案时,企业常利用 PUE 指标来论证部署先进液冷基础设施(如直接芯片液冷或浸没式冷却)所需的高昂前期投入的合理性。
应对热节流问题
高密度服务器的热管理有时不得不以牺牲性能为代价。当 GPU 过热时,为防止硬件损坏,系统会自动降低时钟频率并触发热节流(降频)机制。为避免服务不可靠或发生意外停机,数据中心必须部署多管齐下且稳健可靠的冷却措施,防止 GPU 等设备因过热而被迫启动此类安全保护机制。
然而,当数据科学家要求 AI 模型在训练期间全天候(24/7)运行时,会产生更高的热量,进而增加温控相关的能耗成本。相比之下,液冷技术在维持芯片持续低温运行方面更为可靠。
液冷技术能稳定设备性能,减少因性能波动带来的困扰,并确保系统正常运行时间。如果设备能始终保持接近峰值的性能运行(尤其是在训练期间),便能更快地构建出更强大的模型,从而提升客户体验。
空间与可扩展性的物理限制
风冷系统占用空间巨大,这使得设计能够确保气流顺畅的机房布局变得极具挑战性。尽管液冷基础设施结构复杂,但它能有效节省空间,并将冷却组件直接部署在服务器周围,而非仅仅放置在附近或特定区域。
基于泵的冷却液分配系统通过管网将冷却液输送至冷板。与传统的温控方法相比,该系统空间利用率更高,且高度重视冗余设计,从而兼顾了可靠性与可扩展性。采用这种配置,设施方可以移除庞大的静压箱和空气处理设备,从而能够更直观地规划通道布局,无需过多顾虑气流问题;取而代之的是,只需围绕输送少量水流的紧凑型管道系统进行设计。利用腾出的空间,数据中心可以部署更多高密度服务器。
提升硬件可靠性与使用寿命
采用液冷技术优化热管理,其益处远不止降低能耗成本和减少碳足迹,还能延长各类设备的使用寿命。反复的热循环会导致AI服务器机架上的组件热胀冷缩,从而引发渐进且持续的性能衰减。
当组件承受的应力达到临界点时,最终会导致故障。对于寻求业务增长的设施而言,保护硬件资产至关重要。因此,探索更稳定的机架冷却方案,不仅有助于降低设备更换成本,还能释放更多资金用于投资更具创新性、成本更高的技术。
面向下一代AI的未来布局
向液冷技术转型是提升数据中心可持续性与运行效率的关键一步,但要确保环境监控体系能够适应未来需求,则需采取多管齐下的策略。这包括引入额外的辅助技术,例如先进的过滤系统。即便在液冷数据中心,过滤不当仍是一个严峻问题:热交换器上积聚的颗粒物会阻碍热量传递,迫使冷却机组消耗更多能源以维持相同的冷却效果。
此外,水循环利用基础设施对于实现更具可持续性和成本效益的液冷方案至关重要。它能帮助数据中心保持独立运行,减少对当地淡水资源的依赖——毕竟这些淡水资源更应优先保障居民和当地企业的需求。随着生成式AI工作负载强度的不断增加,尽可能延长可用资源(尤其是那些有助于降低温度的资源)的使用周期显得尤为重要。
关于用水量的惊人事实
尽管液冷技术依赖水来调节温度,但其用水量远低于风冷方案。这是因为液体的传热效率最高可达空气的1000倍。这种高效特性最大限度地减少了总体用水需求,从而避免了风冷系统因大量用水而加剧数据中心对环境负面影响的问题。
传统冷却方法往往采用蒸发冷却技术;与先进液冷基础设施的闭环系统相比,这些冷却塔会造成大量水资源浪费。采用液冷技术有助于设施方应对外界对用水问题的质疑(特别是在水资源短缺地区),同时还能有效降低碳足迹。
现代AI的工业核心
在部署更先进的技术之前,高密度AI算力设施必须充分考量未来的需求。否则,现有的冷却机制将无法应对数据中心日益升高的发热量。尽管软件和硬件层面的优化能提升能效,但掌握流体动力学与液冷技术必须成为行业的重中之重。这将带来更高效、更可靠的运营,从而在人工智能与大数据不断发展的背景下保持竞争力。
海报生成中...