心流logo

AI算力激增引发数据中心供电散热困境

作者:兰巴斯(Rambus)公司研究员兼杰出发明家史蒂文·吴(Steven Woo)博士。

AI发展带来的计算压力

人工智能推理领域的重要发展,如思维链提示技术(chain-of-thought prompting),通过将复杂问题分解成模仿人类推理的小步骤,正在开启高质量答案和AI逻辑推理过程透明化的新阶段。

然而,这一计算能力的飞跃给计算资源带来巨大压力。根据理工学院洞察(Polytechnique Insights)的研究估计,到2027年,AI服务器年度电力消耗将达到85至134太瓦时。

计算架构的创新与挑战

OpenAI的高质量图像生成工具导致图形处理器(GPU)过热的案例,充分说明了AI系统对计算能力的巨大需求。为应对这一挑战,业界正在重新设计基础设施,包括:

芯片技术的突破

在芯片层面,堆叠技术成为重要突破。这种配置能在相同面积内实现更大容量,通过缩短数据传输距离来降低功耗。但随之而来的是新的电源和散热管理挑战。

供电系统的升级

传统数据中心使用12伏配电系统,但随着功耗增加,铜缆发热问题日益严重。为此,业界正在向48伏甚至更高电压的配电系统过渡。功率管理集成电路(PMICs)将在未来的计算电源分配基础设施中发挥关键作用。

散热技术的革新

传统风冷系统已无法满足AI服务器的散热需求。考虑到冷却系统占数据中心功耗的30%至55%,液冷技术逐渐成为主流选择。尽管液冷系统成本较高(每千瓦冷却费用1,000至2,000美元),但其卓越的散热性能使其成为未来AI系统的必然选择。

未来展望

AI技术持续发展,计算硬件的功耗和散热压力将继续增加。芯片封装、电源分配和热管理等半导体技术将变得更加重要,推动新一轮技术创新。