水冷はAIの新たな標準である

NVIDIA Blackwell GPUは、圧倒的なAIパフォーマンスを実現します。これらは大規模言語モデルや自律型ロボティクスの原動力となっています。

しかし、これらのGPUは大きな問題を引き起こします。それは「熱」です。

電力密度が上昇すると、従来の空冷方式では対応できなくなります。標準的なラックの消費電力は5〜15 kWですが、最新のBlackwellラックでは50〜120 kWが必要です。空気がこれらのチップを冷却するのに十分な速さで流れることはできません。

水冷がその解決策です。水は空気の3,500倍もの熱を吸収できます。

AIに水冷が必要な理由:

  • パフォーマンスの向上:サーマルスロットリングを防ぎ、GPUをピーク速度で動作させることができます。
  • 高密度化:同じスペースにより多くの計算能力を詰め込むことができます。
  • コストの削減:巨大なファンや空調ユニットに必要なエネルギーを削減できます。
  • ハードウェアの寿命延長:温度を安定させることで、コンポーネントの故障を防ぎます。

主な手法には以下の3つがあります:

  1. ダイレクト・トゥ・チップ (Direct-to-chip):GPU上にコールドプレートを設置し、直接熱を取り除きます。
  2. リアドア熱交換器 (Rear-door heat exchangers):ラックから排出される熱をキャッチするユニットです。
  3. 液浸冷却 (Immersion cooling):サーバーを特殊な非導電性液体に浸し、最大限の冷却を行います。

水冷への移行には計画が必要です。床荷重、給排水システム、および電力容量を確認しなければなりません。初期費用は高くなりますが、運用コストの削減効果はそれに見合うものです。

空冷AIの時代は終わりつつあります。高性能なインフラストラクチャにおいて、水冷は今や不可欠なものとなっています。

出典: https://dev.to/cyfutureai/liquid-cooled-data-centers-for-nvidia-blackwell-gpu-deployments-the-future-of-high-performance-ai-dll

学習コミュニティ(任意): https://t.me/GyaanSetuAi