TẢN NHIỆT CHẤT LỎNG LÀ TIÊU CHUẨN AI MỚI

Các GPU NVIDIA Blackwell mang lại hiệu suất AI khổng lồ. Chúng cung cấp sức mạnh cho các mô hình ngôn ngữ lớn và robot tự hành.

Nhưng những GPU này lại tạo ra một vấn đề lớn: nhiệt độ.

Phương pháp tản nhiệt khí truyền thống sẽ thất bại khi mật độ công suất tăng lên. Các tủ rack tiêu chuẩn sử dụng từ 5 đến 15 kW. Các tủ rack Blackwell hiện đại cần từ 50 đến 120 kW. Không khí không thể lưu thông đủ nhanh để làm mát các chip này.

Tản nhiệt chất lỏng chính là giải pháp. Nước hấp thụ nhiệt gấp 3.500 lần so với không khí.

Tại sao bạn cần tản nhiệt chất lỏng cho AI:

  • Hiệu suất tốt hơn: Nó ngăn chặn tình trạng giảm xung do nhiệt (thermal throttling) để GPU có thể chạy ở tốc độ tối đa.
  • Mật độ cao hơn: Bạn có thể lắp đặt nhiều sức mạnh tính toán hơn trong cùng một không gian phòng.
  • Chi phí thấp hơn: Nó giảm bớt năng lượng cần thiết cho các quạt khổng lồ và các thiết bị điều hòa không khí.
  • Tuổi thọ phần cứng dài hơn: Nhiệt độ ổn định giúp ngăn ngừa hư hỏng linh kiện.

Có ba phương pháp chính để thực hiện việc này:

  1. Direct-to-chip: Các tấm làm mát (cold plates) được đặt trên GPU để dẫn nhiệt đi trực tiếp.
  2. Rear-door heat exchangers: Các thiết bị này thu giữ nhiệt khi nó thoát ra khỏi tủ rack.
  3. Immersion cooling: Các máy chủ được ngâm trong chất lỏng không dẫn điện đặc biệt để đạt hiệu quả làm mát tối đa.

Việc chuyển sang tản nhiệt chất lỏng đòi hỏi phải có sự lập kế hoạch. Bạn phải kiểm tra trọng tải sàn, hệ thống nước và công suất điện. Chi phí đầu tư ban đầu cao hơn, nhưng khoản tiết kiệm được trong quá trình vận hành là hoàn toàn xứng đáng.

Kỷ nguyên của AI tản nhiệt khí đang dần kết thúc. Tản nhiệt chất lỏng hiện là một yêu cầu tất yếu đối với cơ sở hạ tầng hiệu suất cao.

Nguồn: https://dev.to/cyfutureai/liquid-cooled-data-centers-for-nvidia-blackwell-gpu-deployments-the-future-of-high-performance-ai-dll

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi