Triển khai GLM 5.2 trên Modal

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 tuần trước2min read

Triển khai GLM-5.2 trên Modal

GLM-5.2 là một mô hình open-weights khổng lồ. Nó sử dụng kiến trúc Mixture-of-Experts (MoE) để thực hiện các tác vụ lập luận và lập trình phức tạp. Nó có khả năng sánh ngang với các mô hình như Claude 3.5 Sonnet trong các tác vụ kỹ thuật.

Việc tự lưu trữ (self-hosting) mô hình 700 tỷ tham số này đòi hỏi 8x GPU NVIDIA H200. Dưới đây là cách tôi triển khai nó bằng phương pháp serverless trên Modal.

Lợi ích về chi phí Thuê một node 8x H200 chuyên dụng rất đắt đỏ.

RunPod tốn 35,12 USD mỗi giờ.
Modal tốn 36,31 USD mỗi giờ.

Tuy nhiên, Modal tính phí theo từng giây. Nó có khả năng scale về 0 khi bạn không sử dụng. Một phiên phát triển kéo dài 20 phút tốn khoảng 12,00 USD. Khi bạn không hoạt động, chi phí là 0,00 USD.

Đánh đổi khi lượng tử hóa (Quantization Trade-offs) Bạn không thể chạy mô hình BF16 đầy đủ trên một node. Nó yêu cầu 1,5 TB VRAM. Tôi đã thử nghiệm các định dạng khác nhau để tìm ra sự cân bằng tốt nhất:

FP8: Yêu cầu ~700 GB. Nó giữ được 99,2% độ chính xác. Đây là lựa chọn tốt nhất. Nó sử dụng Hopper native Tensor Cores để đạt tốc độ nhanh.
INT8: Yêu cầu ~750 GB. Nó chậm hơn vì thiếu sự tối ưu hóa phần cứng.
INT4: Yêu cầu ~400 GB. Độ chính xác giảm đáng kể trong các tác vụ lập luận.

Tại sao nên tự lưu trữ?

Quyền riêng tư: Giữ mã nguồn nhạy cảm của bạn trong mạng lưới bảo mật riêng.
Không giới hạn: Tránh các giới hạn tốc độ (rate limits) và tình trạng bóp nghẹt ngữ cảnh (context throttling) thường thấy ở các API công cộng.
Cache ổn định: Bạn kiểm soát bộ nhớ GPU. Context cache của bạn luôn ở trạng thái "warm" và ổn định.

Bài học kỹ thuật

Khắc phục lỗi Import: Tôi đã phải xóa một module typing_extensions cũ trong Dockerfile để ngăn chặn tình trạng crash.
Tăng tốc độ tải: Sử dụng chiến lược prefetch đã giúp giảm thời gian tải mô hình từ 12 phút xuống còn 1 phút.
Sử dụng Eager Mode: Việc biên dịch các đồ thị toán học mất 20 phút. Eager mode khởi động trong 4,5 phút. Bạn có thể thấy một chút độ trễ ở truy vấn đầu tiên, nhưng nó hoàn toàn xứng đáng với tốc độ khởi động nhanh.

Kết quả Mô hình xử lý các tệp lớn một cách dễ dàng. Tôi đã thử nghiệm nó với hơn 1.000 dòng mã Python. Nó đã phân tích logic và đưa ra các phân tích kiến trúc chính xác. Nó thậm chí còn xây dựng một trò chơi hoàn chỉnh với âm thanh tùy chỉnh chỉ trong một lần chạy duy nhất.

Việc tự lưu trữ các frontier AI hiện đã khả thi đối với các nhà phát triển cá nhân. Bạn có được sự riêng tư và sức mạnh với chi phí thấp.

Nguồn: https://dev.to/silvestre-po/deploying-glm-52-fp8-700b-moe-on-modal-serverless-8x-h200s-trade-offs-and-lessons-learned-4m7i

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

Triển khai GLM 5.2 trên Modal

Continue reading

Zhipu AI's GLM 5.2 Closes the Gap with Closed Source Coding Giants

Chạy GLM 5.2 cục bộ trên máy tính để bàn của bạn

CEO Snowflake: GLM 5.2 sánh ngang Claude Opus 4.7 với mức chi phí chỉ bằng một phần nhỏ