LLM 32B trên Xeon 2008: RAM quan trọng hơn VRAM

Tôi đã thử chạy một mô hình 20 GB trên chiếc laptop làm việc của mình. Chiếc laptop có RTX 4070 và 16 GB RAM. Nó đã thất bại. Hệ thống bị treo hoàn toàn.

Thay vào đó, tôi quyết định thử nghiệm trên một máy chủ cũ từ năm 2008. Máy chủ này có hai CPU Intel Xeon E5440 và 64 GB RAM. Nó không có GPU.

Mục tiêu rất đơn giản. Liệu phần cứng cũ với đủ bộ nhớ có thể chạy được một mô hình lớn mà laptop của tôi không thể chạy được không?

Dưới đây là sự so sánh về phần cứng:

Laptop:

Máy chủ:

Máy chủ chạy rất chậm. Nó tạo ra khoảng 0,01 token mỗi giây. Tôi bắt đầu thử nghiệm vào lúc nửa đêm và kiểm tra lại vào buổi sáng.

Mô hình đã cố gắng viết mã bằng ngôn ngữ Forth. Nó đã tạo ra hai phiên bản khác nhau sau vài giờ. Cả hai phiên bản đều không chạy được.

Tôi đã học được hai điều từ việc này:

  1. Dung lượng RAM rất quan trọng. 64 GB RAM hệ thống cho phép bạn chạy các mô hình mà tổng 24 GB VRAM và RAM không thể làm được. Tuy nhiên, tốc độ 0,01 token mỗi giây là không khả thi cho công việc.

  2. Các mô hình lớn không phải là phép màu. Một mô hình lớn không thể lập trình bằng một ngôn ngữ ngách như Forth nếu nó không được huấn luyện trên ngôn ngữ đó. Để có được mã nguồn hoạt động được, bạn cần một quy trình tốt hơn. Bạn cần các thuật toán, các trình biên dịch trung gian (transpilers) tất định và các công cụ tốt hơn.

Đừng mua phần cứng đắt tiền chỉ để thử nghiệm một ý tưởng. Hãy thực hiện các thí nghiệm trên những gì bạn đang có trước. Suy luận (inference) chậm vẫn là suy luận. Nó đã cho tôi câu trả lời mình cần mà không tốn một khoản hóa đơn khổng lồ.

Source: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi