𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

📅3 hours ago⏱1 min read

LLM 32B trên Xeon 2008: RAM quan trọng hơn VRAM

Tôi đã thử chạy một mô hình 20 GB trên chiếc laptop làm việc của mình. Chiếc laptop có RTX 4070 và 16 GB RAM. Nó đã thất bại. Hệ thống bị treo hoàn toàn.

Thay vào đó, tôi quyết định thử nghiệm trên một máy chủ cũ từ năm 2008. Máy chủ này có hai CPU Intel Xeon E5440 và 64 GB RAM. Nó không có GPU.

Mục tiêu rất đơn giản. Liệu phần cứng cũ với đủ bộ nhớ có thể chạy được một mô hình lớn mà laptop của tôi không thể chạy được không?

Dưới đây là sự so sánh về phần cứng:

Laptop:

CPU: Notebook hiện đại
RAM: 16 GB
GPU: 8 GB VRAM
Kết quả: Hệ thống bị treo

Máy chủ:

CPU: 2x Xeon E5440
RAM: 64 GB
GPU: Không có
Kết quả: Chạy được

Máy chủ chạy rất chậm. Nó tạo ra khoảng 0,01 token mỗi giây. Tôi bắt đầu thử nghiệm vào lúc nửa đêm và kiểm tra lại vào buổi sáng.

Mô hình đã cố gắng viết mã bằng ngôn ngữ Forth. Nó đã tạo ra hai phiên bản khác nhau sau vài giờ. Cả hai phiên bản đều không chạy được.

Tôi đã học được hai điều từ việc này:

Dung lượng RAM rất quan trọng. 64 GB RAM hệ thống cho phép bạn chạy các mô hình mà tổng 24 GB VRAM và RAM không thể làm được. Tuy nhiên, tốc độ 0,01 token mỗi giây là không khả thi cho công việc.
Các mô hình lớn không phải là phép màu. Một mô hình lớn không thể lập trình bằng một ngôn ngữ ngách như Forth nếu nó không được huấn luyện trên ngôn ngữ đó. Để có được mã nguồn hoạt động được, bạn cần một quy trình tốt hơn. Bạn cần các thuật toán, các trình biên dịch trung gian (transpilers) tất định và các công cụ tốt hơn.

Đừng mua phần cứng đắt tiền chỉ để thử nghiệm một ý tưởng. Hãy thực hiện các thí nghiệm trên những gì bạn đang có trước. Suy luận (inference) chậm vẫn là suy luận. Nó đã cho tôi câu trả lời mình cần mà không tốn một khoản hóa đơn khổng lồ.

Source: https://dev.to/ua3mqj/32b-llm-on-a-2008-xeon-when-ram-matters-more-than-vram-28e2

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

Continue reading

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

Hướng tới việc phục vụ LLM hiệu quả

RAM là GPU mới

Chạy hai mô hình trên một GPU: Toán học đằng sau các LLM cục bộ