Tôi đã chạy một LLM cục bộ trên ASUS ROG Ally của mình
Tôi đã chạy một mô hình AI cục bộ trên chiếc ASUS ROG Ally của mình trong vài tuần. Tôi cứ ngỡ đây sẽ là một dự án thú vị. Nhưng thay vào đó, nó lại trở thành một bài học về giới hạn phần cứng.
Tôi không dùng nó để thay thế đám mây. Tôi dùng nó như một công cụ chuyên dụng cho các tác vụ nhỏ. Dưới đây là những gì tôi đã học được về việc chạy AI trên các thiết bị cầm tay.
Rào cản Bộ nhớ
Các thiết bị cầm tay sử dụng Kiến trúc Bộ nhớ Thống nhất (Unified Memory Architecture). Điều này có nghĩa là CPU và GPU dùng chung một lượng RAM. Theo mặc định, GPU chỉ được cấp một phần bộ nhớ rất nhỏ.
Nếu mô hình của bạn không vừa với phần bộ nhớ đó, hệ thống sẽ sử dụng CPU. Điều này khiến quá trình tạo văn bản (generation) chậm đến mức khó chịu.
Cách khắc phục:
- Vào BIOS của bạn.
- Tăng thủ công UMA frame buffer.
- Tôi đã đẩy mức này lên 4 GB. Thay đổi này mang lại hiệu quả hơn bất kỳ tinh chỉnh nào khác.
Những gì không hiệu quả
Tôi đã thử dùng zRAM để tận dụng thêm bộ nhớ. Nhưng thất bại. Hầu hết các mô hình AI đều sử dụng tệp GGUF vốn đã được nén sẵn. Bạn không thể nén chúng thêm nữa để tiết kiệm không gian.
Tôi cũng thử dùng disk swap để hỗ trợ. Nhưng swap không giúp mọi thứ nhanh hơn. Nó chỉ khiến mọi thứ không thể sử dụng được. Nếu mô hình của bạn phải dựa vào disk swap, bạn sẽ chỉ thấy được một từ sau mỗi vài giây.
Lý do duy nhất để giữ swap luôn bật là để ngăn hệ thống tự động đóng (kill) tiến trình của bạn khi hết RAM.
Mẹo để chạy mượt mà
Nếu đầu ra của AI có cảm giác bị giật hoặc không ổn định, hãy kiểm tra các thiết lập Linux kernel của bạn.
- Giảm giá trị
vm.swappiness. - Điều này ngăn hệ thống chuyển bộ nhớ sang swap quá sớm.
- Nó giúp quá trình tạo văn bản diễn ra ổn định thay vì bị khựng.
Lựa chọn mô hình phụ thuộc vào mục đích sử dụng
Hầu hết mọi người đều tìm kiếm mô hình nhanh nhất. Thay vào đó, tôi chọn một mô hình chậm hơn nhưng sắc bén hơn.
- Nếu bạn chat trong thời gian thực, bạn cần tốc độ.
- Nếu bạn chạy một tác vụ nền (background agent), bạn cần chất lượng.
Tôi sử dụng thiết lập của mình cho các tác vụ nền. Tôi gửi một yêu cầu và kiểm tra kết quả sau đó. Vì không phải nhìn chằm chằm vào màn hình, tôi không quan tâm nếu một câu trả lời mất 40 giây thay vì 8 giây. Tôi muốn câu trả lời tốt nhất, chứ không phải nhanh nhất.
Hãy tránh các mô hình suy luận (reasoning models) trên các thiết bị cầm tay. Quy trình tư duy từng bước tiêu tốn quá nhiều thời gian trên phần cứng yếu. Sự cải thiện về chất lượng thường không đáng để chờ đợi.
Những gì thiết bị này làm tốt
Một thiết bị 16 GB rất tuyệt vời cho:
- Soạn thảo các email ngắn.
- Xem lại các đoạn mã nhỏ.
- Lập kế hoạch hàng ngày sơ bộ.
- Các tác vụ riêng tư không nên rời khỏi mạng nội bộ của bạn.
Nó không phù hợp cho:
- Các tài liệu dài.
- Nghiên cứu chuyên sâu.
- Các dự án lập trình phức tạp.
AI cục bộ là một công cụ, không phải là một phép màu. Nó hoàn hảo cho các công việc thường nhật và nhẹ nhàng.
Optional learning community: https://t.me/GyaanSetuAi
