Kiến trúc Agent là một bài toán phân bổ tài nguyên tính toán
Ba nhóm độc lập gần đây đã đi đến cùng một kết luận về thiết kế AI agent.
Anthropic đã đăng một bài viết trên blog về chiến lược cố vấn (advisor strategy). Họ sử dụng một mô hình giá rẻ để chạy vòng lặp chính. Họ chỉ gọi một mô hình đắt tiền khi mô hình giá rẻ bị tắc nghẽn. Thiết lập này tại BrowseComp đã đạt độ chính xác 41,2% với chi phí chỉ bằng 15% so với việc sử dụng một mô hình hàng đầu cho mọi tác vụ.
Tobi Lutke từ Shopify đã chia sẻ một thiết lập tương tự trên X. Anh ấy chạy một mô hình cục bộ để nghiên cứu và sử dụng một mô hình tiên phong (frontier model) làm cố vấn. Các nhà phát triển đã xây dựng các phiên bản mã nguồn mở của mô hình này chỉ trong vài giờ.
HazyResearch đã công bố một bài báo về khung làm việc nén-dự đoán (compressor-predictor framework). Một mô hình nhỏ chắt lọc ngữ cảnh để một mô hình lớn thực hiện suy luận. Hệ thống của họ đã khôi phục được 99% độ chính xác với chỉ 26% chi phí.
Sự hội tụ này không phải là ngẫu nhiên. Nó tuân theo một quy luật thiết kế cụ thể: khung đường cong chi phí (cost-curve frame).
Tôi đã lập luận về khung này qua ba lớp trong loạt bài này:
- Lớp 1 (Truy xuất - Retrieval): Tại sao các vòng lặp công cụ (tool-loops) vượt trội hơn RAG đối với hầu hết các tác vụ lập trình.
- Lớp 2 (Lưu trữ - Storage): Tại sao SQLite vượt trội hơn các cơ sở dữ liệu vector đối với đồ thị biểu tượng (symbol graphs).
- Lớp 3 (Điều phối - Orchestration): Tại sao chiến lược cố vấn giành chiến thắng trong việc lựa chọn mô hình.
Logic tương tự nhau. Hầu hết các tác vụ của agent bao gồm nhiều hoạt động giá trị thấp và ít quyết định giá trị cao.
Nếu bạn sử dụng một mô hình đắt tiền cho mọi token, bạn đang lãng phí tiền bạc vào các công việc thường nhật như đọc ngữ cảnh hoặc định dạng văn bản. Chiến lược cố vấn tách biệt các lộ trình này. Bạn sử dụng một bộ thực thi (executor) giá rẻ cho phần lớn công việc và một cố vấn đắt tiền chỉ cho các điểm quyết định quan trọng.
Nếu bạn đang xây dựng các agent, hãy lưu ý ba thách thức kỹ thuật sau:
- Dữ liệu truyền ra ngoài (Data Egress): Việc gửi ngữ cảnh đến một cố vấn từ xa có thể làm rò rỉ dữ liệu nhạy cảm. Hãy sử dụng một lớp che dấu dữ liệu (redaction layer).
- Chính sách leo thang (Escalation Policy): Việc quyết định khi nào cần gọi cố vấn là rất khó. Gọi quá sớm sẽ lãng phí tiền bạc. Gọi quá muộn sẽ lãng phí thời gian.
- Thiết kế bàn giao (Handoff Design): Cố vấn nên cung cấp một kế hoạch ngắn gọn, chứ không phải một giải pháp đầy đủ.
Mô hình này là thực tế vì nó hiệu quả. Hãy ngừng trả mức giá của các mô hình tiên phong cho những token không cần đến chúng.
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi