Kiến trúc Agent là một bài toán phân bổ tài nguyên tính toán

Ba nhóm độc lập gần đây đã đi đến cùng một kết luận về thiết kế AI agent.

Anthropic đã đăng một bài viết trên blog về chiến lược cố vấn (advisor strategy). Họ sử dụng một mô hình giá rẻ để chạy vòng lặp chính. Họ chỉ gọi một mô hình đắt tiền khi mô hình giá rẻ bị tắc nghẽn. Thiết lập này tại BrowseComp đã đạt độ chính xác 41,2% với chi phí chỉ bằng 15% so với việc sử dụng một mô hình hàng đầu cho mọi tác vụ.

Tobi Lutke từ Shopify đã chia sẻ một thiết lập tương tự trên X. Anh ấy chạy một mô hình cục bộ để nghiên cứu và sử dụng một mô hình tiên phong (frontier model) làm cố vấn. Các nhà phát triển đã xây dựng các phiên bản mã nguồn mở của mô hình này chỉ trong vài giờ.

HazyResearch đã công bố một bài báo về khung làm việc nén-dự đoán (compressor-predictor framework). Một mô hình nhỏ chắt lọc ngữ cảnh để một mô hình lớn thực hiện suy luận. Hệ thống của họ đã khôi phục được 99% độ chính xác với chỉ 26% chi phí.

Sự hội tụ này không phải là ngẫu nhiên. Nó tuân theo một quy luật thiết kế cụ thể: khung đường cong chi phí (cost-curve frame).

Tôi đã lập luận về khung này qua ba lớp trong loạt bài này:

Logic tương tự nhau. Hầu hết các tác vụ của agent bao gồm nhiều hoạt động giá trị thấp và ít quyết định giá trị cao.

Nếu bạn sử dụng một mô hình đắt tiền cho mọi token, bạn đang lãng phí tiền bạc vào các công việc thường nhật như đọc ngữ cảnh hoặc định dạng văn bản. Chiến lược cố vấn tách biệt các lộ trình này. Bạn sử dụng một bộ thực thi (executor) giá rẻ cho phần lớn công việc và một cố vấn đắt tiền chỉ cho các điểm quyết định quan trọng.

Nếu bạn đang xây dựng các agent, hãy lưu ý ba thách thức kỹ thuật sau:

Mô hình này là thực tế vì nó hiệu quả. Hãy ngừng trả mức giá của các mô hình tiên phong cho những token không cần đến chúng.

Nguồn: https://dev.to/harrisonsec/agent-architecture-is-a-compute-allocation-problem-the-advisor-strategy-cost-curve-frame-recursed-d34

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi