Tại sao Agentic Resource Discovery là lớp còn thiếu
Các tác nhân AI (AI agents) đang đối mặt với một vấn đề lớn. Chúng gặp khó khăn trong việc chọn đúng công cụ vào đúng thời điểm.
Một mô hình có thể suy luận tốt. Một công cụ có thể tìm kiếm tốt. Một bộ điều khiển GUI có thể hoạt động tốt. Nhưng các tác nhân sẽ thất bại nếu chúng không biết những công cụ nào đang tồn tại hoặc cách xếp hạng chúng.
Hầu hết các nhà phát triển đều sử dụng cách tiếp cận tĩnh. Bạn cài đặt một công cụ và sử dụng nó sau đó. Bạn kết nối các kỹ năng (skills) từ trước và hy vọng chúng hoạt động. Điều này sẽ bị phá vỡ khi tác nhân của bạn phát triển. Việc quản lý hàng trăm công cụ một cách thủ công là điều không thể.
Agentic Resource Discovery (ARD) giải quyết vấn đề này. Thay vì lập trình cứng (hardcoding) các công cụ, các tác nhân sẽ tìm kiếm trong một registry tại thời điểm thực thi (runtime).
ARD hoạt động song song với các giao thức hiện có:
- MCP cho tác nhân biết cách gọi một công cụ.
- Skills cho tác nhân biết cách tuân theo các hướng dẫn.
- A2A cho tác nhân biết cách kết nối với một tác nhân khác.
- ARD cho tác nhân biết cần tìm gì trước khi bất kỳ giao thức nào trong số này bắt đầu.
Đặc tả ARD sử dụng hai phần chính:
- Các bên xuất bản (Publishers) chia sẻ một tệp
ai-catalog.json. Tệp này chứa siêu dữ liệu (metadata) như các thẻ (tags) và các truy vấn mẫu. - Một API tìm kiếm cho phép tác nhân gửi một yêu cầu bằng ngôn ngữ tự nhiên. Registry sẽ trả về một danh sách các khả năng đã được xếp hạng.
Phương pháp này rẻ hơn so với việc đưa mọi mô tả công cụ vào một prompt. Nó cũng giúp giữ cho cửa sổ ngữ cảnh (context window) của bạn luôn sạch sẽ.
Hugging Face triển khai điều này với công cụ Discover của họ. Nó chuyển đổi các kết quả từ Hub thành các kỹ năng (skills) hoặc các máy chủ MCP.
Việc khám phá (Discovery) thậm chí còn quan trọng hơn đối với các tác nhân GUI. Các tác nhân này phải chọn đúng gói kỹ năng (skill pack) hoặc playbook trực quan. Nghiên cứu cho thấy các kỹ năng đa phương thức (multimodal skills) sẽ giúp ích. Một tác nhân Claude sử dụng VISUALSKILL đã đạt điểm cao hơn 15,3 điểm so với mức cơ sở (baseline) chỉ dùng văn bản.
Hệ sinh thái tác nhân đang phát triển nhanh chóng. Các khả năng hiện bao gồm API, quy trình làm việc UI và các chính sách robot. Bạn không thể thiết lập thủ công mọi công cụ trong môi trường này.
Nếu bạn xây dựng các sản phẩm tác nhân, hãy tuân theo ba quy tắc sau:
- Ngừng sử dụng các danh sách công cụ tĩnh. Chúng sẽ nhanh chóng trở nên lỗi thời.
- Sử dụng siêu dữ liệu phong phú. Bao gồm các loại tác vụ và truy vấn để giúp cải thiện chất lượng tìm kiếm.
- Tách biệt việc khám phá khỏi việc thực thi. Sử dụng tìm kiếm để tìm công cụ. Sử dụng một giao thức để chạy nó.
Thách thức lớn nhất đối với các tác nhân không chỉ là suy luận. Đó là việc định tuyến khả năng (capability routing). Những tác nhân tốt nhất sẽ tìm thấy các tài nguyên phù hợp một cách nhanh nhất.
Cộng đồng học tập (tùy chọn): https://t.me/GyaanSetuAi