AI Agent là gì?

Tôi từng yêu cầu ChatGPT lên kế hoạch cho một chuyến đi đến Istanbul. Nó đã đưa ra một kế hoạch tuyệt vời. Nhưng nó không thể đặt vé máy bay. Nó không thể kiểm tra giá khách sạn. Nó cũng không thể gửi email.

Mô hình đó rất thông minh, nhưng nó không có "đôi tay". Nó có thể suy nghĩ, nhưng không thể hành động.

AI agent giải quyết vấn đề này.

Các LLM (Large Language Models) tiêu chuẩn hoạt động giống như một trợ lý đọc nhiều sách. Bạn gửi một câu lệnh (prompt), và mô hình sẽ gửi lại một phản hồi. Đó là một chu trình duy nhất. Mô hình không duyệt web, không kiểm tra lịch trình của bạn, cũng không thực hiện các hành động trong thế giới thực.

Một AI agent thì khác. Một agent sử dụng mô hình ngôn ngữ để quyết định cách sử dụng các công cụ nhằm đạt được một mục tiêu.

Một agent có thể:

  • Tìm kiếm trên web
  • Chạy mã (code)
  • Truy vấn cơ sở dữ liệu
  • Gửi email
  • Sử dụng các API bên ngoài

Sự khác biệt chính là tính tự chủ. Bạn đưa cho agent một mục tiêu, và nó sẽ tự tìm ra các bước thực hiện.

So sánh: • LLM thông thường: Trả lời câu hỏi, phản hồi đơn lẻ, không có công cụ, mang tính phản ứng. • AI Agent: Thực hiện hành động, suy luận đa bước, sử dụng công cụ, hướng tới mục tiêu.

Hầu hết các agent đều sử dụng một mô hình gọi là ReAct (Reason and Act). Nó tuân theo một vòng lặp đơn giản:

  1. Suy nghĩ (Thought): Tôi cần làm gì tiếp theo?
  2. Hành động (Action): Sử dụng một công cụ.
  3. Quan sát (Observe): Xem xét kết quả.
  4. Lặp lại (Repeat): Tiếp tục cho đến khi đạt được mục tiêu.

Việc xây dựng các vòng lặp này rất khó khăn. Bạn phải xử lý lỗi, quản lý bộ nhớ và kết nối các công cụ.

Đây là lý do tại sao các framework như LangChain tồn tại. LangChain cung cấp phần hạ tầng kết nối. Nó cung cấp cho bạn các công cụ được xây dựng sẵn, bộ nhớ và các cách để kết nối các mô hình với thế giới thực.

Nếu quy trình làm việc của bạn phức tạp, bạn sẽ sử dụng LangGraph. LangGraph giúp bạn xây dựng các agent có thể rẽ nhánh theo các luồng khác nhau, chạy các tác vụ song song hoặc quay lại các bước trước đó.

Tóm tắt:

  • LLM phản hồi bằng văn bản.
  • Agent sử dụng công cụ để hoàn thành tác vụ.
  • Vòng lặp ReAct điều khiển logic của agent.
  • LangChain quản lý sự kết nối giữa các mô hình và công cụ.
  • LangGraph xử lý các quy trình làm việc phức tạp và có tính rẽ nhánh.

Trong bài viết tiếp theo, tôi sẽ hướng dẫn bạn cách thiết lập môi trường và chạy agent đầu tiên của mình.

Nguồn: https://dev.to/ikram_khan/what-are-ai-agents-a-plain-english-introduction-56nd

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi