Phần khó nhất của AI Agent không phải là Thực thi, mà là Lập kế hoạch

Xây dựng một AI agent có khả năng thực hiện các tác vụ thì dễ. Xây dựng một agent có khả năng lập kế hoạch chính xác mới là điều khó.

Tôi xây dựng một CLI, nơi bạn chỉ cần nhập một câu lệnh và LLM sẽ thực hiện các hành động trên các tài khoản thực của bạn. Tôi sử dụng hai chế độ: Chế độ Trực tiếp (Direct mode) và Chế độ Lập kế hoạch (Plan mode).

Chế độ Trực tiếp dùng để tối ưu tốc độ. Chế độ Lập kế hoạch dùng để đảm bảo an toàn. Ở chế độ Lập kế hoạch, agent sẽ hiển thị cho bạn mọi bước trước khi nó chạm vào dữ liệu của bạn.

Dưới đây là cách tôi xây dựng một bộ lập kế hoạch đáng tin cậy:

• Chia tách bộ não Một agent không thể vừa lập kế hoạch vừa thực thi. Một agent lập kế hoạch muốn tư duy. Một agent thực thi muốn hành động. Tôi đã tách chúng thành hai agent khác nhau với hai system prompt khác nhau. Điều này giúp ngăn chặn việc chúng xung đột lẫn nhau.

• Cung cấp "đôi mắt" cho agent Một bộ lập kế hoạch chỉ dựa vào phỏng đoán là rất nguy hiểm. Phiên bản đầu tiên của tôi thường tự tạo ra các kế hoạch dựa trên những giả định. Giờ đây, bộ lập kế hoạch sử dụng các công cụ chỉ đọc (read-only tools) để nghiên cứu dữ liệu của bạn trước. Nó sẽ kiểm tra các trường (fields) thực tế trong Salesforce của bạn trước khi viết ra bất kỳ bước nào.

• Điền trước các câu trả lời Các agent thường đặt những câu hỏi không hiệu quả. Nếu chúng hỏi quá nhiều, cuối cùng bạn sẽ phải làm thay việc cho chúng. Tôi đã thay đổi điều này. Bộ lập kế hoạch vẫn đặt câu hỏi, nhưng nó sẽ cung cấp một câu trả lời gợi ý. Bạn chỉ cần xác nhận hoặc điều chỉnh nhẹ. Điều này giúp kế hoạch luôn chính xác mà không cần phải nhập liệu thủ công.

• Truyền tải ngữ cảnh, không chỉ là danh sách Nếu bạn chỉ đưa cho agent thực thi một danh sách các bước, nó sẽ mất đi khả năng suy luận. Tôi đã yêu cầu bộ lập kế hoạch truyền kèm cả các giả định và rủi ro cùng với các bước thực hiện. Giờ đây, agent thực thi đã hiểu được lý do "tại sao" đằng sau mỗi hành động.

• Gắn nhãn nguy hiểm Một kế hoạch chỉ an toàn khi bạn có thể nhìn thấy các rủi ro. Hệ thống của tôi đánh dấu các hành động mang tính hủy diệt như xóa hoặc đổi tên. Khi agent chạm đến một bước mang tính hủy diệt, nó sẽ dừng lại và hỏi ý kiến bạn.

• Sử dụng dữ liệu để phân xử Nếu một agent cho rằng một bước đã thất bại và bạn yêu cầu nó thử lại, nó sẽ không mù quáng tuân theo. Nó sẽ kiểm tra dữ liệu thực tế trên nền tảng. Nếu dữ liệu cho thấy tác vụ đã hoàn thành, agent sẽ tin vào dữ liệu hơn là lời khẳng định của bạn.

Sự thật về tính an toàn: Chế độ Lập kế hoạch không ngăn chặn được prompt injection hay một người dùng nhấn "approve" mà không xem xét. Nó chỉ chuyển trách nhiệm từ việc "tin tưởng mô hình" sang "tin tưởng con người trong việc kiểm duyệt."

Cấu trúc cung cấp các rào chắn, nhưng sự kiểm duyệt của bạn mới là lớp an toàn cuối cùng.

Source: https://dev.to/abdullahsaad5/the-hard-part-of-my-ai-agent-wasnt-doing-the-work-it-was-planning-it-n0k

Optional learning community: https://t.me/GyaanSetuAi