Chuỗi ảo giác liên hoàn

Tác nhân AI của tôi bị kẹt trong một vòng lặp.

Nó sẽ viết một truy vấn SQL với một tên cột giả. Cơ sở dữ liệu sẽ trả về lỗi. Thông báo lỗi bao gồm danh sách các cột thực tế. Tác nhân sẽ đọc phần sửa lỗi. Sau đó, nó lại viết chính xác cái tên cột sai đó một lần nữa.

Tôi gọi đây là chuỗi ảo giác liên hoàn.

Đây không phải là vấn đề của mô hình. Đây là vấn đề về thiết kế công cụ.

Đây là cách vòng lặp hoạt động:

  • Tác nhân tạo ra một truy vấn dựa trên quá trình huấn luyện của nó.
  • Truy vấn thất bại.
  • Thông báo lỗi cung cấp sự thật.
  • Tác nhân thấy sự thật nhưng thay vào đó lại dựa vào quá trình huấn luyện nội tại của nó.
  • Tác nhân lặp lại sai lầm.

Tác nhân đối mặt với hai tín hiệu. Một tín hiệu là thông báo lỗi. Tín hiệu còn lại là quá trình huấn luyện của mô hình. Quá trình huấn luyện thường mạnh mẽ hơn. Thông báo lỗi chỉ xuất hiện một lần. Quá trình huấn luyện xuất hiện trong từng từ một mà mô hình viết ra.

Tôi đã cố gắng khắc phục điều này bằng kỹ thuật gợi ý (prompt engineering). Tôi đã bảo mô hình chú ý đến các lỗi. Nó không hiệu quả.

Vấn đề thực sự là tác nhân của tôi chỉ có thể học thông qua thất bại. Nó không có cách nào để kiểm tra cấu trúc bảng trước khi hành động. Nó buộc phải đoán.

Nếu bạn đưa cho một con người một API, bạn sẽ đưa cho họ tài liệu hướng dẫn. Bạn không bắt họ gửi các yêu cầu lỗi cho đến khi các thông báo lỗi dạy họ về lược đồ (schema).

Tôi đã khắc phục điều này bằng cách xây dựng một công cụ chủ động. Thay vì chờ đợi lỗi xảy ra, giờ đây tác nhân sẽ gọi công cụ describe_table trước.

Quy trình làm việc mới:

  • Tác nhân muốn truy vấn một bảng.
  • Tác nhân gọi describe_table để xem các cột thực tế.
  • Tác nhân nhận được tên và kiểu dữ liệu chính xác.
  • Tác nhân viết một truy vấn chính xác ngay từ lần thử đầu tiên.

Vòng lặp đã dừng lại. Mô hình không trở nên thông minh hơn. Tác nhân chỉ đơn giản là ngừng đoán mò.

Nếu các tác nhân của bạn sử dụng cơ sở dữ liệu hoặc API, hãy tự hỏi điều này: Liệu chúng có thể xác minh cấu trúc trước khi hành động không? Hay chúng chỉ học được thông qua thất bại?

Các gợi ý lỗi mang tính phản ứng thì tốt. Nhưng chúng là chưa đủ. Một tác nhân chỉ học thông qua thất bại sẽ luôn cách sự ảo giác chỉ một bước chân.

Hãy xây dựng các công cụ cho phép các tác nhân đặt câu hỏi trước khi chúng mắc sai lầm.

Nguồn: https://dev.to/niclydon/the-confabulation-cascade-when-your-agent-learns-nothing-from-its-own-mistakes-m08

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi