Prompt là chưa đủ: Áp đặt các ràng buộc cứng lên đầu ra của LLM

Các bản demo LLM trông rất tuyệt cho đến khi chúng phải đối mặt với các yêu cầu khắt khe.

Các mô hình hoạt động dựa trên xác suất. Các hệ thống production cần sự đảm bảo.

Tôi đã học được điều này khi xây dựng một quy trình tin tức AI cho Radio del Volga ở Argentina. Hệ thống này viết lại tin tức và tạo các bài đăng trên mạng xã hội. Nó hoạt động rất tốt cho đến khi một vấn đề nảy sinh. Gemini liên tục viết bằng tiếng Tây Ban Nha không đúng chuẩn.

Ở Argentina, người dân sử dụng những từ ngữ đặc thù. Họ nói "podés" thay vì "puedes" và "sos" thay vì "eres." Nếu mô hình sử dụng tiếng Tây Ban Nha trung tính, văn bản sẽ tạo cảm giác không tự nhiên đối với độc giả địa phương.

Đầu tiên, tôi đã thử cải thiện prompt. Tôi bảo mô hình rằng:

Điều này có giúp ích, nhưng không giải quyết được tất cả mọi thứ. Các nguồn tin tức chính thống đã đẩy mô hình quay trở lại sử dụng tiếng Tây Ban Nha trung tính. Dù tôi có viết bao nhiêu trong prompt đi chăng nữa, các lỗi vẫn tồn tại.

Tôi đã ngừng coi đây là một vấn đề về prompt. Tôi bắt đầu coi nó là một vấn đề về xác thực (validation).

Một số thứ mang tính xác suất, như tông giọng hoặc phong cách. Những thứ khác mang tính tất định (deterministic). Nếu một văn bản chứa từ "puedes", nó là sai. Bạn không cần đến AI để nhận ra điều đó. Bạn chỉ cần những dòng code đơn giản.

Tôi đã thêm một bước hậu xử lý (post-processing). Bước này chạy sau khi AI hoàn tất. Nó tìm kiếm các từ cụ thể và thay thế chúng:

Danh sách này nhỏ và an toàn. Tôi không cố gắng sửa toàn bộ tiếng Tây Ban Nha. Tôi chỉ sửa những quy tắc mà code có thể xác minh một cách chắc chắn.

Bài học này không phải về tiếng Tây Ban Nha. Nó là về những giới hạn của kỹ thuật prompt (prompt engineering).

Prompting giúp cải thiện hiệu suất, nhưng nó không mang lại sự đảm bảo. Nếu một quy tắc là ổn định và có thể kiểm thử, hãy sử dụng code để thực thi nó.

Hãy sử dụng LLM để tạo ra văn bản trôi chảy. Hãy sử dụng code tất định để thực thi các thuật ngữ thương hiệu, ngôn từ quy định và các quy tắc định dạng.

Các hệ thống đáng tin cậy sẽ phân chia trách nhiệm: • Mô hình tạo ra nội dung. • Code thực thi các quy tắc cứng. • Con người đưa ra quyết định biên tập cuối cùng.

Source: https://dev.to/zendev2112/prompts-arent-enough-enforcing-hard-constraints-on-llm-output-2hpo

Optional learning community: https://t.me/GyaanSetuAi