Cách tôi thiết lập RAG Evals trong CI/CD để phát hiện các lỗi hồi quy

Một PR được gửi lên. RAG eval chạy trong vòng một phút. Nó hiển thị dấu tích xanh. Bạn merge code.

Mười hai giờ sau, các ticket hỗ trợ đổ về.

Bộ truy xuất (retriever) đã thay đổi chunk top-1 cho một loại truy vấn cụ thể. Tập dữ liệu 30 ví dụ của bạn chưa bao giờ bao quát trường hợp đó. Bộ test suite của bạn vẫn hiển thị màu xanh vì nó đang kiểm tra sai thứ cần kiểm tra.

Hầu hết các RAG gate chỉ là các bài kiểm tra nhanh (smoke tests). Chúng sử dụng các tập dữ liệu nhỏ và các ngưỡng cố định. Nếu giá trị trung bình cao hơn một con số nhất định, chúng sẽ vượt qua. Cách tiếp cận này thất bại vì các tập dữ liệu không mang tính đại diện và các ngưỡng không tính đến các yếu tố nhiễu.

Một gate tốt cần ba yếu

Mốc cơ sở của bạn phải là một cửa sổ sản xuất luân chuyển, chứ không phải là một con số cố định.

Khi dữ liệu sản xuất thay đổi, tập dữ liệu của bạn cũng phải thay đổi theo. Hãy lấy các trace sản xuất bị lỗi, phân cụm chúng và đưa chúng vào tập đánh giá (eval set) của bạn. Điều này biến chốt chặn của bạn thành một hệ thống học tập.

Nguồn: https://dev.to/kartik-nvjk/how-i-set-up-rag-evals-in-cicd-so-they-actually-catch-regressions-46hb

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi