Cách tôi thiết lập đánh giá RAG trong CI/CD để phát hiện lỗi hồi quy

📅2 hours ago⏱2 min read

Cách tôi thiết lập RAG Evals trong CI/CD để phát hiện các lỗi hồi quy

Một PR được gửi lên. RAG eval chạy trong vòng một phút. Nó hiển thị dấu tích xanh. Bạn merge code.

Mười hai giờ sau, các ticket hỗ trợ đổ về.

Bộ truy xuất (retriever) đã thay đổi chunk top-1 cho một loại truy vấn cụ thể. Tập dữ liệu 30 ví dụ của bạn chưa bao giờ bao quát trường hợp đó. Bộ test suite của bạn vẫn hiển thị màu xanh vì nó đang kiểm tra sai thứ cần kiểm tra.

Hầu hết các RAG gate chỉ là các bài kiểm tra nhanh (smoke tests). Chúng sử dụng các tập dữ liệu nhỏ và các ngưỡng cố định. Nếu giá trị trung bình cao hơn một con số nhất định, chúng sẽ vượt qua. Cách tiếp cận này thất bại vì các tập dữ liệu không mang tính đại diện và các ngưỡng không tính đến các yếu tố nhiễu.

Một gate tốt cần ba yếu

Mốc cơ sở của bạn phải là một cửa sổ sản xuất luân chuyển, chứ không phải là một con số cố định.

Khi dữ liệu sản xuất thay đổi, tập dữ liệu của bạn cũng phải thay đổi theo. Hãy lấy các trace sản xuất bị lỗi, phân cụm chúng và đưa chúng vào tập đánh giá (eval set) của bạn. Điều này biến chốt chặn của bạn thành một hệ thống học tập.

Nguồn: https://dev.to/kartik-nvjk/how-i-set-up-rag-evals-in-cicd-so-they-actually-catch-regressions-46hb

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

Cách tôi thiết lập đánh giá RAG trong CI/CD để phát hiện lỗi hồi quy

Continue reading

𝗔𝗜 𝗔𝘂𝗱𝗶𝘁𝘀 𝗜𝗻 𝗬𝗼𝘂𝗿 𝗖𝗜/𝗖𝗗 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲

𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜 𝗜𝗻𝗰𝗶𝗱𝗲𝗻𝘁 𝗥𝗲𝘀𝗽𝗼𝗻𝘀𝗲: 𝗥𝗼𝗹𝗹 𝗕𝗮𝗰𝗸 𝗥𝗼𝗴𝘂𝗲 𝗔𝗴𝗲𝗻𝘁𝘀

𝗩𝗶𝘀𝘂𝗮𝗹 𝗥𝗲𝗴𝗿𝗲𝘀𝘀𝗶𝗼𝗻 𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗳𝗼𝗿 𝗪𝗲𝗯 𝗔𝗽𝗽𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄 𝗜𝘀 𝗔 𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗣𝗿𝗼𝗯𝗹𝗲𝗺