Đánh giá chất lượng đầu ra của LLM trong môi trường Production

Vào tháng 3 năm 2023, GPT-4 đã xác định các số nguyên tố với độ chính xác 97,6%. Đến tháng 6 năm 2023, chính mô hình đó đã giảm xuống còn 2,4% độ chính xác. Không ai thay đổi mã nguồn. Không ai thay đổi prompt. Mô hình đơn giản là đã thay đổi.

Đây là vấn đề cốt lõi của LLM trong môi trường production. Bạn không kiểm soát được mô hình. Nó là một sự phụ thuộc có tính trôi dạt (drift). Nếu bạn không đo lường nó, người dùng sẽ nói với bạn rằng nó bị lỗi.

Bạn không thể dựa vào cảm giác hay kiểu "trông có vẻ ổn". Bạn cần các tín hiệu có thể lặp lại được.

Phần mềm truyền thống có tính xác định (deterministic). Cùng một đầu vào sẽ cho ra cùng một đầu ra. LLM phá vỡ quy tắc này. Chúng không có tính xác định và khái niệm "đúng" thường rất mơ hồ.

Để quản lý điều này, bạn cần ba lớp đánh giá:

  • Offline evals: Chạy một tập kiểm thử cố định sau mỗi thay đổi để phát hiện các lỗi hồi quy (regressions).
  • Reference-free checks: Sử dụng các tín hiệu như phát hiện ảo giác (hallucination detection) khi bạn không có câu trả lời "đúng".
  • Production monitoring: Theo dõi lưu lượng thực tế để phát hiện sự trôi dạt (drift) và sụt giảm chất lượng.

Nền tảng là một Golden Dataset. Đừng sử dụng các mẫu ngẫu nhiên. Hãy sử dụng một tập hợp được tuyển chọn kỹ lưỡng các trường hợp khó. Hãy sử dụng các đầu vào trống, các trường hợp biên kỳ lạ và các prompt đối kháng. 80 ví dụ sắc bén có giá trị hơn 8.000 ví dụ ngẫu nhiên.

Khi sử dụng LLM làm giám khảo, hãy lưu ý các định kiến sau:

  • Position bias (Định kiến vị trí): Các giám khảo thường ưu tiên câu trả lời đầu tiên họ thấy. Hãy khắc phục điều này bằng cách chạy so sánh theo cả hai thứ tự.
  • Verbosity bias (Định kiến về độ dài): Giám khảo thường thưởng cho các câu trả lời dài hơn ngay cả khi chúng kém rõ ràng hơn.
  • Self-enhancement bias (Định kiến tự đề cao): Các mô hình ưu tiên văn bản từ chính dòng họ (family) của chúng. Hãy sử dụng các dòng mô hình khác nhau để đánh giá đầu ra.

Để giám sát trong thời gian thực, hãy sử dụng RAG Triad để kiểm tra:

  • Faithfulness (Độ trung thực): Câu trả lời có bám sát ngữ cảnh không?
  • Answer relevance (Sự liên quan của câu trả lời): Nó có giải quyết được câu hỏi không?
  • Context relevance (Sự liên quan của ngữ cảnh): Hệ thống có lấy đúng các tài liệu cần thiết không?

Đừng coi chất lượng mô hình là một thuộc tính cố định. Hãy coi nó như độ trễ (latency) hoặc tỷ lệ lỗi. Nó luôn biến động. Công việc của bạn là nhận ra khi nào nó không còn tốt nữa.

Hãy bắt đầu từ quy mô nhỏ. Viết 20 ví dụ "vàng" (golden examples). Sử dụng chúng để kiểm soát việc triển khai (deploy). Sau đó mới thêm các heuristic sản xuất (production heuristics) rẻ tiền hơn.

Những đội ngũ có thể ngủ ngon không phải là những đội ngũ có mô hình thông minh nhất. Họ là những người biết được chỉ trong vòng một giờ nếu mô hình của họ trở nên kém thông minh hơn.

Source: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an

Optional learning community: https://t.me/GyaanSetuAi