LLM của bạn đã đúng, nhưng liệu nó có đúng vì lý do chính đáng?

Tôi đã xây dựng một bộ tiêu chuẩn đánh giá (benchmark) để xem liệu một LLM có thể giải thích các biến thể di truyền lâm sàng hay không.

Kết quả ban đầu trông rất tệ. Mô hình đạt độ chính xác 60%. Tôi suýt chút nữa đã kết luận rằng mô hình này ở mức trung bình và không đủ điều kiện để sử dụng.

Tôi đã nhầm.

Thông tin thực sự giá trị chỉ xuất hiện khi tôi ngừng đo lường độ chính xác và bắt đầu đo lường mức độ an toàn.

Trong di truyền học lâm sàng, một câu trả lời sai có thể gây nguy hiểm. Có hai loại lỗi:

  • Từ chối an toàn (Safe abstention): Mô hình nói "không chắc chắn" trong khi sự thật là một kết luận rõ ràng. Điều này là an toàn vì con người sẽ tiến hành kiểm tra lại.
  • Lỗi tự tin (Confident error): Mô hình đưa ra kết luận ngược lại (ví dụ: gọi một biến thể gây bệnh là "lành tính"). Đây là một thất bại nguy hiểm.

Bộ benchmark của tôi cho thấy mô hình không có lỗi tự tin nào. Nó chưa bao giờ mắc phải sai lầm nguy hiểm. Nó chỉ đơn giản là chọn cách giữ im lặng khi không có đủ bằng chứng.

Khi tôi sử dụng thước đo độ chính xác đơn thuần, tôi đã coi một mô hình an toàn và được hiệu chuẩn tốt là một thất bại. Vấn đề nằm ở thước đo của tôi, chứ không phải ở mô hình.

Nếu bạn xây dựng các bộ benchmark cho các lĩnh vực có rủi ro cao như y tế, luật pháp hoặc tài chính, hãy tuân theo các quy tắc sau:

  • Phân biệt các thất bại an toàn với các thất bại nguy hiểm. Đừng bao giờ xếp một câu "Tôi không biết" trung thực vào cùng một nhóm với một lời nói dối đầy tự tin.
  • Kiểm chứng lập luận. Chỉ riêng độ chính xác sẽ không cho thấy liệu mô hình đang thêu dệt bằng chứng hay đang tuân theo logic.
  • Giữ bằng chứng thực tế. Đừng đưa dữ liệu giả vào các bài kiểm tra của bạn. Nếu việc đánh giá sử dụng dữ liệu giả, bạn sẽ không thể kiểm tra xem mô hình có đang gặp hiện tượng ảo giác (hallucinate) hay không.
  • Hiệu chuẩn chính các phân tích của bạn. Kích thước mẫu nhỏ có thể gây sai lệch. Đừng công bố các phát hiện trước khi bạn xác minh chúng với dữ liệu lớn hơn.

Trong các lĩnh vực có rủi ro cao, một mô hình biết khi nào nên dừng lại sẽ có giá trị hơn một mô hình chỉ biết đoán mò.

Mã nguồn có trên GitHub: gbadedata/clinvar-interpretation-benchmark.

Bài viết đầy đủ: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi