Tỷ lệ vượt qua 91%. Gate báo xanh. Đã triển khai. Sự thoái lui tồi tệ nhất từ trước đến nay.

Chúng tôi đạt tỷ lệ vượt qua 91% trong một bài kiểm tra phân loại ý định (intent-classification). Ngưỡng yêu cầu là 90%. Chúng tôi đã vượt qua tiêu chuẩn. Chúng tôi đã triển khai mã nguồn.

Đó là sự thoái lui (regression) tồi tệ nhất của chúng tôi trong quý này.

Vấn đề nằm ở cách tính toán của chúng tôi. Điểm đánh giá của chúng tôi duy trì ở mức 96% hoặc 97% trong nhiều tuần. Sau đó, một thay đổi đã làm hỏng một phân đoạn (slice) cụ thể: các yêu cầu hoàn tiền mơ hồ. Phân đoạn đó đã giảm từ 98% xuống còn 74%.

Phân đoạn đó chiếm 4% tổng lưu lượng truy cập của chúng tôi. Vì chúng tôi chỉ nhìn vào con số trung bình, tổng điểm chỉ giảm xuống còn 91%. Trạng thái gate vẫn báo xanh.

Các số liệu tổng hợp đang che giấu những thất bại bên trong những nhiễu số liệu.

Những người dùng trong phân đoạn đó không thấy con số 91%. Họ thấy 74%. Một ngưỡng cố định chỉ cho bạn biết liệu toàn bộ hệ thống có đang rơi xuống vực thẳm hay không. Nó không cho bạn biết liệu một phần của hệ thống đang chết dần. Nếu 96 phân đoạn vẫn ổn và một phân đoạn bị sụp đổ, con số trung bình cao sẽ che giấu sự sụp đổ đó. Thay vì phát hiện qua các công cụ kiểm thử, bạn lại phát hiện ra lỗi thông qua các phiếu hỗ trợ (support tickets).

Chúng tôi đã thay đổi chiến lược. Chúng tôi ngừng việc đặt ngưỡng dựa trên các con số tuyệt đối. Giờ đây, chúng tôi đặt ngưỡng so với lần chạy thành công gần nhất.

Chúng tôi sử dụng hai quy tắc. Cả hai đều phải vượt qua:

  • Không có phân đoạn đơn lẻ nào giảm quá 3 điểm so với mức cơ sở (baseline).
  • Tổng số liệu tổng hợp không được giảm quá 1,5 điểm so với mức cơ sở.

Trong thất bại gần đây, phân đoạn hoàn tiền đã giảm tới 24 điểm. Quy tắc thứ nhất lẽ ra đã phát hiện ra nó ngay lập tức.

Hãy cảnh giác với bẫy delta gating. Nếu mức cơ sở (baseline) của bạn được cập nhật sau mỗi lần chạy, bạn có thể dần trượt dài vào thất bại. Việc giảm 0,5 điểm mỗi ngày sẽ vượt qua mọi bài kiểm tra. Bạn đang từ từ trượt dần vào một sản phẩm tồi tệ.

Hãy làm theo các bước sau để khắc phục quy trình kiểm thử của bạn:

  • Chỉ cập nhật mức cơ sở khi nhánh chính (main branch) báo xanh.
  • Yêu cầu con người phê duyệt bất kỳ sự sụt giảm điểm số có chủ đích nào.
  • Mức cơ sở của bạn phải là bản ghi chép về những gì đang hoạt động tốt, chứ không chỉ là những gì vừa xảy ra gần nhất.
  • Kiểm tra độ biến thiên của 5 lần chạy báo xanh gần nhất. Nếu một phân đoạn dao động mạnh hơn ngưỡng của bạn, thì ngưỡng đó chỉ là nhiễu.
  • Kiểm thử phân đoạn nhỏ nhất của bạn. Hãy tự hỏi nó có thể giảm bao nhiêu trước khi con số tổng hợp nhận ra. Nếu câu trả lời là một con số lớn, thì con số tổng hợp của bạn đang che giấu các lỗi.

Nguồn: https://dev.to/ethanwritesai/91-pass-rate-gate-green-shipped-worst-regression-we-had-all-quarter-4dfn

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi