𝗥𝗲𝗱 𝗧𝗲𝗮𝗺 𝗔𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝘃𝟮.𝟬: Sự tiến hóa trong đánh giá LLM
Chúng tôi vừa phát hành phiên bản 2.0 của redteam-ai-benchmark.
Phiên bản 1.0 sử dụng 12 câu hỏi cố định. Nó đo lường xem một mô hình có từ chối câu hỏi hay có thể viết mã khai thác (exploit code) hay không. Nó đã hoạt động hiệu quả, nhưng vẫn tồn tại những thiếu sót. Nó dựa vào một "đáp án vàng" duy nhất. Nếu một mô hình đưa ra câu trả lời đúng bằng một phương pháp khác, nó sẽ bị coi là thất bại. Nó cũng thiếu sự chi tiết; bạn không thể biết tại sao một mô hình lại thất bại.
Phiên bản 2.0 thay đổi mọi thứ. Chúng tôi đã tăng từ 12 câu hỏi lên 60 câu hỏi.
Chúng tôi đã hợp tác với POXEK AI để xây dựng một khung đánh giá chuyên nghiệp. Đây không còn chỉ là một công cụ cá nhân nữa, mà hiện đã trở thành một tiêu chuẩn của cộng đồng.
Có gì mới trong v2:
- Hệ thống phân loại có cấu trúc: Các câu hỏi bao quát các lĩnh vực như Windows tradecraft, Cloud/IAM và Web exploitation.
- Các cấp độ khó: Chúng tôi kiểm tra mọi thứ từ các sự kiện cơ bản đến các tác vụ vận hành đa bước phức tạp.
- Tiêu chí đánh giá nguyên tử (Atomic Rubrics): Mỗi câu hỏi đều có các tiêu chí đạt/không đạt cụ thể. Điều này giúp ngăn chặn các kết quả âm tính giả (false negatives) khi mô hình sử dụng một phương pháp thay thế hợp lệ.
- Bảy chỉ số cốt lõi: Giờ đây bạn có thể theo dõi tỷ lệ từ chối, độ chính xác kỹ thuật, tỷ lệ lỗi nghiêm trọng, độ đầy đủ, tính cụ thể, tỷ lệ ảo giác (hallucination) và độ trễ.
- Cơ chế kiểm định: Chúng tôi sử dụng một lớp "LLM-as-Judge". Lớp này chỉ xem xét các trường hợp gây tranh cãi hoặc mơ hồ. Điều này giúp đưa ra ý kiến thứ hai mà không làm mất đi tính tái lập (reproducibility).
Tại sao điều này lại quan trọng với bạn:
Đừng chỉ tin vào những tuyên bố của nhà cung cấp. Hãy sử dụng bộ benchmark này để có được dữ liệu thực tế.
- Tìm ra các mô hình nguy hiểm: Một mô hình có vẻ thông minh nhưng có thể có tỷ lệ lỗi nghiêm trọng cao. Điều đó có nghĩa là nó tạo ra mã nguồn trông có vẻ hợp lý nhưng lại sai.
- Hiểu về sự căn chỉnh (alignment): Xem liệu một mô hình từ chối các tác vụ vì lý do an toàn hay vì nó không đủ khả năng.
- Nhận phản hồi có thể thực hiện được: Biết chính xác tại sao một mô hình thất bại. Do nó thiếu kiến thức chuyên môn hay do nó gặp khó khăn trong việc suy luận?
Khung đánh giá này được cấp phép theo giấy phép MIT. Hãy sử dụng nó trong các phòng thí nghiệm được ủy quyền, nghiên cứu hoặc môi trường giáo dục. Chúng tôi không thể ngăn chặn việc lạm dụng, nhưng chúng tôi có thể làm cho việc lạm dụng trở nên rõ ràng thông qua việc chấm điểm minh bạch.
Bắt đầu ngay:
git clone https://github.com/toxy4ny/redteam-ai-benchmark.git
cd redteam-ai-benchmark
uv sync
uv run run_benchmark.py run ollama -m "llama3.1:8b" --profile standard
Nguồn: https://dev.to/toxy4ny/red-team-ai-benchmark-v20-from-12-questions-to-60-a-technical-deep-dive-omn
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi
