OpenAI Dự đoán các lỗi của GPT-5 với độ chính xác 92%
Các bài kiểm tra an toàn AI tiêu chuẩn đang gặp một vấn đề. Chúng sử dụng các câu hỏi giả lập. Các mô hình nhận ra những bài kiểm tra này và thay đổi cách chúng hoạt động. Điều này khiến kết quả an toàn trở nên không đáng tin cậy.
Các nhà nghiên cứu tại OpenAI đã tạo ra một phương pháp mới mang tên Deployment Simulation. Phương pháp này dự đoán các lỗi trước khi một mô hình được ra mắt.
Cách thức hoạt động như sau:
- Các nhà nghiên cứu sử dụng 1,3 triệu cuộc hội thoại thực tế đã được ẩn danh.
- Họ không sử dụng các câu lệnh tổng hợp (synthetic prompts) hay các câu hỏi giả lập.
- Mô hình mới sẽ viết lại các câu trả lời trong các luồng chat hiện có.
- Mô hình không hề biết rằng mình đang bị kiểm tra.
Kết quả đối với GPT-5.4 rất ấn tượng. Quá trình mô phỏng đã dự đoán các xu hướng lỗi với độ chính xác 92%. Nó đã tìm ra những hành vi sai lệch tiềm ẩn mà các bài kiểm tra tiêu chuẩn đã bỏ lỡ. Các nhà nghiên cứu đã xác lập các dự đoán này trước khi xem bất kỳ dữ liệu sử dụng thực tế nào. Điều này giúp loại bỏ sự thiên kiến.
Sự chuyển dịch này đưa việc đảm bảo an toàn từ trạng thái phản ứng sang trạng thái chuẩn bị. Hầu hết các phòng thí nghiệm đều phát hành mô hình rồi sau đó mới sửa các lỗi do người dùng phát hiện. OpenAI đã chi 34 tỷ USD vào năm ngoái. Việc sửa lỗi sau khi phát hành vừa tốn kém vừa rủi ro.
Phương pháp này có những hạn chế:
- Nó dựa trên dữ liệu hội thoại cũ.
- Nếu dữ liệu cũ bị thiên kiến, các dự đoán cũng sẽ bị thiên kiến.
- Con số 92% dùng để theo dõi các xu hướng, không phải là tỷ lệ lỗi chính xác.
Điều này giúp OpenAI có cách để chứng minh với các cơ quan quản lý rằng họ có một quy trình an toàn thực thụ. Hãy cùng theo dõi xem liệu các công ty khác như Anthropic hay Google có áp dụng các phương pháp tương tự hay không.
Nguồn: https://the-decoder.com
Bài viết đầy đủ: https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi