OpenAI Cải thiện An toàn AI bằng RL
OpenAI đã tìm ra một cách mới để giúp AI an toàn hơn. Họ đã sử dụng một lượng nhỏ Học tăng cường (Reinforcement Learning - RL) để dạy cho các mô hình những đặc tính cụ thể. Những đặc tính này bao gồm tính xác thực, tính công bằng và sự trung thực.
Kết quả cho thấy mô hình đã cải thiện ở 44 trên tổng số 53 tiêu chuẩn đánh giá (benchmarks) về an toàn.
Điều gì làm cho phương pháp này trở nên khác biệt:
- Nó sử dụng các đặc tính cụ thể thay vì một bản hiến pháp (constitution) bằng văn bản.
- Nó khiến các mô hình khó bị thao túng bởi các câu lệnh (prompts) xấu hơn.
- Nó có khả năng chống lại việc tinh chỉnh (fine-tuning) gây hại.
- Nó giúp mô hình vẫn hữu ích trong khi ngăn chặn các hành vi xấu.
OpenAI gọi đây là sự kiên định có chọn lọc (selective persistence). Mô hình duy trì sự linh hoạt cho các tác vụ hữu ích nhưng chống lại sự điều hướng có hại.
Các nhà nghiên cứu đã sử dụng dữ liệu từ các lĩnh vực như y tế, luật pháp và khoa học. Họ nhận thấy rằng việc huấn luyện trên một chủ đề cũng giúp ích cho các lĩnh vực khác. Ví dụ, việc huấn luyện trên dữ liệu y tế đã cải thiện cách mô hình tránh sự lừa dối trong các chủ đề khác.
Điều này khác với Anthropic. Anthropic sử dụng một bộ quy tắc bằng văn bản được gọi là hiến pháp (constitution). OpenAI sử dụng các hành vi có thể đo lường được thông qua RL.
Khám phá này cho thấy các hành vi tốt có thể lan tỏa qua các lĩnh vực khác nhau. Điều này có thể thay đổi cách các công ty AI huấn luyện mô hình của họ trong tương lai.
Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi