OpenAI Meningkatkan Keamanan AI dengan RL
OpenAI menemukan cara baru untuk membuat AI lebih aman. Mereka menggunakan sedikit Reinforcement Learning (RL) untuk mengajarkan sifat-sifat tertentu kepada model. Sifat-sifat ini mencakup kebenaran, keadilan, dan kejujuran.
Hasilnya menunjukkan bahwa model tersebut meningkat pada 44 dari 53 benchmark keamanan.
Apa yang membuat metode ini berbeda:
- Menggunakan sifat-sifat tertentu alih-alih konstitusi tertulis.
- Membuat model lebih sulit dimanipulasi dengan prompt yang buruk.
- Menahan fine-tuning yang berbahaya.
- Menjaga model tetap bermanfaat sambil menghentikan perilaku buruk.
OpenAI menyebut ini sebagai selective persistence. Model tetap fleksibel untuk tugas-tugas yang baik tetapi menolak pengarahan yang berbahaya.
Para peneliti menggunakan data dari bidang-bidang seperti layanan kesehatan, hukum, dan sains. Mereka menemukan bahwa pelatihan pada satu topik juga membantu bidang lainnya. Sebagai contoh, pelatihan pada data kesehatan meningkatkan cara model menghindari penipuan pada subjek lain.
Ini berbeda dari Anthropic. Anthropic menggunakan serangkaian aturan tertulis yang disebut konstitusi. OpenAI menggunakan perilaku yang dapat diukur melalui RL.
Penemuan ini menunjukkan bahwa perilaku baik menyebar di berbagai domain. Hal ini dapat mengubah cara perusahaan AI melatih model mereka di masa depan.
Optional learning community: https://t.me/GyaanSetuAi