𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Translated for your language. Read the original.

AI-assisted draft.

9 jam yang lalu1min read

OpenAI Meningkatkan Keamanan AI dengan RL

OpenAI menemukan cara baru untuk membuat AI lebih aman. Mereka menggunakan sedikit Reinforcement Learning (RL) untuk mengajarkan sifat-sifat tertentu kepada model. Sifat-sifat ini mencakup kebenaran, keadilan, dan kejujuran.

Hasilnya menunjukkan bahwa model tersebut meningkat pada 44 dari 53 benchmark keamanan.

Apa yang membuat metode ini berbeda:

Menggunakan sifat-sifat tertentu alih-alih konstitusi tertulis.
Membuat model lebih sulit dimanipulasi dengan prompt yang buruk.
Menahan fine-tuning yang berbahaya.
Menjaga model tetap bermanfaat sambil menghentikan perilaku buruk.

OpenAI menyebut ini sebagai selective persistence. Model tetap fleksibel untuk tugas-tugas yang baik tetapi menolak pengarahan yang berbahaya.

Para peneliti menggunakan data dari bidang-bidang seperti layanan kesehatan, hukum, dan sains. Mereka menemukan bahwa pelatihan pada satu topik juga membantu bidang lainnya. Sebagai contoh, pelatihan pada data kesehatan meningkatkan cara model menghindari penipuan pada subjek lain.

Ini berbeda dari Anthropic. Anthropic menggunakan serangkaian aturan tertulis yang disebut konstitusi. OpenAI menggunakan perilaku yang dapat diukur melalui RL.

Penemuan ini menunjukkan bahwa perilaku baik menyebar di berbagai domain. Hal ini dapat mengubah cara perusahaan AI melatih model mereka di masa depan.

Source: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Optional learning community: https://t.me/GyaanSetuAi

𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Continue reading

Simulasi AI Pra-Peluncuran Adalah Standar Baru Pemeriksaan Keamanan Model

Simulasi AI pra-peluncuran adalah standar pemeriksaan keamanan yang baru

Bagaimana OpenAI dan Anthropic Merancang Sistem AI

Bagaimana OpenAI dan Anthropic Merancang Sistem AI

OpenAI Temukan Dosis Kecil Pelatihan Bermanfaat Dapat Meningkatkan Keamanan AI