𝗢𝗽𝗲𝗻𝗔𝗜 𝗠𝗲𝗻𝗶𝗻𝗴𝗸𝗮𝘁𝗸𝗮𝗻 𝗞𝗲𝘀𝗲𝗹𝗮𝗺𝗮𝘁𝗮𝗻 𝗔𝗜 𝗱𝗲𝗻𝗴𝗮𝗻 𝗥𝗟

OpenAI telah menemui cara baharu untuk menjadikan AI lebih selamat. Mereka menggunakan jumlah Reinforcement Learning (RL) yang kecil untuk mengajar model sifat-sifat tertentu. Sifat-sifat ini termasuklah kebenaran, keadilan, dan kejujuran.

Keputusan menunjukkan model tersebut bertambah baik dalam 44 daripada 53 penanda aras keselamatan.

Apa yang membezakan kaedah ini:

  • Ia menggunakan sifat-sifat tertentu dan bukannya perlembagaan bertulis.
  • Ia menjadikan model lebih sukar untuk dimanipulasi dengan prompt yang buruk.
  • Ia menentang penalaan halus (fine-tuning) yang berbahaya.
  • Ia mengekalkan kegunaan model sambil menghalang tingkah laku buruk.

OpenAI menggelar ini sebagai ketekalan terpilih (selective persistence). Model tersebut kekal fleksibel untuk tugasan yang baik tetapi menentang hala tuju yang berbahaya.

Para penyelidik menggunakan data daripada bidang seperti penjagaan kesihatan, undang-undang, dan sains. Mereka mendapati bahawa latihan pada satu topik turut membantu bidang lain. Sebagai contoh, latihan menggunakan data kesihatan meningkatkan cara model mengelakkan penipuan dalam subjek lain.

Ini berbeza daripada Anthropic. Anthropic menggunakan set peraturan bertulis yang dipanggil perlembagaan. OpenAI menggunakan tingkah laku yang boleh diukur melalui RL.

Penemuan ini menunjukkan bahawa tingkah laku yang baik tersebar merentasi pelbagai domain. Ini boleh mengubah cara syarikat AI melatih model mereka pada masa hadapan.

Sumber: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi