𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Translated for your language. Read the original.

AI-assisted draft.

9 jam lalu1min read

𝗢𝗽𝗲𝗻𝗔𝗜 𝗠𝗲𝗻𝗶𝗻𝗴𝗸𝗮𝘁𝗸𝗮𝗻 𝗞𝗲𝘀𝗲𝗹𝗮𝗺𝗮𝘁𝗮𝗻 𝗔𝗜 𝗱𝗲𝗻𝗴𝗮𝗻 𝗥𝗟

OpenAI telah menemui cara baharu untuk menjadikan AI lebih selamat. Mereka menggunakan jumlah Reinforcement Learning (RL) yang kecil untuk mengajar model sifat-sifat tertentu. Sifat-sifat ini termasuklah kebenaran, keadilan, dan kejujuran.

Keputusan menunjukkan model tersebut bertambah baik dalam 44 daripada 53 penanda aras keselamatan.

Apa yang membezakan kaedah ini:

Ia menggunakan sifat-sifat tertentu dan bukannya perlembagaan bertulis.
Ia menjadikan model lebih sukar untuk dimanipulasi dengan prompt yang buruk.
Ia menentang penalaan halus (fine-tuning) yang berbahaya.
Ia mengekalkan kegunaan model sambil menghalang tingkah laku buruk.

OpenAI menggelar ini sebagai ketekalan terpilih (selective persistence). Model tersebut kekal fleksibel untuk tugasan yang baik tetapi menentang hala tuju yang berbahaya.

Para penyelidik menggunakan data daripada bidang seperti penjagaan kesihatan, undang-undang, dan sains. Mereka mendapati bahawa latihan pada satu topik turut membantu bidang lain. Sebagai contoh, latihan menggunakan data kesihatan meningkatkan cara model mengelakkan penipuan dalam subjek lain.

Ini berbeza daripada Anthropic. Anthropic menggunakan set peraturan bertulis yang dipanggil perlembagaan. OpenAI menggunakan tingkah laku yang boleh diukur melalui RL.

Penemuan ini menunjukkan bahawa tingkah laku yang baik tersebar merentasi pelbagai domain. Ini boleh mengubah cara syarikat AI melatih model mereka pada masa hadapan.

Sumber: https://dev.to/gentic_news/openai-small-rl-doses-on-beneficial-traits-improve-44-of-53-safety-benchmarks-4113

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

𝗢𝗽𝗲𝗻𝗔𝗜 𝗜𝗺𝗽𝗿𝗼𝘃𝗲𝘀 𝗔𝗜 𝗦𝗮𝗳𝗲𝘁𝘆 𝗪𝗶𝘁𝗵 𝗥𝗟

Continue reading

Simulasi AI Pra-Pelancaran Merupakan Semakan Keselamatan Model Baharu

Simulasi AI pra-pelancaran adalah semakan keselamatan baharu

Bagaimana OpenAI dan Anthropic Mereka Bentuk Sistem AI

Bagaimana OpenAI dan Anthropic Mereka Bentuk Sistem AI

OpenAI Temui Dos Kecil Latihan Bermanfaat Tingkatkan Keselamatan AI