OpenAI Temui Dos Kecil Latihan Bermanfaat Tingkatkan Keselamatan AI
Penyelidik OpenAI telah menemui bahawa melatih model AI dengan tingkah laku positif yang khusus boleh membawa kepada penambahbaikan yang luas dan tidak dijangka dalam aspek keselamatan dan kebolehpercayaan merentasi pelbagai domain. Penemuan penting ini menunjukkan bahawa "tingkah laku baik" adalah sangat mudah dipindahkan (transferable), menjadikan model lebih tahan terhadap manipulasi tanpa memerlukan set data baharu yang besar.
Kuasa Ciri Bermanfaat yang Boleh Digeneralisasikan
Dalam satu kajian baru-baru ini yang diterbitkan di halaman penjajaran (alignment) OpenAI, penyelidik meneroka sama ada memperkukuh ciri-ciri positif tertentu semasa pembelajaran pengukuhan (reinforcement learning - RL) boleh digeneralisasikan kepada senario yang tidak dikenali. Berbanding latihan keselamatan yang luas, pasukan tersebut memberi tumpuan kepada set tingkah laku yang diingini secara bersasaran, termasuk kejujuran, kerendahan hati epistemik, kebolehan untuk diperbetulkan (corrigibility), ketelusan dalam penaakulan, keadilan, dan keprihatinan terhadap kesejahteraan manusia.
Ciri-ciri ini diuji melalui perbualan realistik dalam domain berisiko tinggi seperti penjagaan kesihatan, pendidikan, sains, undang-undang, dan kejuruteraan. Penemuan yang paling mengejutkan adalah walaupun hanya sejumlah kecil data "ciri bermanfaat" ini dicampurkan ke dalam saluran (pipeline) pasca-latihan RL biasa, ia membuahkan hasil yang besar. Model tersebut menunjukkan penambahbaikan dalam 44 daripada 53 penanda aras bebas, merangkumi risiko kritikal seperti penipuan, sikap penjilat (sycophancy), penggodaman ganjaran (reward hacking), dan senario kesihatan mental.
Ketahanan terhadap Hala Tuju dan Manipulasi Berbahaya
Cabaran besar dalam penjajaran AI ialah "jailbreaking" atau hala tuju berbahaya, di mana arahan (prompt) adversarial memaksa model untuk memintas pagar keselamatan (guardrails)nya. Penyelidikan OpenAI menunjukkan bahawa model yang dilatih dengan ciri-ciri bermanfaat ini mempamerkan apa yang dipanggil oleh penyelidik sebagai "ketekalan terpilih" (selective persistence).
Fenomena ini bermakna model menjadi jauh lebih tahan terhadap arahan adversarial dan penalaan halus (fine-tuning) berbahaya yang biasanya akan menjejaskan kestabilan model asas. Yang paling penting, ketahanan ini tidak mengorbankan kegunaan; model tersebut kekal mampu mengikut arahan yang membantu dan sah. Keupayaan untuk mengekalkan nilai teras di bawah tekanan—sambil kekal fleksibel untuk keperluan pengguna—mewakili langkah besar ke hadapan dalam mencipta AI yang teguh dan sedia untuk pengeluaran.
Laluan yang Berbeza: OpenAI lwn. Anthropic
Penemuan ini menonjolkan perbezaan falsafah yang mendasar dalam cara industri menangani penjajaran AI. Trajektori semasa OpenAI sangat bergantung pada ciri tingkah laku empirikal dan boleh diukur yang diperkukuh melalui RL dalam senario khusus domain yang realistik. Kejayaan mereka diukur melalui penandaarasan yang ketat merentasi berpuluh-puluh kaedah penilaian.
Sebaliknya, Anthropic menggunakan "Constitutional AI." Kaedah ini bergantung pada dokumen bertulis yang eksplisit—"Claude constitution"—yang berfungsi sebagai panduan peringkat tinggi untuk model memahami prinsip di sebalik tingkah lakunya. Walaupun Anthropic memberi tumpuan kepada pendekatan berasaskan prinsip di mana model memahami sebab di sebalik nilainya, OpenAI membuktikan bahawa pendekatan berasaskan data dan pengukuhan tingkah laku dapat mencapai tahap keselamatan dan generalisasi rentas domain yang tinggi.
Penyelidikan ini sangat penting bagi landskap AI yang lebih luas kerana ia menyediakan pelan tindakan keselamatan yang lebih cekap. Jika pembangun dapat mencapai penjajaran yang meluas hanya dengan menggunakan "dos kecil" data latihan khusus, kos dan kerumitan untuk menjadikan model perintis selamat boleh berkurangan dengan ketara.
Rumusan Utama
- Kebolehupayaan Pemindahan Rentas Domain: Latihan pada ciri khusus seperti kebenaran dan keadilan dalam satu bidang (contohnya, penjagaan kesihatan) meningkatkan prestasi model dalam penandaarasan yang sama sekali tidak berkaitan seperti pengesanan penipuan.
- Ketekalan Selektif: Model yang dilatih dengan ciri-ciri bermanfaat menjadi lebih sukar untuk dimanipulasi melalui prom adversarial atau penalaan halus yang berbahaya, sambil kekal sangat responsif terhadap arahan pengguna yang membantu.
- Kecekapan dalam Penjajaran: OpenAI menunjukkan bahawa walaupun dalam jumlah data pembelajaran pengukuhan yang disasarkan yang kecil, ia dapat meningkatkan keselamatan secara signifikan merentasi 44 daripada 53 penandaarasan yang diuji.