Mengapa Umpan Balik Terstruktur Penting dalam Pelatihan AI
Para peneliti mulai meninggalkan penggunaan skor sederhana untuk pelatihan AI. Mereka kini menggunakan sinyal yang lebih kaya.
Sebuah makalah baru berjudul Rethinking Reward Supervision menunjukkan mengapa pergeseran ini penting. Sebagian besar metode pelatihan mengompres data menjadi satu angka tunggal. Sebuah skor tunggal memberi tahu Anda apakah sebuah jawaban itu baik atau buruk, tetapi tidak memberi tahu Anda alasannya.
Metode saat ini memiliki keterbatasan:
- Supervised distillation mengandalkan contoh chain-of-thought. Contoh-contoh ini mahal dan sering kali tidak sempurna. Jika sebuah model meniru penjelasan yang cacat, ia akan mempelajari hal yang salah.
- Reinforcement learning menggunakan reward. Sebuah reward memberikan satu angka tunggal. Hal ini membuat credit assignment menjadi sulit. Model mengetahui hasilnya, tetapi tidak mengetahui langkah spesifik mana yang gagal.
Rubrik menyelesaikan masalah ini. Rubrik berada di antara skor sederhana dan penjelasan lengkap.
Prosesnya bekerja dalam dua tahap:
- Sistem membuat rubrik khusus tugas. Untuk sains, ini berarti memeriksa satuan atau asumsi.
- Model pengajar (teacher model) menggunakan rubrik ini untuk membimbing model siswa (student model). Ini memberikan panduan pada tingkat token (token-level guidance). Rubrik tersebut memberi tahu model secara tepat di bagian mana sebuah justifikasi terasa lemah.
Pendekatan ini menawarkan tiga manfaat:
- Credit assignment yang lebih baik. Model belajar dari kesalahan spesifik alih-alih membuang seluruh upaya.
- Supervisi yang dapat digunakan kembali. Satu rubrik dapat membimbing banyak jawaban yang berbeda.
- Skalabilitas yang lebih baik. Rubrik menangani tugas kompleks dengan banyak langkah dengan lebih baik daripada label lulus atau gagal yang bersifat biner.
Makalah tersebut menunjukkan bahwa metode ini mengungguli model yang ada seperti GRPO dan OPSD dalam tugas penalaran sains.
Pelajarannya jelas. Jika sebuah tugas memiliki struktur, pertahankan struktur tersebut dalam siklus pelatihan Anda. Jangan meratakan data Anda menjadi satu angka tunggal terlalu dini.
Baik Anda menggunakan rubrik, perencanaan berbasis ketidakpastian (uncertainty-based planning), atau penjelasan programatik, tujuannya tetap sama. Ubah perilaku tersembunyi menjadi sinyal eksplisit.
Jika Anda membangun sistem penalaran, enkode rubrik Anda secara langsung. Jangan hanya mengandalkan skor akhir.
Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi