Yapay Zeka Eğitiminde Yapılandırılmış Geri Bildirim Neden Önemlidir

Araştırmacılar, yapay zeka eğitimi için basit puanlardan uzaklaşıyor. Artık daha zengin sinyaller kullanıyorlar.

Rethinking Reward Supervision başlıklı yeni bir makale, bu değişimin neden önemli olduğunu gösteriyor. Çoğu eğitim yöntemi, verileri tek bir sayıya sıkıştırır. Tek bir puan, bir cevabın iyi mi yoksa kötü mü olduğunu söyler; ancak nedenini söylemez.

Mevcut yöntemlerin sınırları vardır:

  • Denetimli damıtma (supervised distillation), düşünce zinciri (chain-of-thought) örneklerine dayanır. Bunlar maliyetlidir ve genellikle kusurludur. Eğer bir model hatalı bir açıklamayı taklit ederse, yanlış şeyi öğrenir.
  • Takviyeli öğrenme (reinforcement learning) ödülleri kullanır. Bir ödül tek bir sayı verir. Bu durum, kredi atamasını (credit assignment) zorlaştırır. Model sonucu bilir ancak hangi spesifik adımın başarısız olduğunu bilemez.

Rubrikler bu sorunu çözer. Basit bir puan ile tam bir açıklama arasında yer alırlar.

Süreç iki aşamada işler:

  1. Sistem, göreve özel rubrikler oluşturur. Bilimsel konularda bu, birimlerin veya varsayımların kontrol edilmesi anlamına gelir.
  2. Öğretmen model, öğrenciye rehberlik etmek için bu rubrikleri kullanır. Bu, token düzeyinde rehberlik sağlar. Rubrik, modele gerekçelendirmenin tam olarak nerede zayıf olduğunu söyler.

Bu yaklaşım üç fayda sunar:

  • Daha iyi kredi ataması. Model, tüm bir denemeyi çöpe atmak yerine belirli hatalardan öğrenir.
  • Yeniden kullanılabilir denetim. Tek bir rubrik, birçok farklı cevaba rehberlik edebilir.
  • Daha iyi ölçeklendirme. Rubrikler, çok adımlı karmaşık görevleri, ikili geçme veya kalma etiketlerinden daha iyi yönetir.

Makale, bu yöntemin bilimsel akıl yürütme görevlerinde GRPO ve OPSD gibi mevcut modelleri geride bıraktığını gösteriyor.

Ders açık: Eğer bir görevin yapısı varsa, bu yapıyı eğitim döngünüzde koruyun. Verilerinizi çok erken bir aşamada tek bir sayıya indirgemeyin.

İster rubrikleri, ister belirsizlik tabanlı planlamayı veya programatik açıklamaları kullanın, hedef aynıdır: Gizli davranışları açık sinyallere dönüştürmek.

Eğer akıl yürütme sistemleri inşa ediyorsanız, rubriklerinizi doğrudan kodlayın. Sadece nihai bir puana güvenmeyin.

Kaynak: https://dev.to/prabhakar_chaudhary_7afe4/why-structured-feedback-is-showing-up-in-recent-llm-training-papers-1no1

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi