𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

Translated for your language. Read the original.

AI-assisted draft.

evvelsi gün2min read

Yapay Zeka Eğitiminde Yapılandırılmış Geri Bildirim Neden Önemlidir

Araştırmacılar, yapay zeka eğitimi için basit puanlardan uzaklaşıyor. Artık daha zengin sinyaller kullanıyorlar.

Rethinking Reward Supervision başlıklı yeni bir makale, bu değişimin neden önemli olduğunu gösteriyor. Çoğu eğitim yöntemi, verileri tek bir sayıya sıkıştırır. Tek bir puan, bir cevabın iyi mi yoksa kötü mü olduğunu söyler; ancak nedenini söylemez.

Mevcut yöntemlerin sınırları vardır:

Denetimli damıtma (supervised distillation), düşünce zinciri (chain-of-thought) örneklerine dayanır. Bunlar maliyetlidir ve genellikle kusurludur. Eğer bir model hatalı bir açıklamayı taklit ederse, yanlış şeyi öğrenir.
Takviyeli öğrenme (reinforcement learning) ödülleri kullanır. Bir ödül tek bir sayı verir. Bu durum, kredi atamasını (credit assignment) zorlaştırır. Model sonucu bilir ancak hangi spesifik adımın başarısız olduğunu bilemez.

Rubrikler bu sorunu çözer. Basit bir puan ile tam bir açıklama arasında yer alırlar.

Süreç iki aşamada işler:

Sistem, göreve özel rubrikler oluşturur. Bilimsel konularda bu, birimlerin veya varsayımların kontrol edilmesi anlamına gelir.
Öğretmen model, öğrenciye rehberlik etmek için bu rubrikleri kullanır. Bu, token düzeyinde rehberlik sağlar. Rubrik, modele gerekçelendirmenin tam olarak nerede zayıf olduğunu söyler.

Bu yaklaşım üç fayda sunar:

Daha iyi kredi ataması. Model, tüm bir denemeyi çöpe atmak yerine belirli hatalardan öğrenir.
Yeniden kullanılabilir denetim. Tek bir rubrik, birçok farklı cevaba rehberlik edebilir.
Daha iyi ölçeklendirme. Rubrikler, çok adımlı karmaşık görevleri, ikili geçme veya kalma etiketlerinden daha iyi yönetir.

Makale, bu yöntemin bilimsel akıl yürütme görevlerinde GRPO ve OPSD gibi mevcut modelleri geride bıraktığını gösteriyor.

Ders açık: Eğer bir görevin yapısı varsa, bu yapıyı eğitim döngünüzde koruyun. Verilerinizi çok erken bir aşamada tek bir sayıya indirgemeyin.

İster rubrikleri, ister belirsizlik tabanlı planlamayı veya programatik açıklamaları kullanın, hedef aynıdır: Gizli davranışları açık sinyallere dönüştürmek.

Eğer akıl yürütme sistemleri inşa ediyorsanız, rubriklerinizi doğrudan kodlayın. Sadece nihai bir puana güvenmeyin.

Kaynak: https://dev.to/prabhakar_chaudhary_7afe4/why-structured-feedback-is-showing-up-in-recent-llm-training-papers-1no1

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi

𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

𝗠𝗮𝗿𝗸𝗱𝗼𝘄𝗻 𝗙𝗼𝗿𝗺𝗮𝘁𝘁𝗶𝗻𝗴 𝗙𝗼𝗿 𝗔𝗜 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

OpenAI ve Anthropic Yapay Zeka Sistemlerini Nasıl Tasarlıyor