𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

Translated for your language. Leggi l'originale.

AI-assisted draft.

l’altro ieri2min di lettura

Perché il feedback strutturato è importante nell'addestramento dell'IA

I ricercatori si stanno allontanando dai semplici punteggi per l'addestramento dell'IA. Ora stanno utilizzando segnali più ricchi.

Un nuovo articolo intitolato Rethinking Reward Supervision mostra perché questo cambiamento sia importante. La maggior parte dei metodi di addestramento comprime i dati in un unico numero. Un singolo punteggio ti dice se una risposta è buona o cattiva. Non ti dice il perché.

I metodi attuali hanno dei limiti:

La distillazione supervisionata si basa su esempi di chain-of-thought. Questi sono costosi e spesso imperfetti. Se un modello imita una spiegazione errata, impara la cosa sbagliata.
L'apprendimento per rinforzo utilizza delle ricompense. Una ricompensa fornisce un singolo numero. Questo rende difficile il credit assignment. Il modello conosce il risultato, ma non sa quale passaggio specifico sia fallito.

Le rubriche risolvono questo problema. Si collocano tra un semplice punteggio e una spiegazione completa.

Il processo funziona in due fasi:

Il sistema crea rubriche specifiche per il compito. Per la scienza, ciò significa controllare unità di misura o ipotesi.
Il modello insegnante utilizza queste rubriche per guidare lo studente. Ciò fornisce una guida a livello di token. La rubrica dice al modello esattamente dove una giustificazione è debole.

Questo approccio offre tre vantaggi:

Migliore credit assignment. Il modello impara da errori specifici invece di scartare un intero tentativo.
Supervisione riutilizzabile. Una rubrica può guidare molte risposte diverse.
Migliore scalabilità. Le rubriche gestiscono compiti complessi con molti passaggi meglio di un'etichetta binaria di successo o fallimento.

L'articolo dimostra che questo metodo supera i modelli esistenti come GRPO e OPSD nei compiti di ragionamento scientifico.

La lezione è chiara. Se un compito ha una struttura, mantieni quella struttura nel tuo ciclo di addestramento. Non appiattire i tuoi dati in un unico numero troppo presto.

Che tu utilizzi rubriche, pianificazione basata sull'incertezza o spiegazioni programmatiche, l'obiettivo è lo stesso. Trasforma i comportamenti nascosti in segnali espliciti.

Se costruisci sistemi di ragionamento, codifica le tue rubriche direttamente. Non affidarti solo a un punteggio finale.

Source: https://dev.to/prabhakar_chaudhary_7afe4/why-structured-feedback-is-showing-up-in-recent-llm-training-papers-1no1

Optional learning community: https://t.me/GyaanSetuAi

𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

Continua a leggere

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

Modelli di ricompensa unificati per l'IA

𝗠𝗮𝗿𝗸𝗱𝗼𝘄𝗻 𝗙𝗼𝗿𝗺𝗮𝘁𝘁𝗶𝗻𝗴 𝗙𝗼𝗿 𝗔𝗜 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗛𝗼𝘄 𝗢𝗽𝗲𝗻𝗔𝗜 𝗮𝗻𝗱 𝗔𝗻𝘁𝗵𝗿𝗼𝗽𝗶𝗰 𝗗𝗲𝘀𝗶𝗴𝗻 𝗔𝗜 𝗦𝘆𝘀𝘁𝗲𝗺𝘀