𝗧𝗿𝗲 𝗳𝗮𝘀𝗶 𝗱𝗶 𝗮𝗹𝗹𝗲𝘀𝘁𝗿𝗮𝗺𝗲𝗻𝘁𝗼 𝗰𝗿𝗲𝗮𝗻𝗼 𝘂𝗻 𝗰𝗵𝗮𝘁𝗯𝗼𝘁
Costruire un Transformer non è sufficiente. Puoi riversarci dentro l'intero internet e spendere milioni in potenza di calcolo. Finirai comunque con una macchina incapace di rispondere a una semplice domanda.
Un modello grezzo è solo un imitatore di testo. Predice la parola successiva basandosi su schemi. Se gli chiedi "Come posso resettare il mio router?", potrebbe rispondere con altre domande come "Come cambio la mia password?". Non sa che tu voglia aiuto. Sa solo come l'internet prosegue una frase.
Per trasformare questo predittore in un chatbot, servono tre fasi di addestramento.
Pretraining (Il Motore) Mostri al modello trilioni di parole. Nascondi l'ultima parola e lo costringi a indovinare. Questo costruisce la conoscenza. Impara fatti, grammatica e logica. Funziona perché i dati si etichettano da soli. La scala rende tutto prevedibile. Più dati e più potenza di calcolo portano a risultati migliori.
Instruction Tuning (Il Copione) Il modello base sa tutto ma non ha un obiettivo. In questa fase, gli mostri alcuni migliaia di esempi di un prompt abbinato a una buona risposta umana. Questo non aggiunge nuova conoscenza. Insegna al modello un nuovo comportamento. È come consegnare un copione a un attore. Impara ad agire come un assistente utile invece di limitarsi a completare un testo.
Preference Tuning (Il Galateo) I copioni sono limitati. Non puoi scrivere una regola per ogni situazione. In questa fase, mostri al modello due risposte diverse e lasci che un essere umano scelga la migliore. Il modello impara a cercare un punteggio alto basandosi sul gusto umano. Questo conferisce al modello il suo tono, la sua cortesia e i suoi limiti di sicurezza.
Il riassunto è semplice:
- Il pretraining costruisce la conoscenza.
- L'instruction tuning fa emergere l'assistente dalla massa.
- Il preference tuning aggiunge giudizio e buone maniere.
La personalità che vedi in una finestra di chat è solo un sottile strato sopra un predittore di parole grezzo. Non abbiamo avuto bisogno di una teoria dell'intelligenza per costruire tutto questo. Abbiamo avuto bisogno di un obiettivo semplice, della scala e di due fasi di coaching.
Community di apprendimento opzionale: https://t.me/GyaanSetuAi
