iLLaDA di ByteDance: una svolta nei modelli linguistici a diffusione
L'era della generazione di testo autoregressiva potrebbe trovarsi di fronte al suo primo serio sfidante, mentre i ricercatori di ByteDance e dell'Università Renmin svelano iLLaDA. Questo nuovo modello da 8 miliardi di parametri dimostra che le architetture basate sulla diffusione possono competere testa a testa con i modelli transformer standard del settore.
Oltre la generazione autoregressiva
La maggior parte dei moderni LLM, inclusi GPT-4 e Claude, si basa sulla generazione autoregressiva. Questo processo prevede il testo un token alla volta, procedendo rigorosamente da sinistra a destra. Al contrario, iLLaDA utilizza un approccio di diffusione, simile al funzionamento dei generatori di immagini AI come Stable Diffusion.
Invece della previsione sequenziale, iLLaDA parte da una sequenza di segnaposto mascherati (masked placeholders) e li perfeziona attraverso molteplici passaggi paralleli. Questo processo bidirezionale consente a ogni posizione in una sequenza di prestare attenzione a tutte le altre posizioni simultaneamente, offrendo potenzialmente un modo fondamentalmente diverso di gestire il contesto e il ragionamento.
iLLaDA vs. Qwen2.5: Analisi delle prestazioni
L'obiettivo principale del progetto iLLaDA era determinare se un modello di diffusione costruito da zero potesse eguagliare la qualità dei consolidati modelli autoregressivi. I risultati sono sorprendenti. Pre-addestrato su un massiccio set di 12 trilioni di token, il modello iLLaDA-Base ha raggiunto un punteggio medio nei benchmark di 63,9, superando di misura il modello autoregressivo Qwen2.5 7B, che ha ottenuto 63,3.
Il modello ha mostrato una forza particolare in aree specifiche:
- Ragionamento (BBH): iLLaDA ha ottenuto 71,3, superando significativamente il modello di diffusione Dream 7B.
- Matematica (GSM8K): iLLaDA ha raggiunto 81,9, superando il punteggio di 78,9 di Qwen2.5 7B.
- Scienza (ARC-C): iLLaDA ha ottenuto 60,8, rispetto al 51,5 di Qwen2.5.
Sebbene iLLaDA-Base sia altamente competitivo, rimane un divario a livello di instruction-tuning. iLLaDA-Instruct ha ottenuto 67,1, mentre Qwen2.5 7B Instruct ha raggiunto 77,1. I ricercatori attribuiscono questo scarto ai processi intensivi di apprendimento per rinforzo (reinforcement learning) e di allineamento utilizzati nella serie Qwen, nonché alla tendenza dei modelli di diffusione a entrare occasionalmente in loop di ragionamento durante compiti complessi.
Una nuova strada per l'architettura dei modelli
iLLaDA rappresenta una direzione strategica diversa rispetto a DiffusionGemma di Google DeepMind. Mentre DiffusionGemma è stato costruito su un'architettura Mixture-of-Experts (MoE) da 25 miliardi di parametri per dare priorità alla velocità a bassa latenza, iLLaDA è un modello denso da 8B addestrato fin dall'inizio per dare priorità alla capacità pura.
Dimostrando che un modello di diffusione può eguagliare le prestazioni "base" di un modello autoregressivo senza ereditare un checkpoint esistente, ByteDance ha aperto la porta a una nuova classe di modelli linguistici non lineari. Mentre l'industria si sposta verso hardware più efficienti e specializzati, la natura bidirezionale dei modelli di diffusione potrebbe fornire la flessibilità architettonica necessaria per la prossima generazione di IA.
Punti chiave
- Cambio di architettura: iLLaDA utilizza un processo di diffusione bidirezionale invece del metodo autoregressivo standard da sinistra a destra utilizzato da GPT e Qwen.
- Benchmark competitivi: a livello base, iLLaDA 8B supera Qwen2.5 7B in diverse categorie, tra cui la matematica GSM8K e la scienza ARC-C.
- Divario nelle istruzioni: sebbene le capacità di base siano elevate, iLLaDA attualmente resta indietro rispetto ai modelli autoregressivi nei compiti di esecuzione delle istruzioni (instruction-following) a causa di un allineamento tramite apprendimento per rinforzo meno avanzato.
