iLLaDA od ByteDance: Przełom w dyfuzyjnych modelach językowych
Era autoregresywnego generowania tekstu może stawać przed swoim pierwszym poważnym wyzwaniem, gdy badacze z ByteDance i Renmin University zaprezentowali iLLaDA. Ten nowy model o 8 miliardach parametrów udowadnia, że architektury oparte na dyfuzji mogą konkurować bezpośrednio z modelami typu transformer, będącymi standardem w branży.
Wyjście poza generowanie autoregresywne
Większość nowoczesnych modeli LLM, w tym GPT-4 i Claude, opiera się na generowaniu autoregresywnym. Proces ten przewiduje tekst token po tokenie, poruszając się ściśle od lewej do prawej. W przeciwieństwie do nich, iLLaDA wykorzystuje podejście dyfuzyjne, podobne do sposobu działania generatorów obrazów AI, takich jak Stable Diffusion.
Zamiast przewidywania sekwencyjnego, iLLaDA zaczyna od sekwencji zamaskowanych placeholderów (miejsc zastępczych) i dopracowuje je poprzez wiele równoległych przejść. Ten dwukierunkowy proces pozwala każdej pozycji w sekwencji na jednoczesne uwzględnienie wszystkich pozostałych pozycji, co potencjalnie oferuje fundamentalnie inny sposób radzenia sobie z kontekstem i rozumowaniem.
iLLaDA vs. Qwen2.5: Analiza wydajności
Głównym celem projektu iLLaDA było ustalenie, czy model dyfuzyjny zbudowany od podstaw może dorównać jakością uznanym modelom autoregresywnym. Wyniki są uderzające. Wytrenowany na ogromnym zbiorze 12 bilionów tokenów model iLLaDA-Base osiągnął średni wynik w benchmarkach na poziomie 63,9, minimalnie wyprzedzając autoregresyjny model Qwen2.5 7B, który uzyskał wynik 63,3.
Model wykazał szczególną siłę w konkretnych obszarach:
- Rozumowanie (BBH): iLLaDA uzyskała 71,3, znacząco przewyższając dyfuzyjny model Dream 7B.
- Matematyka (GSM8K): iLLaDA osiągnęła 81,9, przebijając wynik Qwen2.5 7B wynoszący 78,9.
- Nauka (ARC-C): iLLaDA osiągnęła 60,8, w porównaniu do 51,5 dla Qwen2.5.
Choć iLLaDA-Base jest wysoce konkurencyjna, w przypadku wersji dostrojonych do instrukcji (instruction-tuned) wciąż istnieje luka. iLLaDA-Instruct uzyskała 67,1, podczas gdy Qwen2.5 7B Instruct osiągnęła 77,1. Badacze przypisują tę różnicę intensywnym procesom uczenia ze wzmocnieniem (reinforcement learning) i wyrównywania (alignment) stosowanym w serii Qwen, a także tendencji modeli dyfuzyjnych do okresowego wpadania w pętle rozumowania podczas złożonych zadań.
Nowa ścieżka dla architektury modeli
iLLaDA reprezentuje inną ścieżkę strategiczną niż DiffusionGemma od Google DeepMind. Podczas gdy DiffusionGemma została zbudowana na fundamencie Mixture-of-Experts (MoE) o 25 miliardach parametrów, aby priorytetyzować niskie opóźnienia, iLLaDA jest gęstym (dense) modelem 8B, trenowanym od podstaw w celu postawienia na surową wydajność.
Udowadniając, że model dyfuzyjny może dorównać wydajności „bazowej” modelu autoregresywnego bez dziedziczenia istniejącego checkpointu, ByteDance otworzyło drzwi dla nowej klasy nieliniowych modeli językowych. W miarę jak branża zmierza w stronę bardziej wydajnego i wyspecjalizowanego sprzętu, dwukierunkowa natura modeli dyfuzyjnych może zapewnić elastyczność architektoniczną niezbędną dla następnej generacji AI.
Kluczowe wnioski
- Zmiana architektury: iLLaDA wykorzystuje dwukierunkowy proces dyfuzji zamiast standardowej autoregresyjnej metody od lewej do prawej, stosowanej przez GPT i Qwen.
- Konkurencyjne benchmarki: Na poziomie bazowym iLLaDA 8B przewyższa Qwen2.5 7B w kilku kategoriach, w tym w matematyce GSM8K i nauce ARC-C.
- Luka w instrukcjach: Choć możliwości bazowe są wysokie, iLLaDA ustępuje obecnie modelom autoregresywnym w zadaniach polegających na podążaniu za instrukcjami, co wynika z mniej zaawansowanego wyrównywania (alignment) poprzez uczenie ze wzmocnieniem.
