ByteDance चे iLLaDA: डिफ्यूजन लँग्वेज मॉडेल्समधील एक मोठी झेप
ऑटोरिग्रेशन टेक्स्ट जनरेशनचा (autoregressive text generation) काळ आता पहिल्या गंभीर आव्हानाचा सामना करत असावा, कारण ByteDance आणि Renmin University च्या संशोधकांनी iLLaDA सादर केले आहे. हे नवीन 8B पॅरामीटर मॉडेल सिद्ध करते की डिफ्यूजन-आधारित आर्किटेक्चर्स (diffusion-based architectures) उद्योगातील मानकांप्रमाणे असलेल्या ट्रान्सफॉर्मर मॉडेल्सशी (transformer models) थेट स्पर्धा करू शकतात.
ऑटोरिग्रेशन जनरेशनच्या पलीकडे
GPT-4 आणि Claude सह बहुतेक आधुनिक LLMs ऑटोरिग्रेशन जनरेशनवर अवलंबून असतात. ही प्रक्रिया मजकूर एका वेळी एक टोकन (token) याप्रमाणे, केवळ डावीकडून उजवीकडे जाऊन वर्तवते. याउलट, iLLaDA डिफ्यूजन दृष्टिकोन वापरते, जे Stable Diffusion सारख्या AI इमेज जनरेटर्सप्रमाणे कार्य करते.
क्रमिक अंदाजाऐवजी (sequential prediction), iLLaDA मास्क केलेल्या प्लेसहोल्डर्सच्या (masked placeholders) एका क्रमाने सुरुवात करते आणि अनेक समांतर फेऱ्यांद्वारे (parallel passes) त्यांना अधिक अचूक करते. ही द्विमार्गी प्रक्रिया (bidirectional process) क्रमामधील प्रत्येक स्थानाला इतर प्रत्येक स्थानाशी एकाच वेळी जोडण्यास (attend) अनुमती देते, ज्यामुळे संदर्भ (context) आणि तर्क (reasoning) हाताळण्यासाठी मूलभूतपणे वेगळी पद्धत मिळू शकते.
iLLaDA विरुद्ध Qwen2.5: कामगिरीचे विश्लेषण
iLLaDA प्रकल्पाचे मुख्य उद्दिष्ट हे ठरवणे होते की, शून्यापासून तयार केलेले डिफ्यूजन मॉडेल प्रस्थापित ऑटोरिग्रेशन मॉडेल्सच्या दर्जाशी स्पर्धा करू शकते का. याचे निकाल थक्क करणारे आहेत. 12 ट्रिलियन टोकन्सवर प्री-ट्रेन (Pretrained) केलेल्या iLLaDA-Base मॉडेलने 63.9 चा सरासरी बेंचमार्क स्कोअर मिळवला, जो ऑटोरिग्रेशन Qwen2.5 7B (स्कोअर 63.3) पेक्षा थोडा जास्त आहे.
मॉडेलने विशिष्ट क्षेत्रांमध्ये विशेष ताकद दाखवली:
- Reasoning (BBH): iLLaDA ने 71.3 स्कोअर मिळवला, जो Dream 7B डिफ्यूजन मॉडेलपेक्षा लक्षणीयरीत्या सरस आहे.
- Mathematics (GSM8K): iLLaDA ने 81.9 स्कोअर गाठला, जो Qwen2.5 7B च्या 78.9 स्कोअरपेक्षा जास्त आहे.
- Science (ARC-C): iLLaDA ने 60.8 स्कोअर मिळवला, तर Qwen2.5 चा स्कोअर 51.5 होता.
जरी iLLaDA-Base अत्यंत स्पर्धात्मक असले, तरी 'इन्स्ट्रक्शन-ट्यून' (instruction-tuned) स्तरावर अजूनही तफावत आहे. iLLaDA-Instruct ने 67.1 स्कोअर मिळवला, तर Qwen2.5 7B Instruct ने 77.1 स्कोअर गाठला. संशोधकांच्या मते, ही तफावत Qwen मालिकेमध्ये वापरल्या जाणाऱ्या सखोल रिइन्फोर्समेंट लर्निंग (reinforcement learning) आणि अलाइनमेंट (alignment) प्रक्रियांमुळे आहे, तसेच जटिल कामांदरम्यान डिफ्यूजन मॉडेल्स कधीकधी 'रीझनिंग लूप्स'मध्ये (reasoning loops) अडकण्याची शक्यता असते.
मॉडेल आर्किटेक्चरसाठी एक नवीन मार्ग
iLLaDA हे Google DeepMind च्या DiffusionGemma पेक्षा वेगळ्या धोरणात्मक दिशेचे प्रतिनिधित्व करते. DiffusionGemma हे कमी लॅटन्सी वेगाला (low-latency speed) प्राधान्य देण्यासाठी 25-बिलियन-पॅरामीटर Mixture-of-Experts (MoE) बॅकबोनवर तयार करण्यात आले होते, तर iLLaDA हे मूळ क्षमतेला (raw capability) प्राधान्य देण्यासाठी शून्यापासून प्रशिक्षित केलेले एक 'डेंस 8B मॉडेल' (dense 8B model) आहे.
कोणताही विद्यमान चेकपॉइंट (checkpoint) न वापरता, डिफ्यूजन मॉडेल ऑटोरिग्रेशन मॉडेलच्या "बेस" कामगिरीशी स्पर्धा करू शकते हे सिद्ध करून, ByteDance ने नॉन-लिनियर लँग्वेज मॉडेल्सच्या (non-linear language models) एका नवीन वर्गासाठी मार्ग मोकळा केला आहे. जसजसा उद्योग अधिक कार्यक्षम आणि विशेष हार्डवेअरकडे वळत आहे, तसतसे डिफ्यूजन मॉडेल्सचे द्विमार्गी स्वरूप पुढील पिढीच्या AI साठी आवश्यक असलेले आर्किटेक्चरल लवचिकता प्रदान करू शकते.
मुख्य निष्कर्ष
- Architecture Shift: iLLaDA मध्ये GPT आणि Qwen द्वारे वापरल्या जाणाऱ्या मानक डावीकडून-उजवीकडे ऑटोरिग्रेशन पद्धतीऐवजी द्विमार्गी डिफ्यूजन प्रक्रिया वापरली जाते.
- Competitive Benchmarks: बेस स्तरावर, iLLaDA 8B हे GSM8K गणित आणि ARC-C विज्ञान यांसह अनेक श्रेणींमध्ये Qwen2.5 7B पेक्षा सरस कामगिरी करते.
- Instruction Gap: जरी बेस क्षमता उच्च असल्या तरी, कमी प्रगत रिइन्फोर्समेंट लर्निंग अलाइनमेंटमुळे iLLaDA सध्या इन्स्ट्रक्शन-फॉलोइंग (instruction-following) कामांमध्ये ऑटोरिग्रेशन मॉडेल्सच्या मागे आहे.
