iLLaDA متعلق به ByteDance: تحولی در مدلهای زبانی دیفیوژن (Diffusion)
عصر تولید متن خودبازگشتی (autoregressive) ممکن است با اولین چالش جدی خود روبرو شود، چرا که پژوهشگران ByteDance و دانشگاه Renmin از iLLaDA رونمایی کردهاند. این مدل جدید با ۸ میلیارد پارامتر ثابت میکند که معماریهای مبتنی بر دیفیوژن (diffusion-based) میتوانند مستقیماً با مدلهای ترنسفورمر (transformer) که استاندارد صنعت هستند، رقابت کنند.
فراتر رفتن از تولید خودبازگشتی
اکثر مدلهای زبانی بزرگ (LLM) مدرن، از جمله GPT-4 و Claude، بر تولید خودبازگشتی متکی هستند. این فرآیند متن را توکن به توکن و صرفاً از چپ به راست پیشبینی میکند. در مقابل، iLLaDA از رویکرد دیفیوژن استفاده میکند، مشابه روشی که مولدهای تصویر هوش مصنوعی مانند Stable Diffusion کار میکنند.
iLLaDA به جای پیشبینی متوالی، با مجموعهای از جایگزینهای ماسکشده (masked placeholders) شروع کرده و آنها را از طریق چندین مرحله موازی اصلاح میکند. این فرآیند دوطرفه (bidirectional) اجازه میدهد تا هر موقعیت در یک توالی، بهطور همزمان به تمام موقعیتهای دیگر توجه (attend) داشته باشد، که پتانسیل ارائه روشی بنیادین و متفاوت برای مدیریت بافت (context) و استدلال را فراهم میکند.
مقایسه iLLaDA با Qwen2.5: تحلیل عملکرد
هدف اصلی پروژه iLLaDA این بود که مشخص شود آیا یک مدل دیفیوژن که از صفر ساخته شده است، میتواند با کیفیت مدلهای خودبازگشتی شناختهشده برابری کند یا خیر. نتایج خیرهکننده است. مدل iLLaDA-Base که بر روی حجم عظیمی از ۱۲ تریلیون توکن پیشآموزش دیده است، به میانگین امتیاز بنچمارک ۶۳.۹ دست یافت و با اختلاف اندکی از مدل خودبازگشتی Qwen2.5 7B که امتیاز ۶۳.۳ را کسب کرد، پیشی گرفت.
این مدل در حوزههای خاصی قدرت ویژهای از خود نشان داد:
- استدلال (BBH): مدل iLLaDA امتیاز ۷۱.۳ را کسب کرد که عملکردی بسیار بهتر از مدل دیفیوژن Dream 7B داشت.
- ریاضیات (GSM8K): مدل iLLaDA به امتیاز ۸۱.۹ رسید و از امتیاز ۷۸.۹ مدل Qwen2.5 7B پیشی گرفت.
- علوم (ARC-C): مدل iLLaDA به امتیاز ۶۰.۸ دست یافت، در حالی که امتیاز Qwen2.5 برابر با ۵۱.۵ بود.
اگرچه iLLaDA-Base بسیار رقابتی است، اما همچنان در سطح تنظیمشده برای دستورالعمل (instruction-tuned) شکافی وجود دارد. مدل iLLaDA-Instruct امتیاز ۶۷.۱ را کسب کرد، در حالی که Qwen2.5 7B Instruct به امتیاز ۷۷.۱ رسید. پژوهشگران این اختلاف را به فرآیندهای فشرده یادگیری تقویتی (reinforcement learning) و همترازی (alignment) بهکار رفته در سری Qwen و همچنین تمایل مدلهای دیفیوژن به ورود گاهبهگاه به حلقههای استدلالی در طول انجام وظایف پیچیده نسبت میدهند.
مسیری نو برای معماری مدل
iLLaDA نشاندهنده یک جهتگیری استراتژیک متفاوت نسبت به DiffusionGemma از Google DeepMind است. در حالی که DiffusionGemma بر پایه یک ستون فقرات Mixture-of-Experts (MoE) با ۲۵ میلیارد پارامتر ساخته شده بود تا سرعت و تأخیر کم (low-latency) را در اولویت قرار دهد، iLLaDA یک مدل متراکم (dense) ۸ میلیاردی است که از پایه برای اولویت دادن به توانمندیهای خام آموزش دیده است.
ByteDance با اثبات اینکه یک مدل دیفیوژن میتواند بدون استفاده از چکپوینتهای (checkpoint) موجود، با عملکرد «پایه» یک مدل خودبازگشتی برابری کند، در را به روی کلاس جدیدی از مدلهای زبانی غیرخطی باز کرده است. با حرکت صنعت به سمت سختافزارهای کارآمدتر و تخصصیتر، ماهیت دوطرفه مدلهای دیفیوژن میتواند انعطافپذیری معماری مورد نیاز برای نسل بعدی هوش مصنوعی را فراهم کند.
نکات کلیدی
- تغییر معماری: iLLaDA به جای روش استاندارد خودبازگشتی چپبهراست که توسط GPT و Qwen استفاده میشود، از یک فرآیند دیفیوژن دوطرفه بهره میبرد.
- بنچمارکهای رقابتی: در سطح پایه، iLLaDA 8B در چندین دسته، از جمله ریاضیات GSM8K و علوم ARC-C، از Qwen2.5 7B بهتر عمل میکند.
- شکاف در دستورالعملها: اگرچه توانمندیهای پایه بالا هستند، اما iLLaDA در حال حاضر در وظایف پیروی از دستورالعمل (instruction-following) به دلیل همترازی کمتر در یادگیری تقویتی، از مدلهای خودبازگشتی عقبتر است.
