iLLaDA متعلق به ByteDance: تحولی در مدل‌های زبانی دیفیوژن (Diffusion)

عصر تولید متن خودبازگشتی (autoregressive) ممکن است با اولین چالش جدی خود روبرو شود، چرا که پژوهشگران ByteDance و دانشگاه Renmin از iLLaDA رونمایی کرده‌اند. این مدل جدید با ۸ میلیارد پارامتر ثابت می‌کند که معماری‌های مبتنی بر دیفیوژن (diffusion-based) می‌توانند مستقیماً با مدل‌های ترنسفورمر (transformer) که استاندارد صنعت هستند، رقابت کنند.

فراتر رفتن از تولید خودبازگشتی

اکثر مدل‌های زبانی بزرگ (LLM) مدرن، از جمله GPT-4 و Claude، بر تولید خودبازگشتی متکی هستند. این فرآیند متن را توکن به توکن و صرفاً از چپ به راست پیش‌بینی می‌کند. در مقابل، iLLaDA از رویکرد دیفیوژن استفاده می‌کند، مشابه روشی که مولدهای تصویر هوش مصنوعی مانند Stable Diffusion کار می‌کنند.

iLLaDA به جای پیش‌بینی متوالی، با مجموعه‌ای از جایگزین‌های ماسک‌شده (masked placeholders) شروع کرده و آن‌ها را از طریق چندین مرحله موازی اصلاح می‌کند. این فرآیند دوطرفه (bidirectional) اجازه می‌دهد تا هر موقعیت در یک توالی، به‌طور هم‌زمان به تمام موقعیت‌های دیگر توجه (attend) داشته باشد، که پتانسیل ارائه روشی بنیادین و متفاوت برای مدیریت بافت (context) و استدلال را فراهم می‌کند.

مقایسه iLLaDA با Qwen2.5: تحلیل عملکرد

هدف اصلی پروژه iLLaDA این بود که مشخص شود آیا یک مدل دیفیوژن که از صفر ساخته شده است، می‌تواند با کیفیت مدل‌های خودبازگشتی شناخته‌شده برابری کند یا خیر. نتایج خیره‌کننده است. مدل iLLaDA-Base که بر روی حجم عظیمی از ۱۲ تریلیون توکن پیش‌آموزش دیده است، به میانگین امتیاز بنچمارک ۶۳.۹ دست یافت و با اختلاف اندکی از مدل خودبازگشتی Qwen2.5 7B که امتیاز ۶۳.۳ را کسب کرد، پیشی گرفت.

این مدل در حوزه‌های خاصی قدرت ویژه‌ای از خود نشان داد:

  • استدلال (BBH): مدل iLLaDA امتیاز ۷۱.۳ را کسب کرد که عملکردی بسیار بهتر از مدل دیفیوژن Dream 7B داشت.
  • ریاضیات (GSM8K): مدل iLLaDA به امتیاز ۸۱.۹ رسید و از امتیاز ۷۸.۹ مدل Qwen2.5 7B پیشی گرفت.
  • علوم (ARC-C): مدل iLLaDA به امتیاز ۶۰.۸ دست یافت، در حالی که امتیاز Qwen2.5 برابر با ۵۱.۵ بود.

اگرچه iLLaDA-Base بسیار رقابتی است، اما همچنان در سطح تنظیم‌شده برای دستورالعمل (instruction-tuned) شکافی وجود دارد. مدل iLLaDA-Instruct امتیاز ۶۷.۱ را کسب کرد، در حالی که Qwen2.5 7B Instruct به امتیاز ۷۷.۱ رسید. پژوهشگران این اختلاف را به فرآیندهای فشرده یادگیری تقویتی (reinforcement learning) و هم‌ترازی (alignment) به‌کار رفته در سری Qwen و همچنین تمایل مدل‌های دیفیوژن به ورود گاه‌به‌گاه به حلقه‌های استدلالی در طول انجام وظایف پیچیده نسبت می‌دهند.

مسیری نو برای معماری مدل

iLLaDA نشان‌دهنده یک جهت‌گیری استراتژیک متفاوت نسبت به DiffusionGemma از Google DeepMind است. در حالی که DiffusionGemma بر پایه یک ستون فقرات Mixture-of-Experts (MoE) با ۲۵ میلیارد پارامتر ساخته شده بود تا سرعت و تأخیر کم (low-latency) را در اولویت قرار دهد، iLLaDA یک مدل متراکم (dense) ۸ میلیاردی است که از پایه برای اولویت دادن به توانمندی‌های خام آموزش دیده است.

ByteDance با اثبات اینکه یک مدل دیفیوژن می‌تواند بدون استفاده از چک‌پوینت‌های (checkpoint) موجود، با عملکرد «پایه» یک مدل خودبازگشتی برابری کند، در را به روی کلاس جدیدی از مدل‌های زبانی غیرخطی باز کرده است. با حرکت صنعت به سمت سخت‌افزارهای کارآمدتر و تخصصی‌تر، ماهیت دوطرفه مدل‌های دیفیوژن می‌تواند انعطاف‌پذیری معماری مورد نیاز برای نسل بعدی هوش مصنوعی را فراهم کند.

نکات کلیدی

  • تغییر معماری: iLLaDA به جای روش استاندارد خودبازگشتی چپ‌به‌راست که توسط GPT و Qwen استفاده می‌شود، از یک فرآیند دیفیوژن دوطرفه بهره می‌برد.
  • بنچمارک‌های رقابتی: در سطح پایه، iLLaDA 8B در چندین دسته، از جمله ریاضیات GSM8K و علوم ARC-C، از Qwen2.5 7B بهتر عمل می‌کند.
  • شکاف در دستورالعمل‌ها: اگرچه توانمندی‌های پایه بالا هستند، اما iLLaDA در حال حاضر در وظایف پیروی از دستورالعمل (instruction-following) به دلیل هم‌ترازی کمتر در یادگیری تقویتی، از مدل‌های خودبازگشتی عقب‌تر است.