كيف تعمل نماذج الـ Transformers

أحدثت نماذج الـ Transformers ثورة في مجال الذكاء الاصطناعي، حيث توقفت عن قراءة النصوص كلمة بكلمة.

كانت النماذج القديمة مثل RNNs تتحرك خطوة بخطوة، بينما تقوم الـ Transformers بمقارنة جميع الكلمات في التسلسل دفعة واحدة. هذا التصميم هو ما جعل نماذج اللغات الكبيرة (LLMs) الحديثة ممكنة.

الـ Transformer هو شبكة عصبية مبنية على آلية الانتباه (attention). فهي تنظر إلى تسلسل من الرموز (tokens) وتتعلم كيفية ارتباطها ببعضها البعض. وهذا أمر حيوي لأن اللغة تعتمد على السياق؛ فالكلمة لا تكتسب معناها إلا من خلال علاقتها بالكلمات الأخرى.

العملية الأساسية:

تتيح آلية الانتباه الذاتي (Self-Attention) للرمز (token) أن يتساءل: ما هي الرموز الأخرى التي تؤثر على معنائي؟

في جملة "The animal did not cross the street because it was tired"، تعود كلمة "it" على الحيوان (animal). تتيح آلية الانتباه الذاتي للنموذج ربط "it" بكلمة "animal" بدلاً من "street".

كيف تعمل آلية الانتباه: ينشئ كل رمز (token) ثلاثة ناقلات (vectors):

تقوم آلية الانتباه متعدد الرؤوس (Multi-Head Attention) بتشغيل عدة عمليات من هذه العمليات في وقت واحد؛ فقد يتتبع أحد الرؤوس القواعد النحوية، بينما يتتبع رأس آخر المعنى، مما يجعل النموذج أكثر ذكاءً.

تطور البنية الهيكلية: استخدم نموذج الـ Transformer الأصلي بنية "المشفر-المفكك" (Encoder-Decoder). أما نماذج LLMs الحديثة مثل GPT فهي تعتمد في الغالب على "المفكك فقط" (decoder-only)؛ حيث تتنبأ بالرمز التالي، ثم تضيفه إلى التسلسل، وتكرر العملية.

تستخدم نماذج LLMs الحديثة عدة تحسينات لتبقى سريعة وفعالة:

تعمل نماذج الـ Transformers عن طريق تحويل التسلسل إلى مجموعة من العلاقات، وتقوم بصقل هذه العلاقات من خلال كتل متراكمة (stacked blocks).

إذا كنت ترغب في تعلم هذا الموضوع، فاتبع هذا الترتيب:

  1. آلية الانتباه (Attention Mechanism)
  2. الانتباه الذاتي و QKV
  3. الانتباه متعدد الرؤوس (Multi-Head Attention)
  4. الترميز الموضعي (Positional Encoding)
  5. بنية المفكك (Decoder Architecture)
  6. ذاكرة التخزين المؤقت KV (KV Cache) والانتباه الفعال

المصدر: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi