كيف تعمل نماذج الـ Transformers
أحدثت نماذج الـ Transformers ثورة في مجال الذكاء الاصطناعي، حيث توقفت عن قراءة النصوص كلمة بكلمة.
كانت النماذج القديمة مثل RNNs تتحرك خطوة بخطوة، بينما تقوم الـ Transformers بمقارنة جميع الكلمات في التسلسل دفعة واحدة. هذا التصميم هو ما جعل نماذج اللغات الكبيرة (LLMs) الحديثة ممكنة.
الـ Transformer هو شبكة عصبية مبنية على آلية الانتباه (attention). فهي تنظر إلى تسلسل من الرموز (tokens) وتتعلم كيفية ارتباطها ببعضها البعض. وهذا أمر حيوي لأن اللغة تعتمد على السياق؛ فالكلمة لا تكتسب معناها إلا من خلال علاقتها بالكلمات الأخرى.
العملية الأساسية:
- تحويل الرموز (tokens) إلى تضمينات (embeddings)
- إضافة معلومات الموقع (positional information) لتحديد الترتيب
- حساب العلاقات عبر آلية الانتباه الذاتي (self-attention)
- معالجة البيانات عبر الشبكات الأمامية (feed-forward networks)
- إنتاج تمثيلات سياقية في المخرجات
تتيح آلية الانتباه الذاتي (Self-Attention) للرمز (token) أن يتساءل: ما هي الرموز الأخرى التي تؤثر على معنائي؟
في جملة "The animal did not cross the street because it was tired"، تعود كلمة "it" على الحيوان (animal). تتيح آلية الانتباه الذاتي للنموذج ربط "it" بكلمة "animal" بدلاً من "street".
كيف تعمل آلية الانتباه: ينشئ كل رمز (token) ثلاثة ناقلات (vectors):
- الاستعلام (Query): ما يبحث عنه هذا الرمز
- المفتاح (Key): ما يقدمه كل رمز
- القيمة (Value): المعلومات المراد استرجاعها
تقوم آلية الانتباه متعدد الرؤوس (Multi-Head Attention) بتشغيل عدة عمليات من هذه العمليات في وقت واحد؛ فقد يتتبع أحد الرؤوس القواعد النحوية، بينما يتتبع رأس آخر المعنى، مما يجعل النموذج أكثر ذكاءً.
تطور البنية الهيكلية: استخدم نموذج الـ Transformer الأصلي بنية "المشفر-المفكك" (Encoder-Decoder). أما نماذج LLMs الحديثة مثل GPT فهي تعتمد في الغالب على "المفكك فقط" (decoder-only)؛ حيث تتنبأ بالرمز التالي، ثم تضيفه إلى التسلسل، وتكرر العملية.
تستخدم نماذج LLMs الحديثة عدة تحسينات لتبقى سريعة وفعالة:
- RoPE: تحسين كيفية فهم النموذج لترتيب الكلمات
- RMSNorm: تبسيط عملية التسوية (normalization)
- GQA: تقليل تكلفة الذاكرة أثناء عملية التوليد
- SwiGLU: تقوية الطبقات العصبية
- MoE: استخدام خبراء متفرقين (sparse experts) للتوسع بشكل أكبر
تعمل نماذج الـ Transformers عن طريق تحويل التسلسل إلى مجموعة من العلاقات، وتقوم بصقل هذه العلاقات من خلال كتل متراكمة (stacked blocks).
إذا كنت ترغب في تعلم هذا الموضوع، فاتبع هذا الترتيب:
- آلية الانتباه (Attention Mechanism)
- الانتباه الذاتي و QKV
- الانتباه متعدد الرؤوس (Multi-Head Attention)
- الترميز الموضعي (Positional Encoding)
- بنية المفكك (Decoder Architecture)
- ذاكرة التخزين المؤقت KV (KV Cache) والانتباه الفعال
المصدر: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi