𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

📅3 hours ago⏱2 min read

كيف تعمل نماذج الـ Transformers

أحدثت نماذج الـ Transformers ثورة في مجال الذكاء الاصطناعي، حيث توقفت عن قراءة النصوص كلمة بكلمة.

كانت النماذج القديمة مثل RNNs تتحرك خطوة بخطوة، بينما تقوم الـ Transformers بمقارنة جميع الكلمات في التسلسل دفعة واحدة. هذا التصميم هو ما جعل نماذج اللغات الكبيرة (LLMs) الحديثة ممكنة.

الـ Transformer هو شبكة عصبية مبنية على آلية الانتباه (attention). فهي تنظر إلى تسلسل من الرموز (tokens) وتتعلم كيفية ارتباطها ببعضها البعض. وهذا أمر حيوي لأن اللغة تعتمد على السياق؛ فالكلمة لا تكتسب معناها إلا من خلال علاقتها بالكلمات الأخرى.

العملية الأساسية:

تحويل الرموز (tokens) إلى تضمينات (embeddings)
إضافة معلومات الموقع (positional information) لتحديد الترتيب
حساب العلاقات عبر آلية الانتباه الذاتي (self-attention)
معالجة البيانات عبر الشبكات الأمامية (feed-forward networks)
إنتاج تمثيلات سياقية في المخرجات

تتيح آلية الانتباه الذاتي (Self-Attention) للرمز (token) أن يتساءل: ما هي الرموز الأخرى التي تؤثر على معنائي؟

في جملة "The animal did not cross the street because it was tired"، تعود كلمة "it" على الحيوان (animal). تتيح آلية الانتباه الذاتي للنموذج ربط "it" بكلمة "animal" بدلاً من "street".

كيف تعمل آلية الانتباه: ينشئ كل رمز (token) ثلاثة ناقلات (vectors):

الاستعلام (Query): ما يبحث عنه هذا الرمز
المفتاح (Key): ما يقدمه كل رمز
القيمة (Value): المعلومات المراد استرجاعها

تقوم آلية الانتباه متعدد الرؤوس (Multi-Head Attention) بتشغيل عدة عمليات من هذه العمليات في وقت واحد؛ فقد يتتبع أحد الرؤوس القواعد النحوية، بينما يتتبع رأس آخر المعنى، مما يجعل النموذج أكثر ذكاءً.

تطور البنية الهيكلية: استخدم نموذج الـ Transformer الأصلي بنية "المشفر-المفكك" (Encoder-Decoder). أما نماذج LLMs الحديثة مثل GPT فهي تعتمد في الغالب على "المفكك فقط" (decoder-only)؛ حيث تتنبأ بالرمز التالي، ثم تضيفه إلى التسلسل، وتكرر العملية.

تستخدم نماذج LLMs الحديثة عدة تحسينات لتبقى سريعة وفعالة:

RoPE: تحسين كيفية فهم النموذج لترتيب الكلمات
RMSNorm: تبسيط عملية التسوية (normalization)
GQA: تقليل تكلفة الذاكرة أثناء عملية التوليد
SwiGLU: تقوية الطبقات العصبية
MoE: استخدام خبراء متفرقين (sparse experts) للتوسع بشكل أكبر

تعمل نماذج الـ Transformers عن طريق تحويل التسلسل إلى مجموعة من العلاقات، وتقوم بصقل هذه العلاقات من خلال كتل متراكمة (stacked blocks).

إذا كنت ترغب في تعلم هذا الموضوع، فاتبع هذا الترتيب:

آلية الانتباه (Attention Mechanism)
الانتباه الذاتي و QKV
الانتباه متعدد الرؤوس (Multi-Head Attention)
الترميز الموضعي (Positional Encoding)
بنية المفكك (Decoder Architecture)
ذاكرة التخزين المؤقت KV (KV Cache) والانتباه الفعال

المصدر: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗛𝗼𝘄 𝗔𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗦𝗥𝗘 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗡𝗔𝗕𝗟𝗔: 𝗔𝗱𝗮𝗽𝘁𝗶𝘃𝗲 𝗕𝗹𝗼𝗰𝗸 𝗟𝗲𝘃𝗲𝗹 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻

𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴: 𝗧𝗵𝗲 𝗙𝘂𝘁𝘂𝗿𝗲 𝗼𝗳 𝗔𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝗰𝗲