ثلاث أفكار جعلت الذكاء الاصطناعي ممكناً
يبدو الذكاء الاصطناعي الحديث وكأنه سحر. تكتب جملة فترد عليك الآلة. يبدو الأمر غريبًا ومذهلاً.
لكنه ليس كذلك.
وُجد الذكاء الاصطناعي الحديث لأن المهندسين أصلحوا مشكلات محددة. لقد وجدوا شبكات معطلة وقاموا بإصلاحها.
إليك الإصلاحات الهندسية الثلاثة التي بني عليها الـ Transformer.
- اتصالات التخطي (Skip Connections)
في عام 2014، حاول الباحثون جعل الشبكات العصبية أكثر عمقًا. اعتقدوا أن زيادة عدد الطبقات تعني نتائج أفضل، لكن الأمر فشل. فالشبكات الأكثر عمقًا كانت تعطي أداءً أسوأ في الواقع.
كانت إشارة الخطأ المستخدمة لتدريب الشبكة تتقلص حتى تتلاشى أو تتضخم بشكل هائل أثناء انتقالها عبر العديد من الطبقات، مما جعل الطبقات الأولى لا تتلقى أي تغذية راجعة مفيدة.
كان الحل بسيطًا. فبدلاً من إجبار كل طبقة على تغيير المدخلات، تم السماح للمدخلات بتخطي بعض الطبقات.
في كتلة ResNet، تقوم بإضافة المدخلات الأصلية مرة أخرى إلى المخرجات. هذا يخلق مسارًا مباشرًا لانتقال الإشارة. وبذلك، لم يعد إضافة المزيد من الطبقات يؤدي إلى تعطل النظام؛ فإذا لم تكن الطبقة مفيدة، يمكنها ببساطة تمرير المدخلات دون تغيير.
- التسوية (Normalization)
أثناء انتقال البيانات عبر الشبكة، تنحرف الأرقام. قد تخرج طبقة ما قيمة 0.01 بينما تخرج الطبقة التالية 5000. عندما تصل الأرقام إلى هذه الحدود القصوى، يتوقف التعلم.
تعالج عملية التسوية هذه المشكلة عن طريق موازنة القيم؛ فهي تعيد تمركز الأرقام حول الصفر وتضبط نطاقها لتكون متسقة.
يحافظ هذا على استقرار العمليات الحسابية، ويسمح لك باستخدام معدلات تعلم أعلى والتدريب بشكل أسرع بكثير. إنه إصلاح عملي يوفر ساعات لا تحصى من تصحيح الأخطاء.
- الانتباه (Attention)
كانت النماذج القديمة تقرأ النص كلمة بكلمة. كان هذا بطيئًا لأنه لم يكن من الممكن معالجة الكلمات بالتوازي، كما كانت النماذج "تنسى" لأن النموذج يفقد بداية الجملة بحلول الوقت الذي يصل فيه إلى نهايتها.
يغير نظام الانتباه هذا الواقع. فبدلاً من القراءة بالترتيب، تنظر كل كلمة إلى كل كلمة أخرى في الجملة في وقت واحد.
يمكن للكلمة (مثل الضمير "it") أن ترتبط مباشرة بالاسم الذي تعود عليه، بغض النظر عن مدى بعده. ولأن الكلمات لا تعتمد على تسلسل معين، يمكنك حساب كل شيء في وقت واحد باستخدام وحدة معالجة الرسومات (GPU).
يجمع نموذج Transformer بين هذه الأفكار الثلاث؛ حيث يستخدم كتل الانتباه المغلفة باتصالات التخطي مع وجود عملية التسوية بينها.
لا يتطلب الذكاء الاصطناعي طفرة في فهم الذكاء، بل تطلب ثلاثة إصلاحات ذكية لأنظمة معطلة.
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi