سحر التضمينات (Embeddings)
تحول التضمينات اللغة إلى رياضيات.
هي حجر الأساس للذكاء الاصطناعي الحديث. يتعامل معها الكثيرون كصندوق أسود. يوضح هذا المنشور كيفية عملها.
يفشل البحث بالكلمات المفتاحية عندما لا تتطابق الكلمات.
إذا بحثت عن "How do I reset my password?"، سيبحث البحث بالكلمات المفتاحية عن هذه الكلمات بالضبط. إذا كانت الوثيقة تقول "Steps to recover your account credentials"، فقد يفشل البحث. أنت تدرك أن المعنى هو نفسه، لكن الحواسيب لا تدرك ذلك.
تحل التضمينات هذه المشكلة.
التضمين هو قائمة من الأرقام. تمثل هذه الأرقام معنى النص. يقوم نموذج التضمين (embedding model) برسم الكلمات في فضاء عالي الأبعاد.
تصبح كلمة واحدة مثل "cat" عبارة عن متجه (vector): [0.18, -0.42, 0.91, ...]
الأرقام وحدها لا تعني شيئاً. ما يهم هو موقع المتجه.
فكر في الخريطة؛ المدن القريبة من بعضها تشترك في مناخ وحدود متشابهة. تعمل التضمينات بنفس الطريقة، حيث تقع النصوص ذات المعاني المتشابهة بالقرب من بعضها البعض في الفضاء المتجهي (vector space).
- الكلب والقطة يقعان بالقرب من بعضهما.
- السيارة والشاحنة تقعان بالقرب من بعضهما.
- السيارة والكلب يقعان بعيداً عن بعضهما.
تمثل المسافة بين هذه النقاط درجة التشابه.
يتيح ذلك البحث الدلالي (semantic search). يمكنك العثور على المعلومات بناءً على القصد بدلاً من التهجئة.
لمقارنة هذه المتجهات، نستخدم تشابه جيب التمام (cosine similarity). يقيس هذا المقياس الزاوية بين متجهين.
- الزاوية الصغيرة تعني تشابهاً عالياً.
- الزاوية الكبيرة تعني تشابهاً منخفضاً.
تدعم التضمينات أيضاً تقنية التوليد المعزز بالاسترجاع (Retrieval Augmented Generation - RAG). في مسار عمل RAG، تبدو العملية كالتالي:
- تحويل الوثائق إلى متجهات باستخدام نموذج تضمين.
- تخزين المتجهات في قاعدة بيانات متجهية (vector database).
- تحويل استعلام المستخدم إلى متجه.
- العثور على أقرب المتجهات في قاعدة البيانات.
- إرسال الوثائق ذات الصلة إلى الـ LLM.
لا يبحث الـ LLM في ملفاتك مباشرة، بل يبحث في فضاء التضمين عن أقرب المطابقات.
إذا كنت تبني تطبيقات ذكاء اصطناعي، فيجب عليك فهم التضمينات. فهي تشغل كل شيء بدءاً من محركات البحث وصولاً إلى أنظمة التوصية. تكمن قوتها في كيفية تنظيمها للمعنى.
المصدر: https://dev.to/tahaboussaden/embeddings-magic-2hlb
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi
