استرجاع المتجهات المتخصص في المجال: من النماذج إلى التحقق المزدوج
غالبًا ما تفشل نماذج التضمين (embedding models) العامة عند التعامل مع النصوص المتخصصة.
في مشروعي الأخير المتعلق بالمعايير البيئية والاجتماعية والحوكمة (ESG)، أدى استخدام نموذج ada-002 من OpenAI إلى مشكلتين رئيسيتين:
- لم يتم العثور على 18% من المحتوى ذي الصلة.
- كانت 12% من النتائج خاطئة. على سبيل المثال، البحث عن "Scope 1 emissions" أعاد "Scope 3 emissions".
لم تكن المشكلة في عتبة التشابه (similarity threshold)، بل كانت في الانزياح الدلالي (semantic drift). فالنماذج العامة لا تفهم الفروق الدقيقة في المجالات المتخصصة مثل النصوص المتعلقة بالـ ESG، أو النصوص القانونية، أو الطبية.
إليكم الحل المكون من ثلاث طبقات لمعالجة هذه المشكلة.
١. اختيار النموذج اختبرنا أربعة نماذج. وبينما يبدو الاستضافة الذاتية لنموذج BGE-M3 أرخص، إلا أنه كلف في الواقع 6 أضعاف التكلفة بسبب تكاليف خوادم الـ GPU ووقت التطوير.
اخترنا text-embedding-3-large لأن:
- حقق نسبة استدعاء (recall) بلغت 91%.
- يظل مستقرًا مع النصوص الطويلة.
- يوفر أفضل عائد على الاستثمار (ROI).
٢. التخفيف من الانزياح الدلالي حتى أفضل النماذج تخلط بين "low-carbon" و"zero-carbon". لذا قمت بتنفيذ استراتيجية تعزيز مكونة من ثلاث خطوات:
- قاموس المجال: خريطة تضم أكثر من 500 مصطلح مع تعريفاتها وقواعد "التمييز عن".
- تلميحات الأوامر (Prompt Hints): حقن سياق القاموس في النموذج أثناء عملية الترميز (encoding).
- إعادة الترتيب بعد الاسترجاع (Post-retrieval Reranking): رفع درجات المرادفات وتقليل درجات المصطلحات غير ذات الصلة.
أدى ذلك إلى تقليل معدل الإيجابيات الكاذبة لدينا من 12% إلى 3%.
٣. التحقق المزدوج تقيس تشابه المتجهات المسافة الرياضية، وليس الصلة بالأعمال. ولضمان الدقة، أضفت نظام تحقق مزدوج:
- الطبقة الأولى: المطابقة الصارمة للكلمات المفتاحية. يجب أن تحتوي النتيجة على المصطلحات الأساسية المطلوبة.
- الطبقة الثانية: التحقق الدلالي المتقاطع بواسطة LLM. يقوم LLM بالتحقق مما إذا كانت القطعة النصية (chunk) تجيب بالفعل على الاستعلام.
- الطبقة الثالثة: فحص عشوائي يدوي. مراجعات شهرية لمنع تدهور النظام.
أدى ذلك إلى تحسين الدقة من 70% إلى 94%.
الخلاصة إذا كانت بياناتك تستخدم مصطلحات متخصصة، فلا تعتمد على بحث المتجهات الفردي فقط. أنت بحاجة إلى قاموس، وتلميحات للمجال، وطبقة تحقق مزدوجة للانتقال من التشابه الرياضي إلى الصلة بالأعمال.
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi