تصميم مسار بيانات اصطناعية للغة الفارسية

لم يعد تدريب نماذج LLM يتعلق بتوسيع نطاق النماذج، بل يتعلق بتوسيع نطاق جودة البيانات.

تفتقر معظم مجموعات البيانات الفارسية إلى الهيكلية، مما يتسبب في فشل النماذج في اتباع التعليمات. المشكلة تكمن في ندرة البيانات، وليس في حجم النموذج.

لقد قمت ببناء مسار (pipeline) لحل هذه المشكلة، ينتقل من الرسوم البيانية للمواضيع (topic graphs) إلى الضبط الدقيق باستخدام QLoRA.

عملية المسار:

  • إنشاء شجرة المواضيع (Topic Tree)
  • التوليد بواسطة LLM
  • إزالة التكرار (Deduplication)
  • تقييم الجودة
  • تصدير مجموعة البيانات
  • الضبط الدقيق باستخدام QLoRA
  • التقييم

قواعد التصميم الأساسية:

  • 51 مجالاً لضمان تغطية متوازنة.
  • إزالة التكرار الدلالي (Semantic deduplication) لإزالة الأفكار المتكررة.
  • التوليد باستخدام نماذج متعددة عبر نماذج GPT لتقليل الانحياز.
  • استخدام Qwen2.5 3B Instruct للضبط الدقيق النهائي.

كيف يعمل محرك البيانات: أستخدم نماذج متعددة لخلق التنوع. توفر نماذج GPT القدرة على الاستنتاج والتنوع، مما يحافظ على انخفاض التكاليف وارتفاع مستوى التنوع.

أستخدم التصفية الدلالية (semantic filtering) لتنظيف البيانات. إذا كان لتعليمات معينة درجة تشابه تزيد عن 0.75، أقوم بإزالة إحداها، وذلك لمنع النموذج من الإفراط في التخصيص (overfitting) على نفس الأنماط.

أستخدم LLM كحكم لتقييم الجودة، حيث يتحقق من:

  • الطلاقة
  • الصلة بالموضوع
  • الاكتمال

تبقى فقط البيانات التي تحصل على درجة 3.5 أو أعلى في المجموعة.

نتائج الضبط الدقيق: استخدمت QLoRA على نموذج Qwen2.5 3B Instruct عبر Google Colab. يقوم QLoRA بتدريب محولات (adapters) صغيرة بدلاً من الأوزان الكاملة، مما يوفر الذاكرة مع الحفاظ على أداء عالٍ.

تظهر النتائج فرقاً هائلاً:

  • النموذج الأساسي غالباً ما يتحول إلى اللغة العربية.
  • النموذج الذي تم ضبطه بدقة يتحدث الفارسية بطلاقة واتساق.

الدرس الرئيسي واضح: هندسة البيانات أهم من توسيع نطاق النموذج. جودة البيانات هي العائق الأساسي.

رؤى رئيسية:

  • التصفية المزدوجة ضرورية للحصول على بيانات نظيفة.
  • الرسوم البيانية للمواضيع المهيكلة تعمل بشكل أفضل من المطالبات (prompts) الحرة.
  • وجود LLM كحكم هو جزء حيوي من النظام.

هذا النظام هو محرك متكامل لمحاذاة (alignment) نماذج LLM ذات الموارد المحدودة.

المصدر: https://dev.to/mohammadheydari/designing-a-synthetic-data-pipeline-for-persian-llm-fine-tuning-from-topic-graphs-to-qlora-5cg5

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi