تصنيفات فرز البريد الإلكتروني لتصنيف LLM
الجزء الأهم في مصنف البريد الإلكتروني ليس النموذج، بل مجموعة الملصقات (label set).
يركز معظم الناس على صياغة الأوامر (prompt phrasing)، لكنهم ينسون أن الملصقات هي التي تقوم بالعمل الشاق. إذا ضبطت التصنيف (taxonomy) بشكل صحيح، سيعمل النموذج الرخيص بشكل جيد. أما إذا أخطأت فيه، فلن يتمكن أي نموذج من إنقاذك.
يجب أن يتبع تصنيف البريد الإلكتروني الناجح هذه القواعد:
- استخدم أربع فئات. ثلاث فئات تفقد التفاصيل، وخمس فئات تسبب الارتباك.
- اربط الملصقات بالإجراءات. لا تستخدم المواضيع، بل استخدم التزامات الرد.
- عرّف الملصقات بالأمثلة. استخدم حالات ملموسة بدلاً من الصفات.
- اجعل المدخلات صغيرة. استخدم المرسل، والموضوع، ومقتطفاً قصيراً.
فكر في هذا الهيكل المكون من أربعة أجزاء:
- عاجل (URGENT): حوادث الإنتاج أو طلبات الإدارة التنفيذية. الرد خلال ساعة واحدة.
- إجراء (ACTION): مراجعات الكود أو المتابعات. الرد في نفس اليوم.
- للعلم فقط (FYI): معلومات فقط. لا يتطلب رداً.
- ضجيج (NOISE): النشرات الإخبارية أو التسويق. قم بأرشفتها.
يرتبط كل ملصق بسلوك محدد واحد. إذا أدى ملصقان إلى نفس الإجراء، فقم بدمجهما. وإذا أدى ملصق واحد إلى إجراءين مختلفين، فقم بتقسيمه.
هذا النهج يجعل الوكلاء (agents) قابلين للتنبؤ. يمكنك تشغيلهم وفق جدول زمني دون إشراف مستمر. استخدم درجة حرارة (temperature) تبلغ 0 للتصنيف لضمان أن تكون المخرجات حتمية (deterministic). واستخدم درجة حرارة أعلى للصياغة للحصول على نص طبيعي.
لا تستخدم وسوماً حرة (free-form tags). فكل وسم جديد ينشئ مساراً برمجياً جديداً يجب عليك اختباره. المفردات المغلقة (closed vocabulary) تجعل نظامك سهل التدقيق والتوسع.
جرب هذا التمرين: خذ آخر 50 بريداً إلكترونياً وصلك. صنفها باستخدام هذه الفئات الأربع. لاحظ المواضع التي تشعر فيها بالتردد؛ فهذه الفجوات توضح الأماكن التي تحتاج فيها تعريفاتك إلى المزيد من الأمثلة.
Source: https://dev.to/qasim157/email-triage-taxonomies-for-llm-classification-3o1j
Optional learning community: https://t.me/GyaanSetuAi