تصنيفات فرز البريد الإلكتروني لتصنيف LLM

الجزء الأهم في مصنف البريد الإلكتروني ليس النموذج، بل مجموعة الملصقات (label set).

يركز معظم الناس على صياغة الأوامر (prompt phrasing)، لكنهم ينسون أن الملصقات هي التي تقوم بالعمل الشاق. إذا ضبطت التصنيف (taxonomy) بشكل صحيح، سيعمل النموذج الرخيص بشكل جيد. أما إذا أخطأت فيه، فلن يتمكن أي نموذج من إنقاذك.

يجب أن يتبع تصنيف البريد الإلكتروني الناجح هذه القواعد:

فكر في هذا الهيكل المكون من أربعة أجزاء:

يرتبط كل ملصق بسلوك محدد واحد. إذا أدى ملصقان إلى نفس الإجراء، فقم بدمجهما. وإذا أدى ملصق واحد إلى إجراءين مختلفين، فقم بتقسيمه.

هذا النهج يجعل الوكلاء (agents) قابلين للتنبؤ. يمكنك تشغيلهم وفق جدول زمني دون إشراف مستمر. استخدم درجة حرارة (temperature) تبلغ 0 للتصنيف لضمان أن تكون المخرجات حتمية (deterministic). واستخدم درجة حرارة أعلى للصياغة للحصول على نص طبيعي.

لا تستخدم وسوماً حرة (free-form tags). فكل وسم جديد ينشئ مساراً برمجياً جديداً يجب عليك اختباره. المفردات المغلقة (closed vocabulary) تجعل نظامك سهل التدقيق والتوسع.

جرب هذا التمرين: خذ آخر 50 بريداً إلكترونياً وصلك. صنفها باستخدام هذه الفئات الأربع. لاحظ المواضع التي تشعر فيها بالتردد؛ فهذه الفجوات توضح الأماكن التي تحتاج فيها تعريفاتك إلى المزيد من الأمثلة.

Source: https://dev.to/qasim157/email-triage-taxonomies-for-llm-classification-3o1j

Optional learning community: https://t.me/GyaanSetuAi