كان نموذج الـ LLM الخاص بك محقاً، ولكن هل كان محقاً للسبب الصحيح؟

لقد قمت ببناء معيار قياس (benchmark) لمعرفة ما إذا كان بإمكان نموذج LLM تفسير المتغيرات الجينية السريرية.

بدت النتائج الأولية سيئة. حقق النموذج دقة بنسبة 60 بالمائة. وكدت أخلص إلى أن النموذج متوسط المستوى وغير صالح للاستخدام.

كنت مخطئاً.

لم تظهر الرؤية الحقيقية إلا عندما توقفت عن قياس الدقة وبدأت في قياس الأمان.

في علم الوراثة السريري، يمكن أن تكون الإجابة الخاطئة خطيرة. هناك نوعان من الأخطاء:

  • الامتناع الآمن: يقول النموذج "غير مؤكد" عندما تكون الحقيقة قراراً جازماً. هذا أمر آمن لأن الإنسان سيقوم بالتحقق.
  • الخطأ الواثق: يتخذ النموذج القرار المعاكس (على سبيل المثال، وصف متغير مسبب للمرض بأنه "حميد"). هذا فشل خطير.

أظهر معيار القياس الخاص بي أن النموذج لم يرتكب أي أخطاء واثقة. لم يرتكب أبداً خطأً خطيراً، بل اختار ببساطة الصمت عندما افتقر إلى الأدلة الكافية.

عندما استخدمت مقياس دقة بسيطاً، وصفت نموذجاً آمناً ومعايراً جيداً بأنه فاشل. كانت المشكلة في مقياسي، وليس في النموذج.

إذا كنت تبني معايير قياس لمجالات عالية المخاطر مثل الطب أو القانون أو التمويل، فاتبع هذه القواعد:

  • افصل بين الإخفاقات الآمنة والإخفاقات الخطيرة. لا تضع أبداً عبارة "لا أعرف" الصادقة في نفس السلة مع كذبة واثقة.
  • دقق في الاستنتاج. الدقة وحدها لا تظهر ما إذا كان النموذج يختلق أدلة أم يتبع المنطق.
  • حافظ على واقعية أدلتك. لا تدرج بيانات وهمية في اختباراتك. إذا كان تقييمك يستخدم بيانات وهمية، فلن تتمكن من اختبار ما إذا كان النموذج يعاني من الهلوسة.
  • عاير تحليلك الخاص. أحجام العينات الصغيرة قد تكون مضللة. لا تنشر النتائج قبل التحقق منها باستخدام بيانات أكبر.

في المجالات عالية المخاطر، النموذج الذي يعرف متى يتوقف أكثر قيمة من النموذج الذي يخمن.

الكود متاح على GitHub: gbadedata/clinvar-interpretation-benchmark.

المقال الكامل: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi