𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?

میں نے یہ دیکھنے کے لیے ایک بینچ مارک بنایا کہ آیا ایک LLM طبی جینیاتی تغیرات (clinical genetic variants) کی تشریح کر سکتا ہے یا نہیں۔

ابتدائی نتائج خراب لگے۔ ماڈل نے 60 فیصد درستگی (accuracy) حاصل کی۔ میں نے تقریباً یہ نتیجہ اخذ کر لیا تھا کہ ماڈل اوسط درجے کا ہے اور استعمال کے لیے موزوں نہیں ہے۔

میں غلط تھا۔

اصل بصیرت تب سامنے آئی جب میں نے درستگی (accuracy) کو ناپنا چھوڑ دیا اور حفاظت (safety) کو ناپنا شروع کیا۔

کلینیکل جینیٹکس میں، ایک غلط جواب خطرناک ہو سکتا ہے۔ غلطیوں کی دو اقسام ہیں:

  • محفوظ پرہیز (Safe abstention): ماڈل "غیر یقینی" (uncertain) کہتا ہے جبکہ حقیقت میں فیصلہ یقینی ہوتا ہے۔ یہ محفوظ ہے کیونکہ ایک انسان اس کی تحقیقات کرے گا۔
  • پر اعتماد غلطی (Confident error): ماڈل اس کے برعکس فیصلہ کرتا ہے (مثلاً بیماری کا باعث بننے والے تغیر کو "بے ضرر" (benign) قرار دینا)۔ یہ ایک خطرناک ناکامی ہے۔

میرے بینچ مارک نے دکھایا کہ ماڈل میں پر اعتماد غلطیوں کی تعداد صفر تھی۔ اس نے کبھی کوئی خطرناک غلطی نہیں کی۔ جب اس کے پاس کافی ثبوت نہیں تھے، تو اس نے محض خاموش رہنے کا انتخاب کیا۔

جب میں نے درستگی کا سادہ پیمانہ (accuracy metric) استعمال کیا، تو میں نے ایک محفوظ اور بہتر طریقے سے کیلیبریٹ شدہ (well-calibrated) ماڈل کو ناکام قرار دے دیا۔ مسئلہ میرے پیمانے میں تھا، ماڈل میں نہیں۔

اگر آپ طب، قانون، یا مالیات جیسے حساس شعبوں کے لیے بینچ مارک بناتے ہیں، تو ان اصولوں پر عمل کریں:

  • محفوظ ناکامیوں کو خطرناک ناکامیوں سے الگ کریں۔ ایک ایماندارانہ "مجھے نہیں معلوم" کو کبھی بھی پر اعتماد جھوٹ کے ساتھ ایک ہی گروپ میں نہ رکھیں۔
  • استدلال (reasoning) کا آڈٹ کریں۔ صرف درستگی سے یہ معلوم نہیں ہوتا کہ ماڈل ثبوت گھڑ رہا ہے یا منطق پر عمل کر رہا ہے۔
  • اپنے ثبوت حقیقی رکھیں۔ اپنے ٹیسٹوں میں جعلی ڈیٹا شامل نہ کریں۔ اگر آپ کا جائزہ جعلی ڈیٹا استعمال کرتا ہے، تو آپ یہ ٹیسٹ نہیں کر سکتے کہ ماڈل ہالوسینیٹ (hallucinates) کرتا ہے یا نہیں۔
  • اپنے تجزیے کو کیلیبریٹ کریں۔ نمونوں کا چھوٹا سائز جھوٹ بول سکتا ہے۔ بڑے ڈیٹا کے ساتھ تصدیق کرنے سے پہلے نتائج شائع نہ کریں۔

حساس شعبوں میں، وہ ماڈل زیادہ قیمتی ہے جو جانتا ہو کہ کب رکنا ہے، بجائے اس ماڈل کے جو محض اندازے لگاتا ہے۔

کوڈ GitHub پر دستیاب ہے: gbadedata/clinvar-interpretation-benchmark.

مکمل پوسٹ: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi