آپ کا LLM درست تھا، لیکن کیا یہ درست وجہ سے درست تھا؟

Translated for your language. Read the original.

AI-assisted draft.

4 گھنٹے پہلے2min read

𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?

میں نے یہ دیکھنے کے لیے ایک بینچ مارک بنایا کہ آیا ایک LLM طبی جینیاتی تغیرات (clinical genetic variants) کی تشریح کر سکتا ہے یا نہیں۔

ابتدائی نتائج خراب لگے۔ ماڈل نے 60 فیصد درستگی (accuracy) حاصل کی۔ میں نے تقریباً یہ نتیجہ اخذ کر لیا تھا کہ ماڈل اوسط درجے کا ہے اور استعمال کے لیے موزوں نہیں ہے۔

میں غلط تھا۔

اصل بصیرت تب سامنے آئی جب میں نے درستگی (accuracy) کو ناپنا چھوڑ دیا اور حفاظت (safety) کو ناپنا شروع کیا۔

کلینیکل جینیٹکس میں، ایک غلط جواب خطرناک ہو سکتا ہے۔ غلطیوں کی دو اقسام ہیں:

محفوظ پرہیز (Safe abstention): ماڈل "غیر یقینی" (uncertain) کہتا ہے جبکہ حقیقت میں فیصلہ یقینی ہوتا ہے۔ یہ محفوظ ہے کیونکہ ایک انسان اس کی تحقیقات کرے گا۔
پر اعتماد غلطی (Confident error): ماڈل اس کے برعکس فیصلہ کرتا ہے (مثلاً بیماری کا باعث بننے والے تغیر کو "بے ضرر" (benign) قرار دینا)۔ یہ ایک خطرناک ناکامی ہے۔

میرے بینچ مارک نے دکھایا کہ ماڈل میں پر اعتماد غلطیوں کی تعداد صفر تھی۔ اس نے کبھی کوئی خطرناک غلطی نہیں کی۔ جب اس کے پاس کافی ثبوت نہیں تھے، تو اس نے محض خاموش رہنے کا انتخاب کیا۔

جب میں نے درستگی کا سادہ پیمانہ (accuracy metric) استعمال کیا، تو میں نے ایک محفوظ اور بہتر طریقے سے کیلیبریٹ شدہ (well-calibrated) ماڈل کو ناکام قرار دے دیا۔ مسئلہ میرے پیمانے میں تھا، ماڈل میں نہیں۔

اگر آپ طب، قانون، یا مالیات جیسے حساس شعبوں کے لیے بینچ مارک بناتے ہیں، تو ان اصولوں پر عمل کریں:

محفوظ ناکامیوں کو خطرناک ناکامیوں سے الگ کریں۔ ایک ایماندارانہ "مجھے نہیں معلوم" کو کبھی بھی پر اعتماد جھوٹ کے ساتھ ایک ہی گروپ میں نہ رکھیں۔
استدلال (reasoning) کا آڈٹ کریں۔ صرف درستگی سے یہ معلوم نہیں ہوتا کہ ماڈل ثبوت گھڑ رہا ہے یا منطق پر عمل کر رہا ہے۔
اپنے ثبوت حقیقی رکھیں۔ اپنے ٹیسٹوں میں جعلی ڈیٹا شامل نہ کریں۔ اگر آپ کا جائزہ جعلی ڈیٹا استعمال کرتا ہے، تو آپ یہ ٹیسٹ نہیں کر سکتے کہ ماڈل ہالوسینیٹ (hallucinates) کرتا ہے یا نہیں۔
اپنے تجزیے کو کیلیبریٹ کریں۔ نمونوں کا چھوٹا سائز جھوٹ بول سکتا ہے۔ بڑے ڈیٹا کے ساتھ تصدیق کرنے سے پہلے نتائج شائع نہ کریں۔

حساس شعبوں میں، وہ ماڈل زیادہ قیمتی ہے جو جانتا ہو کہ کب رکنا ہے، بجائے اس ماڈل کے جو محض اندازے لگاتا ہے۔

کوڈ GitHub پر دستیاب ہے: gbadedata/clinvar-interpretation-benchmark.

مکمل پوسٹ: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi

آپ کا LLM درست تھا، لیکن کیا یہ درست وجہ سے درست تھا؟

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲