𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

بڑے لینگویج ماڈلز (Large language models) اکثر اس بارے میں جھوٹ بولتے ہیں کہ وہ کتنے یقینی ہیں۔

یونیورسٹی آف مینیسوٹا کی ایک نئی تحقیق Qwen 2.5 7B میں ایک بڑا نقص ظاہر کرتی ہے۔ جب یہ ماڈل کلینیکل ڈیٹا (clinical data) پر کام کرتا ہے، تو اس کے کنفیڈنس اسکورز (confidence scores) تقریباً ایک جیسے رہتے ہیں۔

ماڈل 0.856 اور 0.937 کے درمیان کنفیڈنس رپورٹ کرتا ہے۔ یہ تب بھی ہوتا ہے جب ماڈل غلط ہو۔

تحقیق کے اہم نتائج:

  • ماڈل علمی طور پر غیر متوازن (epistemically uncalibrated) ہے۔ اس کا یقین درستی کے بجائے پرامپٹ فارمیٹ (prompt format) پر منحصر ہے۔
  • زیادہ کنفیڈنس کا مطلب زیادہ درستی نہیں ہے۔
  • ماڈل آسان کیسز میں سب سے زیادہ یقین کے ساتھ غلط ہوتا ہے۔
  • XGBoost جیسے روایتی ماڈلز سٹرکچرڈ ٹیبلر ڈیٹا (structured tabular data) پر LLMs سے بہتر کارکردگی دکھاتے ہیں۔

ایسا کیوں ہوتا ہے؟

LLMs قدرتی زبان سے سیکھتے ہیں۔ ان میں کلینیکل نمبروں کی قطاروں کے لیے بصیرت (intuition) کی کمی ہوتی ہے۔ وہ اصل ڈیٹا کے ثبوت کے بجائے لسانی پیٹرنز (linguistic patterns) پر انحصار کرتے ہیں۔

یہ صحت کے شعبے (healthcare) میں خطرہ پیدا کرتا ہے۔ اگر آپ ماڈل کے کنفیڈنس اسکور پر بھروسہ کرتے ہیں، تو آپ ایک غلط جواب کو حقیقت کے طور پر قبول کر سکتے ہیں۔

محققین نے ماڈل کو دوبارہ تربیت (retraining) دیے بغیر اسے ٹھیک کرنے کا ایک طریقہ دریافت کیا ہے:

  • Few-shot مثالوں کو SHAP attribution injection کے ساتھ ملا دیں۔
  • اس سے درستی 49% سے بڑھ کر 75.3% ہو گئی۔
  • کراس ماڈل کیلیبریٹر (cross-model calibrator) کا استعمال کریں۔
  • LLM کا کلاسیکل ML ماڈل کے ساتھ موازنہ کر کے، آپ اس وقت کا پتہ لگا سکتے ہیں جب LLM ناقابل بھروسہ ہو۔
  • اس طریقے نے غلطی کی شرح کو نمایاں طور پر کم کر دیا۔

خلاصہ سادہ ہے۔ سٹرکچرڈ ڈیٹا کے لیے لفظی کنفیڈنس اسکورز پر بھروسہ نہ کریں۔ ہائبرڈ پائپ لائنز (hybrid pipelines) استعمال کریں۔ نمبروں کو سنبھالنے کے لیے کلاسیکل ماڈلز کا استعمال کریں اور استدلال (reasoning) اور وضاحت کے لیے LLMs کا استعمال کریں۔

ماخذ: https://arxiv.org/abs/2606.19509

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi