𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Translated for your language. Read the original.

AI-assisted draft.

14 گھنٹے پہلے1min read

بڑے لینگویج ماڈلز (Large language models) اکثر اس بارے میں جھوٹ بولتے ہیں کہ وہ کتنے یقینی ہیں۔

یونیورسٹی آف مینیسوٹا کی ایک نئی تحقیق Qwen 2.5 7B میں ایک بڑا نقص ظاہر کرتی ہے۔ جب یہ ماڈل کلینیکل ڈیٹا (clinical data) پر کام کرتا ہے، تو اس کے کنفیڈنس اسکورز (confidence scores) تقریباً ایک جیسے رہتے ہیں۔

ماڈل 0.856 اور 0.937 کے درمیان کنفیڈنس رپورٹ کرتا ہے۔ یہ تب بھی ہوتا ہے جب ماڈل غلط ہو۔

تحقیق کے اہم نتائج:

ماڈل علمی طور پر غیر متوازن (epistemically uncalibrated) ہے۔ اس کا یقین درستی کے بجائے پرامپٹ فارمیٹ (prompt format) پر منحصر ہے۔
زیادہ کنفیڈنس کا مطلب زیادہ درستی نہیں ہے۔
ماڈل آسان کیسز میں سب سے زیادہ یقین کے ساتھ غلط ہوتا ہے۔
XGBoost جیسے روایتی ماڈلز سٹرکچرڈ ٹیبلر ڈیٹا (structured tabular data) پر LLMs سے بہتر کارکردگی دکھاتے ہیں۔

ایسا کیوں ہوتا ہے؟

LLMs قدرتی زبان سے سیکھتے ہیں۔ ان میں کلینیکل نمبروں کی قطاروں کے لیے بصیرت (intuition) کی کمی ہوتی ہے۔ وہ اصل ڈیٹا کے ثبوت کے بجائے لسانی پیٹرنز (linguistic patterns) پر انحصار کرتے ہیں۔

یہ صحت کے شعبے (healthcare) میں خطرہ پیدا کرتا ہے۔ اگر آپ ماڈل کے کنفیڈنس اسکور پر بھروسہ کرتے ہیں، تو آپ ایک غلط جواب کو حقیقت کے طور پر قبول کر سکتے ہیں۔

محققین نے ماڈل کو دوبارہ تربیت (retraining) دیے بغیر اسے ٹھیک کرنے کا ایک طریقہ دریافت کیا ہے:

Few-shot مثالوں کو SHAP attribution injection کے ساتھ ملا دیں۔
اس سے درستی 49% سے بڑھ کر 75.3% ہو گئی۔
کراس ماڈل کیلیبریٹر (cross-model calibrator) کا استعمال کریں۔
LLM کا کلاسیکل ML ماڈل کے ساتھ موازنہ کر کے، آپ اس وقت کا پتہ لگا سکتے ہیں جب LLM ناقابل بھروسہ ہو۔
اس طریقے نے غلطی کی شرح کو نمایاں طور پر کم کر دیا۔

خلاصہ سادہ ہے۔ سٹرکچرڈ ڈیٹا کے لیے لفظی کنفیڈنس اسکورز پر بھروسہ نہ کریں۔ ہائبرڈ پائپ لائنز (hybrid pipelines) استعمال کریں۔ نمبروں کو سنبھالنے کے لیے کلاسیکل ماڈلز کا استعمال کریں اور استدلال (reasoning) اور وضاحت کے لیے LLMs کا استعمال کریں۔

ماخذ: https://arxiv.org/abs/2606.19509

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

𝗧𝗵𝗲 𝗧𝗲𝗹𝗹 𝗪𝗲 𝗧𝗿𝗮𝗶𝗻𝗲𝗱 𝗢𝘂𝘁

آپ کا LLM درست تھا، لیکن کیا یہ درست وجہ سے درست تھا؟