Qwen 2.5 7B కాన్ఫిడెన్స్ నమ్మదగినది కాదు

లార్జ్ లాంగ్వేజ్ మోడల్స్ (LLMs) తాము ఎంత ఖచ్చితంగా ఉన్నామనే విషయంపై తరచుగా తప్పుగా చెబుతుంటాయి.

యూనివర్సిటీ ఆఫ్ మిన్నెసోటా చేసిన కొత్త అధ్యయనం Qwen 2.5 7B లో ఒక ప్రధాన లోపాన్ని చూపుతోంది. ఈ మోడల్ క్లినికల్ డేటాతో పనిచేస్తున్నప్పుడు, దాని కాన్ఫిడెన్స్ స్కోర్లు దాదాపు ఒకేలా ఉంటాయి.

మోడల్ 0.856 నుండి 0.937 మధ్య కాన్ఫిడెన్స్‌ను రిపోర్ట్ చేస్తుంది. మోడల్ తప్పుగా ఉన్నప్పుడు కూడా ఇలాగే జరుగుతుంది.

పరిశోధనలోని ముఖ్య అంశాలు:

  • ఈ మోడల్ ఎపిస్టెమిక్లీ అన్‌కాలిబ్రేటెడ్ (epistemically uncalibrated). దీని ఖచ్చితత్వం కంటే ప్రాంప్ట్ ఫార్మాట్ (prompt format) పైనే దీని నిశ్చయత ఆధారపడి ఉంటుంది.
  • అధిక కాన్ఫిడెన్స్ అంటే అధిక ఖచ్చితత్వం అని అర్థం కాదు.
  • సులభమైన కేసులలో ఈ మోడల్ అత్యంత నమ్మకంతో తప్పు సమాచారాన్ని ఇస్తుంది.
  • స్ట్రక్చర్డ్ ట్యాబులర్ డేటా (structured tabular data) విషయంలో XGBoost వంటి సాంప్రదాయ మోడల్స్ LLMs కంటే మెరుగైన ఫలితాలను ఇస్తాయి.

ఇది ఎందుకు జరుగుతుంది?

LLMs సహజ భాష (natural language) నుండి నేర్చుకుంటాయి. క్లినికల్ నంబర్ల వరుసల (rows of clinical numbers) పట్ల వాటికి అంతర్ దృష్టి (intuition) ఉండదు. అవి వాస్తవ డేటా ఆధారాల కంటే భాషా నమూనాల (linguistic patterns) పైనే ఆధారపడతాయి.

ఇది ఆరోగ్య సంరక్షణ (healthcare) రంగంలో ప్రమాదకరం. మీరు మోడల్ యొక్క కాన్ఫిడెన్స్ స్కోర్‌ను నమ్మితే, తప్పు సమాచారాన్ని కూడా నిజమని నమ్మే అవకాశం ఉంది.

మోడల్‌ను మళ్ళీ ట్రైన్ చేయకుండానే దీనిని సరిదిద్దడానికి పరిశోధకులు ఒక మార్గాన్ని కనుగొన్నారు:

  • Few-shot ఉదాహరణలను SHAP attribution injectionతో కలపడం.
  • ఇది ఖచ్చితత్వాన్ని 49% నుండి 75.3%కి పెంచింది.
  • క్రాస్-మోడల్ కాలిబ్రేటర్ (cross-model calibrator) ఉపయోగించడం.
  • LLMని ఒక క్లాసికల్ ML మోడల్‌తో పోల్చడం ద్వారా, LLM ఎప్పుడు నమ్మదగినదిగా లేదో గుర్తించవచ్చు.
  • ఈ పద్ధతి ఎర్రర్ రేట్‌ను (error rate) గణనీయంగా తగ్గించింది.

దీని సారాంశం సరళమైనది. స్ట్రక్చర్డ్ డేటా కోసం వెర్బలైజ్డ్ కాన్ఫిడెన్స్ స్కోర్‌లను నమ్మవద్దు. హైబ్రిడ్ పైప్‌లైన్‌లను (hybrid pipelines) ఉపయోగించండి. నంబర్లను హ్యాండిల్ చేయడానికి క్లాసికల్ మోడల్స్‌ను, రీజనింగ్ మరియు వివరణ కోసం LLMsను ఉపయోగించండి.

మూలం: https://arxiv.org/abs/2606.19509

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi