𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Translated for your language. Read the original.

AI-assisted draft.

14 గంటల క్రితం1min read

Qwen 2.5 7B కాన్ఫిడెన్స్ నమ్మదగినది కాదు

లార్జ్ లాంగ్వేజ్ మోడల్స్ (LLMs) తాము ఎంత ఖచ్చితంగా ఉన్నామనే విషయంపై తరచుగా తప్పుగా చెబుతుంటాయి.

యూనివర్సిటీ ఆఫ్ మిన్నెసోటా చేసిన కొత్త అధ్యయనం Qwen 2.5 7B లో ఒక ప్రధాన లోపాన్ని చూపుతోంది. ఈ మోడల్ క్లినికల్ డేటాతో పనిచేస్తున్నప్పుడు, దాని కాన్ఫిడెన్స్ స్కోర్లు దాదాపు ఒకేలా ఉంటాయి.

మోడల్ 0.856 నుండి 0.937 మధ్య కాన్ఫిడెన్స్‌ను రిపోర్ట్ చేస్తుంది. మోడల్ తప్పుగా ఉన్నప్పుడు కూడా ఇలాగే జరుగుతుంది.

పరిశోధనలోని ముఖ్య అంశాలు:

ఈ మోడల్ ఎపిస్టెమిక్లీ అన్‌కాలిబ్రేటెడ్ (epistemically uncalibrated). దీని ఖచ్చితత్వం కంటే ప్రాంప్ట్ ఫార్మాట్ (prompt format) పైనే దీని నిశ్చయత ఆధారపడి ఉంటుంది.
అధిక కాన్ఫిడెన్స్ అంటే అధిక ఖచ్చితత్వం అని అర్థం కాదు.
సులభమైన కేసులలో ఈ మోడల్ అత్యంత నమ్మకంతో తప్పు సమాచారాన్ని ఇస్తుంది.
స్ట్రక్చర్డ్ ట్యాబులర్ డేటా (structured tabular data) విషయంలో XGBoost వంటి సాంప్రదాయ మోడల్స్ LLMs కంటే మెరుగైన ఫలితాలను ఇస్తాయి.

ఇది ఎందుకు జరుగుతుంది?

LLMs సహజ భాష (natural language) నుండి నేర్చుకుంటాయి. క్లినికల్ నంబర్ల వరుసల (rows of clinical numbers) పట్ల వాటికి అంతర్ దృష్టి (intuition) ఉండదు. అవి వాస్తవ డేటా ఆధారాల కంటే భాషా నమూనాల (linguistic patterns) పైనే ఆధారపడతాయి.

ఇది ఆరోగ్య సంరక్షణ (healthcare) రంగంలో ప్రమాదకరం. మీరు మోడల్ యొక్క కాన్ఫిడెన్స్ స్కోర్‌ను నమ్మితే, తప్పు సమాచారాన్ని కూడా నిజమని నమ్మే అవకాశం ఉంది.

మోడల్‌ను మళ్ళీ ట్రైన్ చేయకుండానే దీనిని సరిదిద్దడానికి పరిశోధకులు ఒక మార్గాన్ని కనుగొన్నారు:

Few-shot ఉదాహరణలను SHAP attribution injectionతో కలపడం.
ఇది ఖచ్చితత్వాన్ని 49% నుండి 75.3%కి పెంచింది.
క్రాస్-మోడల్ కాలిబ్రేటర్ (cross-model calibrator) ఉపయోగించడం.
LLMని ఒక క్లాసికల్ ML మోడల్‌తో పోల్చడం ద్వారా, LLM ఎప్పుడు నమ్మదగినదిగా లేదో గుర్తించవచ్చు.
ఈ పద్ధతి ఎర్రర్ రేట్‌ను (error rate) గణనీయంగా తగ్గించింది.

దీని సారాంశం సరళమైనది. స్ట్రక్చర్డ్ డేటా కోసం వెర్బలైజ్డ్ కాన్ఫిడెన్స్ స్కోర్‌లను నమ్మవద్దు. హైబ్రిడ్ పైప్‌లైన్‌లను (hybrid pipelines) ఉపయోగించండి. నంబర్లను హ్యాండిల్ చేయడానికి క్లాసికల్ మోడల్స్‌ను, రీజనింగ్ మరియు వివరణ కోసం LLMsను ఉపయోగించండి.

మూలం: https://arxiv.org/abs/2606.19509

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

మేము శిక్షణ ద్వారా తొలగించిన సంకేతం

𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?