𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Translated for your language. Read the original.

AI-assisted draft.

14 മണിക്കൂർ മുമ്പ്1min read

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕-യുടെ കോൺഫിഡൻസ് വിശ്വസനീയമല്ല

ലാർജ് ലാംഗ്വേജ് മോഡലുകൾ തങ്ങൾ എത്രത്തോളം കൃത്യമാണെന്ന കാര്യത്തിൽ പലപ്പോഴും തെറ്റായ വിവരങ്ങൾ നൽകുന്നു.

മിനസോട്ട സർവ്വകലാശാല നടത്തിയ പുതിയ പഠനം Qwen 2.5 7B-ൽ ഒരു വലിയ പോരായ്മ ചൂണ്ടിക്കാണിക്കുന്നു. ഈ മോഡൽ ക്ലിനിക്കൽ ഡാറ്റ ഉപയോഗിക്കുമ്പോൾ, അതിന്റെ കോൺഫിഡൻസ് സ്കോറുകളിൽ വലിയ മാറ്റം വരുന്നില്ല.

മോഡൽ 0.856 നും 0.937 നും ഇടയിലുള്ള കോൺഫിഡൻസ് റിപ്പോർട്ട് ചെയ്യുന്നു. മോഡൽ തെറ്റായ ഉത്തരം നൽകുന്നപ്പോഴും ഇത് സംഭവിക്കുന്നു.

ഗവേഷണത്തിലെ പ്രധാന കണ്ടെത്തലുകൾ:

മോഡൽ എപ്പിസ്റ്റെമിക് ആയി അൺകാലിബ്രേറ്റഡ് (epistemically uncalibrated) ആണ്. ഇതിന്റെ കൃത്യതയേക്കാൾ കൂടുതൽ പ്രോംപ്റ്റ് ഫോർമാറ്റിനെയാണ് (prompt format) അതിന്റെ നിശ്ചിതത്വം ആശ്രയിക്കുന്നത്.
ഉയർന്ന കോൺഫിഡൻസ് എന്നാൽ ഉയർന്ന കൃത്യത എന്നല്ല അർത്ഥമാക്കുന്നത്.
ലളിതമായ കേസുകളിൽ പോലും മോഡൽ വളരെ ഉയർന്ന കോൺഫിഡൻസോടെ തെറ്റായ ഉത്തരങ്ങൾ നൽകുന്നു.
സ്ട്രക്ചേർഡ് ടാബുലാർ ഡാറ്റയിൽ (structured tabular data) XGBoost പോലുള്ള പരമ്പരാഗത മോഡലുകൾ LLM-കളെക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നു.

എന്തുകൊണ്ടാണ് ഇത് സംഭവിക്കുന്നത്?

LLM-കൾ സ്വാഭാവിക ഭാഷയിൽ നിന്നാണ് പഠിക്കുന്നത്. ക്ലിനിക്കൽ ഡാറ്റയിലെ സംഖ്യകളുടെ ക്രമങ്ങൾ മനസ്സിലാക്കാനുള്ള അവയ്ക്ക് സഹജമായ ഉൾക്കാഴ്ച (intuition) ഇല്ല. യഥാർത്ഥ ഡാറ്റാ തെളിവുകൾക്ക് പകരം ഭാഷാപരമായ പാറ്റേണുകളെയാണ് അവ ആശ്രയിക്കുന്നത്.

ഇത് ആരോഗ്യമേഖലയിൽ വലിയ അപകടസാധ്യതയുണ്ടാക്കുന്നു. ഒരു മോഡലിന്റെ കോൺഫിഡൻസ് സ്കോറിനെ നിങ്ങൾ വിശ്വസിക്കുകയാണെങ്കിൽ, തെറ്റായ ഒരു ഉത്തരത്തെ വസ്തുതയായി നിങ്ങൾ സ്വീകരിച്ചേക്കാം.

മോഡൽ വീണ്ടും പരിശീലിപ്പിക്കാതെ തന്നെ ഇത് പരിഹരിക്കാൻ ഗവേഷകർ ഒരു മാർഗ്ഗം കണ്ടെത്തിയിട്ടുണ്ട്:

Few-shot ഉദാഹരണങ്ങളെ SHAP attribution injection-മായി സംയോജിപ്പിക്കുക.
ഇത് കൃത്യത 49%-ൽ നിന്ന് 75.3%-ലേക്ക് ഉയർത്തി.
ഒരു ക്രോസ്-മോഡൽ കാലിബ്രേറ്റർ (cross-model calibrator) ഉപയോഗിക്കുക.
LLM-നെ ഒരു ക്ലാസിക്കൽ ML മോഡലുമായി താരതമ്യം ചെയ്യുന്നതിലൂടെ, LLM എപ്പോൾ വിശ്വസനീയമല്ല എന്ന് നിങ്ങൾക്ക് കണ്ടെത്താൻ കഴിയും.
ഈ രീതി പിശക് നിരക്ക് ഗണ്യമായി കുറച്ചു.

ഇതിൽ നിന്നുള്ള പാഠം ലളിതമാണ്. സ്ട്രക്ചേർഡ് ഡാറ്റയ്ക്ക് വേണ്ടി വെളിപ്പെടുത്തുന്ന കോൺഫിഡൻസ് സ്കോറുകളെ വിശ്വസിക്കരുത്. ഹൈബ്രിഡ് പൈപ്പ്‌ലൈനുകൾ (hybrid pipelines) ഉപയോഗിക്കുക. സംഖ്യകൾ കൈകാര്യം ചെയ്യാൻ ക്ലാസിക്കൽ മോഡലുകളെയും, യുക്തിപരമായ വിശകലനത്തിനും (reasoning) വിശദീകരണത്തിനുമായി LLM-കളെയും ഉപയോഗിക്കുക.

സ്രോതസ്സ്: https://arxiv.org/abs/2606.19509

ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

നിങ്ങളുടെ AI കോൺഫിഡൻസ് സ്കോറുകൾ എന്തുകൊണ്ട് തെറ്റായ വിവരങ്ങൾ നൽകുന്നു?

𝗧𝗵𝗲 𝗧𝗲𝗹𝗹 𝗪𝗲 𝗧𝗿𝗮𝗶𝗻𝗲𝗱 𝗢𝘂𝘁

നിങ്ങളുടെ LLM ശരിയായിരുന്നു, പക്ഷേ അത് ശരിയായ കാരണത്താലാണോ?