𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕-യുടെ കോൺഫിഡൻസ് വിശ്വസനീയമല്ല
ലാർജ് ലാംഗ്വേജ് മോഡലുകൾ തങ്ങൾ എത്രത്തോളം കൃത്യമാണെന്ന കാര്യത്തിൽ പലപ്പോഴും തെറ്റായ വിവരങ്ങൾ നൽകുന്നു.
മിനസോട്ട സർവ്വകലാശാല നടത്തിയ പുതിയ പഠനം Qwen 2.5 7B-ൽ ഒരു വലിയ പോരായ്മ ചൂണ്ടിക്കാണിക്കുന്നു. ഈ മോഡൽ ക്ലിനിക്കൽ ഡാറ്റ ഉപയോഗിക്കുമ്പോൾ, അതിന്റെ കോൺഫിഡൻസ് സ്കോറുകളിൽ വലിയ മാറ്റം വരുന്നില്ല.
മോഡൽ 0.856 നും 0.937 നും ഇടയിലുള്ള കോൺഫിഡൻസ് റിപ്പോർട്ട് ചെയ്യുന്നു. മോഡൽ തെറ്റായ ഉത്തരം നൽകുന്നപ്പോഴും ഇത് സംഭവിക്കുന്നു.
ഗവേഷണത്തിലെ പ്രധാന കണ്ടെത്തലുകൾ:
- മോഡൽ എപ്പിസ്റ്റെമിക് ആയി അൺകാലിബ്രേറ്റഡ് (epistemically uncalibrated) ആണ്. ഇതിന്റെ കൃത്യതയേക്കാൾ കൂടുതൽ പ്രോംപ്റ്റ് ഫോർമാറ്റിനെയാണ് (prompt format) അതിന്റെ നിശ്ചിതത്വം ആശ്രയിക്കുന്നത്.
- ഉയർന്ന കോൺഫിഡൻസ് എന്നാൽ ഉയർന്ന കൃത്യത എന്നല്ല അർത്ഥമാക്കുന്നത്.
- ലളിതമായ കേസുകളിൽ പോലും മോഡൽ വളരെ ഉയർന്ന കോൺഫിഡൻസോടെ തെറ്റായ ഉത്തരങ്ങൾ നൽകുന്നു.
- സ്ട്രക്ചേർഡ് ടാബുലാർ ഡാറ്റയിൽ (structured tabular data) XGBoost പോലുള്ള പരമ്പരാഗത മോഡലുകൾ LLM-കളെക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നു.
എന്തുകൊണ്ടാണ് ഇത് സംഭവിക്കുന്നത്?
LLM-കൾ സ്വാഭാവിക ഭാഷയിൽ നിന്നാണ് പഠിക്കുന്നത്. ക്ലിനിക്കൽ ഡാറ്റയിലെ സംഖ്യകളുടെ ക്രമങ്ങൾ മനസ്സിലാക്കാനുള്ള അവയ്ക്ക് സഹജമായ ഉൾക്കാഴ്ച (intuition) ഇല്ല. യഥാർത്ഥ ഡാറ്റാ തെളിവുകൾക്ക് പകരം ഭാഷാപരമായ പാറ്റേണുകളെയാണ് അവ ആശ്രയിക്കുന്നത്.
ഇത് ആരോഗ്യമേഖലയിൽ വലിയ അപകടസാധ്യതയുണ്ടാക്കുന്നു. ഒരു മോഡലിന്റെ കോൺഫിഡൻസ് സ്കോറിനെ നിങ്ങൾ വിശ്വസിക്കുകയാണെങ്കിൽ, തെറ്റായ ഒരു ഉത്തരത്തെ വസ്തുതയായി നിങ്ങൾ സ്വീകരിച്ചേക്കാം.
മോഡൽ വീണ്ടും പരിശീലിപ്പിക്കാതെ തന്നെ ഇത് പരിഹരിക്കാൻ ഗവേഷകർ ഒരു മാർഗ്ഗം കണ്ടെത്തിയിട്ടുണ്ട്:
- Few-shot ഉദാഹരണങ്ങളെ SHAP attribution injection-മായി സംയോജിപ്പിക്കുക.
- ഇത് കൃത്യത 49%-ൽ നിന്ന് 75.3%-ലേക്ക് ഉയർത്തി.
- ഒരു ക്രോസ്-മോഡൽ കാലിബ്രേറ്റർ (cross-model calibrator) ഉപയോഗിക്കുക.
- LLM-നെ ഒരു ക്ലാസിക്കൽ ML മോഡലുമായി താരതമ്യം ചെയ്യുന്നതിലൂടെ, LLM എപ്പോൾ വിശ്വസനീയമല്ല എന്ന് നിങ്ങൾക്ക് കണ്ടെത്താൻ കഴിയും.
- ഈ രീതി പിശക് നിരക്ക് ഗണ്യമായി കുറച്ചു.
ഇതിൽ നിന്നുള്ള പാഠം ലളിതമാണ്. സ്ട്രക്ചേർഡ് ഡാറ്റയ്ക്ക് വേണ്ടി വെളിപ്പെടുത്തുന്ന കോൺഫിഡൻസ് സ്കോറുകളെ വിശ്വസിക്കരുത്. ഹൈബ്രിഡ് പൈപ്പ്ലൈനുകൾ (hybrid pipelines) ഉപയോഗിക്കുക. സംഖ്യകൾ കൈകാര്യം ചെയ്യാൻ ക്ലാസിക്കൽ മോഡലുകളെയും, യുക്തിപരമായ വിശകലനത്തിനും (reasoning) വിശദീകരണത്തിനുമായി LLM-കളെയും ഉപയോഗിക്കുക.
സ്രോതസ്സ്: https://arxiv.org/abs/2606.19509
ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi