𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕-இன் தன்னம்பிக்கை அளவீடுகள் நம்பகமற்றவை

பெரிய மொழி மாதிரிகள் (LLMs) அவை எவ்வளவு உறுதியாக உள்ளன என்பது குறித்து பெரும்பாலும் தவறான தகவல்களைத் தருகின்றன.

மினசோட்டா பல்கலைக்கழகத்தின் புதிய ஆய்வு, Qwen 2.5 7B-இல் உள்ள ஒரு முக்கியக் குறையைக் காட்டுகிறது. இந்த மாதிரி மருத்துவத் தரவுகளைக் (clinical data) கையாளும் போது, அதன் தன்னம்பிக்கை மதிப்பெண்கள் (confidence scores) கிட்டத்தட்ட மாறாமல் அப்படியே இருக்கின்றன.

மாதிரி 0.856 முதல் 0.937 வரையிலான தன்னம்பிக்கையைத் தெரிவிக்கிறது. மாதிரி தவறாக இருக்கும்போதும் கூட இது நிகழ்கிறது.

ஆராய்ச்சியின் முக்கியக் கண்டுபிடிப்புகள்:

  • இந்த மாதிரி அறிவுசார் ரீதியாகச் சரியாகச் சரிசெய்யப்படவில்லை (epistemically uncalibrated). இதன் உறுதித்தன்மை துல்லியத்தைப் பொறுத்தது அல்ல, மாறாக ப்ராம்ப்ட் (prompt) வடிவமைப்பைப் பொறுத்தே அமைகிறது.
  • அதிக தன்னம்பிக்கை என்பது அதிக துல்லியத்தைக் குறிக்காது.
  • எளிமையான நிகழ்வுகளில் இந்த மாதிரி மிகவும் உறுதியாகத் தவறான பதில்களைத் தருகிறது.
  • கட்டமைக்கப்பட்ட அட்டவணைத் தரவுகளில் (structured tabular data), XGBoost போன்ற பாரம்பரிய மாதிரிகள் LLM-களை விடச் சிறப்பாகச் செயல்படுகின்றன.

இது ஏன் நிகழ்கிறது?

LLM-கள் இயற்கை மொழியிலிருந்து கற்றுக்கொள்கின்றன. மருத்துவ எண்களின் வரிசைகளைக் கையாள்வதில் அவற்றுக்குத் தேவையான உள்ளுணர்வு (intuition) இல்லை. அவை உண்மையான தரவு ஆதாரங்களுக்குப் பதிலாக மொழியியல் வடிவங்களையே (linguistic patterns) நம்பியிருக்கின்றன.

இது சுகாதாரத் துறையில் ஒரு ஆபத்தை உருவாக்குகிறது. ஒரு மாதிரியின் தன்னம்பிக்கை மதிப்பெண்ணை நீங்கள் நம்பினால், தவறான ஒரு பதிலை உண்மையாக ஏற்றுக்கொண்டேக் கூடும்.

மாதிரியை மீண்டும் பயிற்றுவிக்காமலேயே (retraining) இதைச் சரிசெய்வதற்கான வழியை ஆராய்ச்சியாளர்கள் கண்டறிந்துள்ளனர்:

  • few-shot உதாரணங்களை SHAP attribution injection உடன் இணைக்கவும்.
  • இது துல்லியத்தை 49%-லிருந்து 75.3%-ஆக அதிகரித்தது.
  • ஒரு cross-model calibrator-ஐப் பயன்படுத்தவும்.
  • LLM-ஐ ஒரு பாரம்பரிய ML மாதிரியுடன் ஒப்பிடுவதன் மூலம், LLM எப்போது நம்பகத்தன்மையற்றது என்பதைக் கண்டறியலாம்.
  • இந்த முறை பிழை விகிதத்தை கணிசமாகக் குறைத்தது.

இதிலிருந்து நாம் கற்றுக்கொள்ள வேண்டியது எளிது. கட்டமைக்கப்பட்ட தரவுகளுக்கு (structured data) வெளிப்படையாகத் தெரிவிக்கப்படும் தன்னம்பிக்கை மதிப்பெண்களை நம்பாதீர்கள். கலப்பு வழிமுறைகளை (hybrid pipelines) பயன்படுத்துங்கள். எண்களைக் கையாள பாரம்பரிய மாதிரிகளையும், காரணமறிதல் மற்றும் விளக்கங்களுக்கு LLM-களையும் பயன்படுத்துங்கள்.

ஆதாரம்: https://arxiv.org/abs/2606.19509

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi