𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Translated for your language. Read the original.

AI-assisted draft.

14 மணிநேரம் முன்1min read

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕-இன் தன்னம்பிக்கை அளவீடுகள் நம்பகமற்றவை

பெரிய மொழி மாதிரிகள் (LLMs) அவை எவ்வளவு உறுதியாக உள்ளன என்பது குறித்து பெரும்பாலும் தவறான தகவல்களைத் தருகின்றன.

மினசோட்டா பல்கலைக்கழகத்தின் புதிய ஆய்வு, Qwen 2.5 7B-இல் உள்ள ஒரு முக்கியக் குறையைக் காட்டுகிறது. இந்த மாதிரி மருத்துவத் தரவுகளைக் (clinical data) கையாளும் போது, அதன் தன்னம்பிக்கை மதிப்பெண்கள் (confidence scores) கிட்டத்தட்ட மாறாமல் அப்படியே இருக்கின்றன.

மாதிரி 0.856 முதல் 0.937 வரையிலான தன்னம்பிக்கையைத் தெரிவிக்கிறது. மாதிரி தவறாக இருக்கும்போதும் கூட இது நிகழ்கிறது.

ஆராய்ச்சியின் முக்கியக் கண்டுபிடிப்புகள்:

இந்த மாதிரி அறிவுசார் ரீதியாகச் சரியாகச் சரிசெய்யப்படவில்லை (epistemically uncalibrated). இதன் உறுதித்தன்மை துல்லியத்தைப் பொறுத்தது அல்ல, மாறாக ப்ராம்ப்ட் (prompt) வடிவமைப்பைப் பொறுத்தே அமைகிறது.
அதிக தன்னம்பிக்கை என்பது அதிக துல்லியத்தைக் குறிக்காது.
எளிமையான நிகழ்வுகளில் இந்த மாதிரி மிகவும் உறுதியாகத் தவறான பதில்களைத் தருகிறது.
கட்டமைக்கப்பட்ட அட்டவணைத் தரவுகளில் (structured tabular data), XGBoost போன்ற பாரம்பரிய மாதிரிகள் LLM-களை விடச் சிறப்பாகச் செயல்படுகின்றன.

இது ஏன் நிகழ்கிறது?

LLM-கள் இயற்கை மொழியிலிருந்து கற்றுக்கொள்கின்றன. மருத்துவ எண்களின் வரிசைகளைக் கையாள்வதில் அவற்றுக்குத் தேவையான உள்ளுணர்வு (intuition) இல்லை. அவை உண்மையான தரவு ஆதாரங்களுக்குப் பதிலாக மொழியியல் வடிவங்களையே (linguistic patterns) நம்பியிருக்கின்றன.

இது சுகாதாரத் துறையில் ஒரு ஆபத்தை உருவாக்குகிறது. ஒரு மாதிரியின் தன்னம்பிக்கை மதிப்பெண்ணை நீங்கள் நம்பினால், தவறான ஒரு பதிலை உண்மையாக ஏற்றுக்கொண்டேக் கூடும்.

மாதிரியை மீண்டும் பயிற்றுவிக்காமலேயே (retraining) இதைச் சரிசெய்வதற்கான வழியை ஆராய்ச்சியாளர்கள் கண்டறிந்துள்ளனர்:

few-shot உதாரணங்களை SHAP attribution injection உடன் இணைக்கவும்.
இது துல்லியத்தை 49%-லிருந்து 75.3%-ஆக அதிகரித்தது.
ஒரு cross-model calibrator-ஐப் பயன்படுத்தவும்.
LLM-ஐ ஒரு பாரம்பரிய ML மாதிரியுடன் ஒப்பிடுவதன் மூலம், LLM எப்போது நம்பகத்தன்மையற்றது என்பதைக் கண்டறியலாம்.
இந்த முறை பிழை விகிதத்தை கணிசமாகக் குறைத்தது.

இதிலிருந்து நாம் கற்றுக்கொள்ள வேண்டியது எளிது. கட்டமைக்கப்பட்ட தரவுகளுக்கு (structured data) வெளிப்படையாகத் தெரிவிக்கப்படும் தன்னம்பிக்கை மதிப்பெண்களை நம்பாதீர்கள். கலப்பு வழிமுறைகளை (hybrid pipelines) பயன்படுத்துங்கள். எண்களைக் கையாள பாரம்பரிய மாதிரிகளையும், காரணமறிதல் மற்றும் விளக்கங்களுக்கு LLM-களையும் பயன்படுத்துங்கள்.

ஆதாரம்: https://arxiv.org/abs/2606.19509

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

நாங்கள் பயிற்சியின் மூலம் நீக்கிய அறிகுறி

𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?