𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲
लार्ज लँग्वेज मॉडेल्स (LLMs) ते किती खात्रीशीर आहेत याबद्दल अनेकदा चुकीची माहिती देतात.
युनिव्हर्सिटी ऑफ मिनेसोटाचा एक नवीन अभ्यास Qwen 2.5 7B मधील एक मोठी त्रुटी दर्शवतो. जेव्हा हे मॉडेल क्लिनिकल डेटावर (clinical data) काम करते, तेव्हा त्याचे कॉन्फिडन्स स्कोअर (confidence scores) जवळजवळ सारखेच राहतात.
मॉडेल 0.856 आणि 0.937 दरम्यान कॉन्फिडन्स रिपोर्ट करते. मॉडेल चुकीचे असतानाही असे घडते.
संशोधनातील मुख्य निष्कर्ष:
- मॉडेल 'एपिस्टेमिकली अनकॅलिब्रेटेड' (epistemically uncalibrated) आहे. त्याची निश्चितता अचूकतेपेक्षा प्रॉम्प्ट फॉरमॅटवर (prompt format) अवलंबून असते.
- उच्च कॉन्फिडन्स म्हणजे उच्च अचूकता (accuracy) असा होत नाही.
- सोप्या प्रकरणांमध्ये मॉडेल सर्वाधिक आत्मविश्वासाने चुकीचे उत्तर देते.
- स्ट्रक्चर्ड टॅब्युलर डेटावर (structured tabular data) XGBoost सारखी पारंपारिक मॉडेल्स LLMs पेक्षा चांगली कामगिरी करतात.
हे का घडते?
LLMs नैसर्गिक भाषा (natural language) मधून शिकतात. क्लिनिकल नंबरच्या ओळींबद्दल (rows of clinical numbers) त्यांच्याकडे अंतर्ज्ञान (intuation) नसते. ते प्रत्यक्ष डेटा पुराव्यांऐवजी भाषिक पॅटर्नवर (linguistic patterns) अवलंबून असतात.
यामुळे आरोग्यसेवेमध्ये (healthcare) धोका निर्माण होतो. जर तुम्ही मॉडेलच्या कॉन्फिडन्स स्कोअरवर विश्वास ठेवला, तर तुम्ही चुकीचे उत्तर तथ्य (fact) म्हणून स्वीकारू शकता.
संशोधकांना मॉडेल पुन्हा प्रशिक्षित (retraining) न करता हे सुधारण्याचा मार्ग सापडला आहे:
- Few-shot उदाहरणांना SHAP attribution injection सोबत जोडा.
- यामुळे अचूकता 49% वरून 75.3% पर्यंत वाढली.
- क्रॉस-मॉडेल कॅलिब्रेटर (cross-model calibrator) वापरा.
- LLM ची तुलना क्लासिकल ML मॉडेलशी करून, LLM कधी अविश्वसनीय आहे हे तुम्ही शोधू शकता.
- या पद्धतीमुळे त्रुटींचे प्रमाण (error rate) लक्षणीयरीत्या कमी झाले.
याचा निष्कर्ष साधा आहे. स्ट्रक्चर्ड डेटासाठी केवळ शब्दांत व्यक्त केलेल्या कॉन्फिडन्स स्कोअरवर विश्वास ठेवू नका. हायब्रिड पाईपलाईन्स (hybrid pipelines) वापरा. क्लासिकल मॉडेल्सना आकडेमोड करू द्या आणि LLMs चा वापर तर्क (reasoning) आणि स्पष्टीकरणासाठी करा.
स्रोत: https://arxiv.org/abs/2606.19509
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi