Qwen 2.5 7B चा आत्मविश्वास अविश्वसनीय आहे

Translated for your language. Read the original.

AI-assisted draft.

१४ तासांपूर्वी1min read

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

लार्ज लँग्वेज मॉडेल्स (LLMs) ते किती खात्रीशीर आहेत याबद्दल अनेकदा चुकीची माहिती देतात.

युनिव्हर्सिटी ऑफ मिनेसोटाचा एक नवीन अभ्यास Qwen 2.5 7B मधील एक मोठी त्रुटी दर्शवतो. जेव्हा हे मॉडेल क्लिनिकल डेटावर (clinical data) काम करते, तेव्हा त्याचे कॉन्फिडन्स स्कोअर (confidence scores) जवळजवळ सारखेच राहतात.

मॉडेल 0.856 आणि 0.937 दरम्यान कॉन्फिडन्स रिपोर्ट करते. मॉडेल चुकीचे असतानाही असे घडते.

संशोधनातील मुख्य निष्कर्ष:

मॉडेल 'एपिस्टेमिकली अनकॅलिब्रेटेड' (epistemically uncalibrated) आहे. त्याची निश्चितता अचूकतेपेक्षा प्रॉम्प्ट फॉरमॅटवर (prompt format) अवलंबून असते.
उच्च कॉन्फिडन्स म्हणजे उच्च अचूकता (accuracy) असा होत नाही.
सोप्या प्रकरणांमध्ये मॉडेल सर्वाधिक आत्मविश्वासाने चुकीचे उत्तर देते.
स्ट्रक्चर्ड टॅब्युलर डेटावर (structured tabular data) XGBoost सारखी पारंपारिक मॉडेल्स LLMs पेक्षा चांगली कामगिरी करतात.

हे का घडते?

LLMs नैसर्गिक भाषा (natural language) मधून शिकतात. क्लिनिकल नंबरच्या ओळींबद्दल (rows of clinical numbers) त्यांच्याकडे अंतर्ज्ञान (intuation) नसते. ते प्रत्यक्ष डेटा पुराव्यांऐवजी भाषिक पॅटर्नवर (linguistic patterns) अवलंबून असतात.

यामुळे आरोग्यसेवेमध्ये (healthcare) धोका निर्माण होतो. जर तुम्ही मॉडेलच्या कॉन्फिडन्स स्कोअरवर विश्वास ठेवला, तर तुम्ही चुकीचे उत्तर तथ्य (fact) म्हणून स्वीकारू शकता.

संशोधकांना मॉडेल पुन्हा प्रशिक्षित (retraining) न करता हे सुधारण्याचा मार्ग सापडला आहे:

Few-shot उदाहरणांना SHAP attribution injection सोबत जोडा.
यामुळे अचूकता 49% वरून 75.3% पर्यंत वाढली.
क्रॉस-मॉडेल कॅलिब्रेटर (cross-model calibrator) वापरा.
LLM ची तुलना क्लासिकल ML मॉडेलशी करून, LLM कधी अविश्वसनीय आहे हे तुम्ही शोधू शकता.
या पद्धतीमुळे त्रुटींचे प्रमाण (error rate) लक्षणीयरीत्या कमी झाले.

याचा निष्कर्ष साधा आहे. स्ट्रक्चर्ड डेटासाठी केवळ शब्दांत व्यक्त केलेल्या कॉन्फिडन्स स्कोअरवर विश्वास ठेवू नका. हायब्रिड पाईपलाईन्स (hybrid pipelines) वापरा. क्लासिकल मॉडेल्सना आकडेमोड करू द्या आणि LLMs चा वापर तर्क (reasoning) आणि स्पष्टीकरणासाठी करा.

स्रोत: https://arxiv.org/abs/2606.19509

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

Qwen 2.5 7B चा आत्मविश्वास अविश्वसनीय आहे

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

LLM असुरक्षितता १०१

तुमचे AI कॉन्फिडन्स स्कोअर का खोटे बोलतात?

आम्ही प्रशिक्षण देऊन काढून टाकलेला तो संकेत

तुमचे LLM बरोबर होते, पण ते योग्य कारणाने बरोबर होते का?