𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Translated for your language. Read the original.

AI-assisted draft.

-14 h1min read

Qwen 2.5 7B ਦਾ ਕਨਫੀਡੈਂਸ ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਹੈ

ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ (Large language models) ਅਕਸਰ ਇਸ ਬਾਰੇ ਗਲਤ ਜਾਣਕਾਰੀ ਦਿੰਦੇ ਹਨ ਕਿ ਉਹ ਕਿੰਨੇ ਯਕੀਨੀ ਹਨ।

ਮਿਨੀਸੋਟਾ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਇੱਕ ਨਵੇਂ ਅਧਿਐਨ ਤੋਂ Qwen 2.5 7B ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਖਾਮੀ ਦਾ ਪਤਾ ਲੱਗਾ ਹੈ। ਜਦੋਂ ਇਹ ਮਾਡਲ ਕਲੀਨਿਕਲ ਡੇਟਾ (clinical data) ਨਾਲ ਕੰਮ ਕਰਦਾ ਹੈ, ਤਾਂ ਇਸਦੇ ਕਨਫੀਡੈਂਸ ਸਕੋਰ ਲਗਭਗ ਇੱਕੋ ਜਿਹੇ ਰਹਿੰਦੇ ਹਨ।

ਮਾਡਲ 0.856 ਅਤੇ 0.937 ਦੇ ਵਿਚਕਾਰ ਕਨਫੀਡੈਂਸ ਦਰਜ ਕਰਦਾ ਹੈ। ਇਹ ਉਦੋਂ ਵੀ ਹੁੰਦਾ ਹੈ ਜਦੋਂ ਮਾਡਲ ਗਲਤ ਹੁੰਦਾ ਹੈ।

ਖੋਜ ਦੇ ਮੁੱਖ ਨਤੀਜੇ:

ਮਾਡਲ 'epistemically uncalibrated' ਹੈ। ਇਸਦੀ ਯਕੀਨੀਅਤ ਸਹੀ ਹੋਣ ਦੀ ਬਜਾਏ ਪ੍ਰੋਂਪਟ ਫਾਰਮੈਟ (prompt format) 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ।
ਉੱਚ ਕਨਫੀਡੈਂਸ ਦਾ ਮਤਲਬ ਉੱਚ ਸਹੀਅਤਾ (accuracy) ਨਹੀਂ ਹੈ।
ਮਾਡਲ ਸੌਖੇ ਮਾਮਲਿਆਂ ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਧ ਯਕੀਨੀ ਹੋ ਕੇ ਗਲਤੀ ਕਰਦਾ ਹੈ।
ਸਟ੍ਰਕਚਰਡ ਟੈਬੂਲਰ ਡੇਟਾ (structured tabular data) 'ਤੇ XGBoost ਵਰਗੇ ਰਵਾਇਤੀ ਮਾਡਲ LLMs ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ।

ਅਜਿਹਾ ਕਿਉਂ ਹੁੰਦਾ ਹੈ?

LLMs ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਤੋਂ ਸਿੱਖਦੇ ਹਨ। ਉਹਨਾਂ ਵਿੱਚ ਕਲੀਨਿਕਲ ਅੰਕੜਿਆਂ ਦੀਆਂ ਲਾਈਨਾਂ (rows) ਲਈ ਸਹੀ ਸਮਝ ਦੀ ਕਮੀ ਹੁੰਦੀ ਹੈ। ਉਹ ਅਸਲ ਡੇਟਾ ਸਬੂਤਾਂ ਦੀ ਬਜਾਏ ਭਾਸ਼ਾਈ ਪੈਟਰਨਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ।

ਇਹ ਸਿਹਤ ਸੰਭਾਲ (healthcare) ਵਿੱਚ ਇੱਕ ਖਤਰਾ ਪੈਦਾ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਕਿਸੇ ਮਾਡਲ ਦੇ ਕਨਫੀਡੈਂਸ ਸਕੋਰ 'ਤੇ ਭਰੋਸਾ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਇੱਕ ਗਲਤ ਜਵਾਬ ਨੂੰ ਸੱਚ ਮੰਨ ਸਕਦੇ ਹੋ।

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਾਡਲ ਨੂੰ ਦੁਬਾਰਾ ਸਿਖਲਾਈ (retraining) ਦਿੱਤੇ ਬਿਨਾਂ ਇਸ ਨੂੰ ਠੀਕ ਕਰਨ ਦਾ ਇੱਕ ਤਰੀਕਾ ਲੱਭ ਲਿਆ ਹੈ:

Few-shot ਉਦਾਹਰਣਾਂ ਨੂੰ SHAP attribution injection ਨਾਲ ਜੋੜੋ।
ਇਸ ਨਾਲ ਸਹੀਅਤਾ (accuracy) 49% ਤੋਂ ਵਧ ਕੇ 75.3% ਹੋ ਗਈ।
Cross-model calibrator ਦੀ ਵਰਤੋਂ ਕਰੋ।
LLM ਦੀ ਤੁਲਨਾ ਇੱਕ ਕਲਾਸੀਕਲ ML ਮਾਡਲ ਨਾਲ ਕਰਕੇ, ਤੁਸੀਂ ਪਤਾ ਲਗਾ ਸਕਦੇ ਹੋ ਕਿ LLM ਕਦੋਂ ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਹੈ।
ਇਸ ਤਰੀਕੇ ਨੇ ਗਲਤੀ ਦੀ ਦਰ (error rate) ਨੂੰ ਕਾਫ਼ੀ ਘਟਾ ਦਿੱਤਾ।

ਸਿੱਖਿਆ ਸਧਾਰਨ ਹੈ। ਸਟ੍ਰਕਚਰਡ ਡੇਟਾ ਲਈ ਲਿਖੇ ਹੋਏ ਕਨਫੀਡੈਂਸ ਸਕੋਰਾਂ 'ਤੇ ਭਰੋਸਾ ਨਾ ਕਰੋ। ਹਾਈਬ੍ਰਿਡ ਪਾਈਪਲਾਈਨਾਂ (hybrid pipelines) ਦੀ ਵਰਤੋਂ ਕਰੋ। ਅੰਕੜਿਆਂ ਲਈ ਕਲਾਸੀਕਲ ਮਾਡਲਾਂ ਨੂੰ ਵਰਤੋ ਅਤੇ ਤਰਕ (reasoning) ਅਤੇ ਵਿਆਖਿਆ ਲਈ LLMs ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਸਰੋਤ: https://arxiv.org/abs/2606.19509

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

𝗧𝗵𝗲 𝗧𝗲𝗹𝗹 𝗪𝗲 𝗧𝗿𝗮𝗶𝗻𝗲𝗱 𝗢𝘂𝘁

ਤੁਹਾਡਾ LLM ਸਹੀ ਸੀ, ਪਰ ਕੀ ਇਹ ਸਹੀ ਕਾਰਨ ਕਰਕੇ ਸਹੀ ਸੀ?