Qwen 2.5 7B ਦਾ ਕਨਫੀਡੈਂਸ ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਹੈ

ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ (Large language models) ਅਕਸਰ ਇਸ ਬਾਰੇ ਗਲਤ ਜਾਣਕਾਰੀ ਦਿੰਦੇ ਹਨ ਕਿ ਉਹ ਕਿੰਨੇ ਯਕੀਨੀ ਹਨ।

ਮਿਨੀਸੋਟਾ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਇੱਕ ਨਵੇਂ ਅਧਿਐਨ ਤੋਂ Qwen 2.5 7B ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਖਾਮੀ ਦਾ ਪਤਾ ਲੱਗਾ ਹੈ। ਜਦੋਂ ਇਹ ਮਾਡਲ ਕਲੀਨਿਕਲ ਡੇਟਾ (clinical data) ਨਾਲ ਕੰਮ ਕਰਦਾ ਹੈ, ਤਾਂ ਇਸਦੇ ਕਨਫੀਡੈਂਸ ਸਕੋਰ ਲਗਭਗ ਇੱਕੋ ਜਿਹੇ ਰਹਿੰਦੇ ਹਨ।

ਮਾਡਲ 0.856 ਅਤੇ 0.937 ਦੇ ਵਿਚਕਾਰ ਕਨਫੀਡੈਂਸ ਦਰਜ ਕਰਦਾ ਹੈ। ਇਹ ਉਦੋਂ ਵੀ ਹੁੰਦਾ ਹੈ ਜਦੋਂ ਮਾਡਲ ਗਲਤ ਹੁੰਦਾ ਹੈ।

ਖੋਜ ਦੇ ਮੁੱਖ ਨਤੀਜੇ:

  • ਮਾਡਲ 'epistemically uncalibrated' ਹੈ। ਇਸਦੀ ਯਕੀਨੀਅਤ ਸਹੀ ਹੋਣ ਦੀ ਬਜਾਏ ਪ੍ਰੋਂਪਟ ਫਾਰਮੈਟ (prompt format) 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ।
  • ਉੱਚ ਕਨਫੀਡੈਂਸ ਦਾ ਮਤਲਬ ਉੱਚ ਸਹੀਅਤਾ (accuracy) ਨਹੀਂ ਹੈ।
  • ਮਾਡਲ ਸੌਖੇ ਮਾਮਲਿਆਂ ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਧ ਯਕੀਨੀ ਹੋ ਕੇ ਗਲਤੀ ਕਰਦਾ ਹੈ।
  • ਸਟ੍ਰਕਚਰਡ ਟੈਬੂਲਰ ਡੇਟਾ (structured tabular data) 'ਤੇ XGBoost ਵਰਗੇ ਰਵਾਇਤੀ ਮਾਡਲ LLMs ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ।

ਅਜਿਹਾ ਕਿਉਂ ਹੁੰਦਾ ਹੈ?

LLMs ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਤੋਂ ਸਿੱਖਦੇ ਹਨ। ਉਹਨਾਂ ਵਿੱਚ ਕਲੀਨਿਕਲ ਅੰਕੜਿਆਂ ਦੀਆਂ ਲਾਈਨਾਂ (rows) ਲਈ ਸਹੀ ਸਮਝ ਦੀ ਕਮੀ ਹੁੰਦੀ ਹੈ। ਉਹ ਅਸਲ ਡੇਟਾ ਸਬੂਤਾਂ ਦੀ ਬਜਾਏ ਭਾਸ਼ਾਈ ਪੈਟਰਨਾਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ।

ਇਹ ਸਿਹਤ ਸੰਭਾਲ (healthcare) ਵਿੱਚ ਇੱਕ ਖਤਰਾ ਪੈਦਾ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਕਿਸੇ ਮਾਡਲ ਦੇ ਕਨਫੀਡੈਂਸ ਸਕੋਰ 'ਤੇ ਭਰੋਸਾ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਇੱਕ ਗਲਤ ਜਵਾਬ ਨੂੰ ਸੱਚ ਮੰਨ ਸਕਦੇ ਹੋ।

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਾਡਲ ਨੂੰ ਦੁਬਾਰਾ ਸਿਖਲਾਈ (retraining) ਦਿੱਤੇ ਬਿਨਾਂ ਇਸ ਨੂੰ ਠੀਕ ਕਰਨ ਦਾ ਇੱਕ ਤਰੀਕਾ ਲੱਭ ਲਿਆ ਹੈ:

  • Few-shot ਉਦਾਹਰਣਾਂ ਨੂੰ SHAP attribution injection ਨਾਲ ਜੋੜੋ।
  • ਇਸ ਨਾਲ ਸਹੀਅਤਾ (accuracy) 49% ਤੋਂ ਵਧ ਕੇ 75.3% ਹੋ ਗਈ।
  • Cross-model calibrator ਦੀ ਵਰਤੋਂ ਕਰੋ।
  • LLM ਦੀ ਤੁਲਨਾ ਇੱਕ ਕਲਾਸੀਕਲ ML ਮਾਡਲ ਨਾਲ ਕਰਕੇ, ਤੁਸੀਂ ਪਤਾ ਲਗਾ ਸਕਦੇ ਹੋ ਕਿ LLM ਕਦੋਂ ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਹੈ।
  • ਇਸ ਤਰੀਕੇ ਨੇ ਗਲਤੀ ਦੀ ਦਰ (error rate) ਨੂੰ ਕਾਫ਼ੀ ਘਟਾ ਦਿੱਤਾ।

ਸਿੱਖਿਆ ਸਧਾਰਨ ਹੈ। ਸਟ੍ਰਕਚਰਡ ਡੇਟਾ ਲਈ ਲਿਖੇ ਹੋਏ ਕਨਫੀਡੈਂਸ ਸਕੋਰਾਂ 'ਤੇ ਭਰੋਸਾ ਨਾ ਕਰੋ। ਹਾਈਬ੍ਰਿਡ ਪਾਈਪਲਾਈਨਾਂ (hybrid pipelines) ਦੀ ਵਰਤੋਂ ਕਰੋ। ਅੰਕੜਿਆਂ ਲਈ ਕਲਾਸੀਕਲ ਮਾਡਲਾਂ ਨੂੰ ਵਰਤੋ ਅਤੇ ਤਰਕ (reasoning) ਅਤੇ ਵਿਆਖਿਆ ਲਈ LLMs ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਸਰੋਤ: https://arxiv.org/abs/2606.19509

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi