𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 ਦੀ ਭਰੋਸੇਯੋਗਤਾ 2026 ਵਿੱਚ
LLM-as-Judge ਅੱਜਕੱਲ੍ਹ ਲਗਭਗ ਹਰ ਲੀਡਰਬੋਰਡ ਅਤੇ ਰਿਵਾਰਡ ਮਾਡਲ ਨੂੰ ਚਲਾ ਰਿਹਾ ਹੈ। ਜੂਨ 2026 ਦੇ ਅੱਠ ਨਵੇਂ ਅਧਿਐਨ ਇੱਕ ਵੱਡੀ ਸਮੱਸਿਆ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਇਹ ਜੱਜ ਅਕਸਰ ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਹੁੰਦੇ।
ਸਭ ਤੋਂ ਵੱਡੀ ਖੋਜ: ਜੱਜ ਆਪਣੇ ਆਪ ਨਾਲ ਹੀ ਉਨੀ ਵਾਰ ਅਸਹਿਮਤ ਹੁੰਦੇ ਹਨ ਜਿੰਨੀ ਵਾਰ ਸਿੱਕਾ ਉਛਾਲਣ 'ਤੇ ਹੈੱਡ ਜਾਂ ਟੇਲ ਆਉਂਦਾ ਹੈ। ਇੱਕ ਅਧਿਐਨ ਵਿੱਚ 29 ਕੰਮਾਂ (tasks) ਲਈ ਦੋ OpenAI ਜੱਜਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ ਸੀ। ਉਨ੍ਹਾਂ ਨੇ ਹਰੇਕ ਲਈ 50 ਟਰਾਇਲ ਕੀਤੇ। ਨਤੀਜੇ ਇੰਨੇ ਅਸੰਗਤ ਸਨ ਕਿ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇਸਨੂੰ "The Coin Flip Judge" ਕਿਹਾ।
ਇੱਥੇ ਉਹ ਮੁੱਖ ਤਰੀਕੇ ਹਨ ਜਿਨ੍ਹਾਂ ਨਾਲ ਇਹ ਜੱਜ ਅਸਫਲ ਹੁੰਦੇ ਹਨ:
- ਘੱਟ ਭਰੋਸੇਯੋਗਤਾ: ਸੈਟਿੰਗਾਂ ਫਿਕਸ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਜੱਜ ਇੱਕੋ ਇਨਪੁੱਟ ਲਈ ਵੱਖ-ਵੱਖ ਜੇਤੂ ਦੱਸਦੇ ਹਨ। ਇੱਕ ਵਾਰ ਚਲਾਏ ਗਏ ਲੀਡਰਬੋਰਡ ਦੀ ਲੀਡ ਅਕਸਰ ਸਿਰਫ ਸ਼ੋਰ (noise) ਹੁੰਦੀ ਹੈ।
- ਕੰਪਿਊਟ ਬਾਇਸ (Compute bias): ਇੱਕ ਮਾਡਲ ਉਦੋਂ ਬਿਹਤਰ ਜਾਂ ਮਾੜਾ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ ਜਦੋਂ ਇਹ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਕਿ ਮੁਲਾਂਕਣ ਕਿੰਨੀ ਕੰਪਿਊਟਿੰਗ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਜੇਕਰ ਟੈਸਟ ਦੀ ਸੀਮਾ ਬਹੁਤ ਘੱਟ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਮਾਡਲ ਦੀ ਅਸਲ ਯੋਗਤਾ ਨੂੰ ਗੁਆ ਦਿੰਦੇ ਹੋ।
- ਟੀਚੇ ਦਾ ਮੇਲ ਨਾ ਹੋਣਾ (Goal mismatch): ਸਿੱਖਿਆ ਦੇ ਖੇਤਰ ਵਿੱਚ, ਬੈਂਚਮਾਰਕ ਜਿੱਤਣ ਵਾਲੇ ਮਾਡਲ ਅਕਸਰ ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਅਸਲ ਵਿੱਚ ਪੜ੍ਹਾਉਣ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ। ਉਹ ਕੰਮਾਂ ਨੂੰ ਹੱਲ ਕਰਦੇ ਹਨ ਪਰ ਸਿੱਖਣ ਵਿੱਚ ਮਦਦ ਨਹੀਂ ਕਰਦੇ।
- ਬ੍ਰਾਂਡ ਬਾਇਸ (Brand bias): ਜੱਜ GPT ਜਾਂ Claude ਵਰਗੇ ਮਸ਼ਹੂਰ ਨਾਮਾਂ ਪ੍ਰਤੀ ਤਰਜੀਹ ਦਿਖਾਉਂਦੇ ਹਨ। ਇਹ ਨਤੀਜਿਆਂ ਨੂੰ ਇੱਕਤਰਫਾ ਕਰ ਦਿੰਦਾ ਹੈ।
ਤੁਹਾਨੂੰ ਕਿਵੇਂ ਕੰਮ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ:
- ਇਕੱਲੇ ਡਿਵੈਲਪਰਾਂ ਲਈ: LLM-as-Judge ਨੂੰ ਛੱਡ ਦਿਓ। ਇਸਦੀ ਬਜਾਏ 30 ਆਉਟਪੁੱਟਸ ਨੂੰ ਮੈਨੂਅਲੀ ਲੇਬਲ ਕਰੋ। ਇੱਕ ਮਾੜਾ ਜੱਜ ਗਲਤ ਭਰੋਸਾ ਪੈਦਾ ਕਰਦਾ ਹੈ।
- ਟੀਮਾਂ ਲਈ: ਅਜਿਹਾ ਟੂਲ ਚੁਣੋ ਜੋ ਮਨੁੱਖੀ ਲੇਬਲਿੰਗ ਨੂੰ ਆਸਾਨ ਬਣਾਵੇ। ਟੂਲਿੰਗ ਨਾਲੋਂ ਮੈਨੂਅਲ ਕੰਮ ਕਰਨਾ ਜ਼ਿਆਦਾ ਮਹੱਤਵਪੂਰਨ ਹੈ।
- ਵੱਧ ਵਾਲੀਅਮ ਵਾਲੇ ਕੰਮਾਂ ਲਈ: ਹਰੇਕ ਆਈਟਮ ਲਈ ਘੱਟੋ-ਘੱਟ 20 ਤੋਂ 50 ਟਰਾਇਲ ਚਲਾਓ। ਅਸਲ ਜੇਤੂ ਲੱਭਣ ਲਈ ਬਹੁਮਤ ਵੋਟ (majority vote) ਦੀ ਵਰਤੋਂ ਕਰੋ।
- ਕਾਰੋਬਾਰੀ ਮਾਲਕਾਂ ਲਈ: ਜੇਕਰ ਕੋਈ ਵੈਂਡਰ 10 ਪੁਆਇੰਟਾਂ ਤੋਂ ਘੱਟ ਦੀ ਲੀਡ ਦਾ ਦਾਅਵਾ ਕਰਦਾ ਹੈ, ਤਾਂ ਇਸਨੂੰ ਬਰਾਬਰੀ (tie) ਮੰਨੋ। ਜੱਜ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲਾ ਸ਼ੋਰ (noise) ਸ਼ਾਇਦ ਲੀਡ ਨਾਲੋਂ ਵੱਡਾ ਹੋਵੇਗਾ।
ਇਹ ਪੁੱਛਣਾ ਬੰਦ ਕਰੋ ਕਿ ਕਿਹੜਾ ਜੱਜ ਸਭ ਤੋਂ ਵਧੀਆ ਹੈ। ਇਹ ਪੁੱਛੋ ਕਿ ਕਿਹੜਾ ਟੂਲ ਤੁਹਾਨੂੰ ਮਨੁੱਖੀ ਲੇਬਲਾਂ ਦੇ ਵਿਰੁੱਧ ਨਤੀਜਿਆਂ ਦੀ ਸਭ ਤੋਂ ਤੇਜ਼ੀ ਨਾਲ ਪੁਸ਼ਟੀ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।