𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 ਦੀ ਭਰੋਸੇਯੋਗਤਾ 2026 ਵਿੱਚ

LLM-as-Judge ਅੱਜਕੱਲ੍ਹ ਲਗਭਗ ਹਰ ਲੀਡਰਬੋਰਡ ਅਤੇ ਰਿਵਾਰਡ ਮਾਡਲ ਨੂੰ ਚਲਾ ਰਿਹਾ ਹੈ। ਜੂਨ 2026 ਦੇ ਅੱਠ ਨਵੇਂ ਅਧਿਐਨ ਇੱਕ ਵੱਡੀ ਸਮੱਸਿਆ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਇਹ ਜੱਜ ਅਕਸਰ ਭਰੋਸੇਯੋਗ ਨਹੀਂ ਹੁੰਦੇ।

ਸਭ ਤੋਂ ਵੱਡੀ ਖੋਜ: ਜੱਜ ਆਪਣੇ ਆਪ ਨਾਲ ਹੀ ਉਨੀ ਵਾਰ ਅਸਹਿਮਤ ਹੁੰਦੇ ਹਨ ਜਿੰਨੀ ਵਾਰ ਸਿੱਕਾ ਉਛਾਲਣ 'ਤੇ ਹੈੱਡ ਜਾਂ ਟੇਲ ਆਉਂਦਾ ਹੈ। ਇੱਕ ਅਧਿਐਨ ਵਿੱਚ 29 ਕੰਮਾਂ (tasks) ਲਈ ਦੋ OpenAI ਜੱਜਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ ਸੀ। ਉਨ੍ਹਾਂ ਨੇ ਹਰੇਕ ਲਈ 50 ਟਰਾਇਲ ਕੀਤੇ। ਨਤੀਜੇ ਇੰਨੇ ਅਸੰਗਤ ਸਨ ਕਿ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇਸਨੂੰ "The Coin Flip Judge" ਕਿਹਾ।

ਇੱਥੇ ਉਹ ਮੁੱਖ ਤਰੀਕੇ ਹਨ ਜਿਨ੍ਹਾਂ ਨਾਲ ਇਹ ਜੱਜ ਅਸਫਲ ਹੁੰਦੇ ਹਨ:

ਤੁਹਾਨੂੰ ਕਿਵੇਂ ਕੰਮ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ:

ਇਹ ਪੁੱਛਣਾ ਬੰਦ ਕਰੋ ਕਿ ਕਿਹੜਾ ਜੱਜ ਸਭ ਤੋਂ ਵਧੀਆ ਹੈ। ਇਹ ਪੁੱਛੋ ਕਿ ਕਿਹੜਾ ਟੂਲ ਤੁਹਾਨੂੰ ਮਨੁੱਖੀ ਲੇਬਲਾਂ ਦੇ ਵਿਰੁੱਧ ਨਤੀਜਿਆਂ ਦੀ ਸਭ ਤੋਂ ਤੇਜ਼ੀ ਨਾਲ ਪੁਸ਼ਟੀ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।

ਸਰੋਤ: https://dev.to/bean_bean/llm-as-judge-reliability-in-