𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

ಇಂದು ಬಹುತೇಕ ಎಲ್ಲಾ ಲೀಡರ್‌ಬೋರ್ಡ್‌ಗಳು ಮತ್ತು ರಿವಾರ್ಡ್ ಮಾಡೆಲ್‌ಗಳು LLM-as-Judge ಮೂಲಕವೇ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿವೆ. 2026ರ ಜೂನ್‌ನಲ್ಲಿ ಹೊರಬಂದ ಎಂಟು ಹೊಸ ಅಧ್ಯಯನಗಳು ಒಂದು ದೊಡ್ಡ ಸಮಸ್ಯೆಯನ್ನು ಎತ್ತಿ ತೋರಿಸಿವೆ. ಈ ತೀರ್ಪುಗಾರರು (judges) ಆಗಾಗ್ಗೆ ನಂಬಿಕೆಗೆ ಅರ್ಹರಾಗಿರುವುದಿಲ್ಲ.

ಪ್ರಮುಖ ಸಂಶೋಧನೆ: ತೀರ್ಪುಗಾರರು ತಾವೇ ನೀಡಿದ ತೀರ್ಪಿನೊಂದಿಗೆ ಒಪ್ಪಿಗೆ ಸೂಚಿಸದೆ, ಅಷ್ಟೇ ಅನಿಶ್ಚಿತವಾಗಿ ವರ್ತಿಸುತ್ತಾರೆ (ಒಂದು ನಾಣ್ಯವನ್ನು ಎಸೆದಾಗ ಬರುವ ಫಲಿತಾಂಶದಂತೆ). ಒಂದು ಅಧ್ಯಯನವು 29 ಕಾರ್ಯಗಳಿಗಾಗಿ ಎರಡು OpenAI ತೀರ್ಪುಗಾರರನ್ನು ಬಳಸಿತು. ಪ್ರತಿಯೊಂದಕ್ಕೂ ಅವರು 50 ಪ್ರಯೋಗಗಳನ್ನು ನಡೆಸಿದರು. ಫಲಿತಾಂಶಗಳು ಎಷ್ಟು ಅಸ್ಥಿರವಾಗಿದ್ದವು ಎಂದರೆ ಸಂಶೋಧಕರು ಇದನ್ನು "The Coin Flip Judge" ಎಂದು ಕರೆದರು.

ಈ ತೀರ್ಪುಗಾರರು ವಿಫಲವಾಗುವ ಪ್ರಮುಖ ವಿಧಾನಗಳು ಇಲ್ಲಿವೆ:

ನೀವು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸಬೇಕು:

ಯಾವ ತೀರ್ಪುಗಾರ ಉತ್ತಮ ಎಂದು ಕೇಳುವುದನ್ನು ನಿಲ್ಲಿಸಿ. ಮಾನವ ಲೇಬಲ್‌ಗಳ ವಿರುದ್ಧ ಫಲಿತಾಂಶಗಳನ್ನು ಅತ್ಯಂತ ವೇಗವಾಗಿ ಪರಿಶೀಲಿಸಲು ಯಾವ ಸಾಧನವು ನಿಮಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ ಎಂದು ಕೇಳಿ.

ಮೂಲ: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca