𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

📅3 hours ago⏱1 min read

𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

ಇಂದು ಬಹುತೇಕ ಎಲ್ಲಾ ಲೀಡರ್‌ಬೋರ್ಡ್‌ಗಳು ಮತ್ತು ರಿವಾರ್ಡ್ ಮಾಡೆಲ್‌ಗಳು LLM-as-Judge ಮೂಲಕವೇ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿವೆ. 2026ರ ಜೂನ್‌ನಲ್ಲಿ ಹೊರಬಂದ ಎಂಟು ಹೊಸ ಅಧ್ಯಯನಗಳು ಒಂದು ದೊಡ್ಡ ಸಮಸ್ಯೆಯನ್ನು ಎತ್ತಿ ತೋರಿಸಿವೆ. ಈ ತೀರ್ಪುಗಾರರು (judges) ಆಗಾಗ್ಗೆ ನಂಬಿಕೆಗೆ ಅರ್ಹರಾಗಿರುವುದಿಲ್ಲ.

ಪ್ರಮುಖ ಸಂಶೋಧನೆ: ತೀರ್ಪುಗಾರರು ತಾವೇ ನೀಡಿದ ತೀರ್ಪಿನೊಂದಿಗೆ ಒಪ್ಪಿಗೆ ಸೂಚಿಸದೆ, ಅಷ್ಟೇ ಅನಿಶ್ಚಿತವಾಗಿ ವರ್ತಿಸುತ್ತಾರೆ (ಒಂದು ನಾಣ್ಯವನ್ನು ಎಸೆದಾಗ ಬರುವ ಫಲಿತಾಂಶದಂತೆ). ಒಂದು ಅಧ್ಯಯನವು 29 ಕಾರ್ಯಗಳಿಗಾಗಿ ಎರಡು OpenAI ತೀರ್ಪುಗಾರರನ್ನು ಬಳಸಿತು. ಪ್ರತಿಯೊಂದಕ್ಕೂ ಅವರು 50 ಪ್ರಯೋಗಗಳನ್ನು ನಡೆಸಿದರು. ಫಲಿತಾಂಶಗಳು ಎಷ್ಟು ಅಸ್ಥಿರವಾಗಿದ್ದವು ಎಂದರೆ ಸಂಶೋಧಕರು ಇದನ್ನು "The Coin Flip Judge" ಎಂದು ಕರೆದರು.

ಈ ತೀರ್ಪುಗಾರರು ವಿಫಲವಾಗುವ ಪ್ರಮುಖ ವಿಧಾನಗಳು ಇಲ್ಲಿವೆ:

ಕಡಿಮೆ ನಂಬಿಕಾರ್ಹತೆ: ಸೆಟ್ಟಿಂಗ್‌ಗಳನ್ನು ಸ್ಥಿರಗೊಳಿಸಿದರೂ ಸಹ, ತೀರ್ಪುಗಾರರು ಒಂದೇ ಇನ್‌ಪುಟ್‌ಗೆ ವಿಭಿನ್ನ ವಿಜೇತರನ್ನು ಸೂಚಿಸುತ್ತಾರೆ. ಕೇವಲ ಒಂದು ಬಾರಿ ನಡೆಸಿದ ಲೀಡರ್‌ಬೋರ್ಡ್‌ನ ಮುನ್ನಡೆವು ಕೇವಲ ಅನಿಶ್ಚಿತತೆಯೇ (noise) ಆಗಿರಬಹುದು.
ಕಂಪ್ಯೂಟ್ ಬಯಾಸ್ (Compute bias): ಮೌಲ್ಯಮಾಪನವು ಎಷ್ಟು ಕಂಪ್ಯೂಟ್ ಅನ್ನು ಅನುಮತಿಸುತ್ತದೆ ಎಂಬುದರ ಮೇಲೆ ಒಂದು ಮಾಡೆಲ್ ಉತ್ತಮವಾಗಿ ಅಥವಾ ಕಳಪೆಯಾಗಿ ಕಾಣಿಸಬಹುದು. ಪರೀಕ್ಷೆಯ ಮಿತಿ ತುಂಬಾ ಕಡಿಮೆ ಇದ್ದರೆ, ನೀವು ಮಾಡೆಲ್‌ನ ನಿಜವಾದ ಸಾಮರ್ಥ್ಯವನ್ನು ಗುರುತಿಸಲು ಸಾಧ್ಯವಾಗುವುದಿಲ್ಲ.
ಗುರಿಗಳ ನಡುವಿನ ವ್ಯತ್ಯಾಸ (Goal mismatch): ಶಿಕ್ಷಣ ಕ್ಷೇತ್ರದಲ್ಲಿ, ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಲ್ಲಿ ಗೆಲ್ಲುವ ಮಾಡೆಲ್‌ಗಳು ವಿದ್ಯಾರ್ಥಿಗಳಿಗೆ ನಿಜವಾಗಿ ಕಲಿಸಲು ವಿಫಲವಾಗಬಹುದು. ಅವು ಕಾರ್ಯಗಳನ್ನು ಪೂರ್ಣಗೊಳಿಸುತ್ತವೆ ಆದರೆ ಕಲಿಕೆಗೆ ಬೆಂಬಲ ನೀಡುವುದಿಲ್ಲ.
ಬ್ರ್ಯಾಂಡ್ ಬಯಾಸ್ (Brand bias): ತೀರ್ಪುಗಾರರು GPT ಅಥವಾ Claude ನಂತಹ ಪ್ರಸಿದ್ಧ ಹೆಸರುಗಳಿಗೆ ಹೆಚ್ಚಿನ ಆದ್ಯತೆ ನೀಡುತ್ತಾರೆ. ಇದು ಫಲಿತಾಂಶಗಳನ್ನು ಏರುಪೇರು ಮಾಡುತ್ತದೆ.

ನೀವು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸಬೇಕು:

ಏಕಾಂಗಿ ಡೆವಲಪರ್‌ಗಳಿಗಾಗಿ: LLM-as-Judge ಅನ್ನು ಬಿಟ್ಟುಬಿಡಿ. ಬದಲಾಗಿ 30 ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು ಮ್ಯಾನುಯಲ್ ಆಗಿ ಲೇಬಲ್ ಮಾಡಿ. ಕೆಟ್ಟ ತೀರ್ಪುಗಾರನು ಸುಳ್ಳು ಆತ್ಮವಿಶ್ವಾಸವನ್ನು ಮೂಡಿಸುತ್ತಾನೆ.
ತಂಡಗಳಿಗಾಗಿ: ಮಾನವ ಲೇಬಲಿಂಗ್ ಅನ್ನು ಸುಲಭಗೊಳಿಸುವ ಸಾಧನವನ್ನು (tool) ಆರಿಸಿ. ಮ್ಯಾನುಯಲ್ ಕೆಲಸ ಮಾಡುವುದಕ್ಕಿಂತ ಸಾಧನಗಳ ಬಳಕೆ ಕಡಿಮೆ ಮುಖ್ಯವಾಗುತ್ತದೆ.
ಹೆಚ್ಚಿನ ಪ್ರಮಾಣದ ಕಾರ್ಯಗಳಿಗಾಗಿ: ಪ್ರತಿ ಐಟಂಗೆ ಕನಿಷ್ಠ 20 ರಿಂದ 50 ಪ್ರಯೋಗಗಳನ್ನು ನಡೆಸಿ. ನಿಜವಾದ ವಿಜೇತರನ್ನು ಕಂಡುಹಿಡಿಯಲು ಬಹುಮತದ (majority vote) ವಿಧಾನವನ್ನು ಬಳಸಿ.
ಉದ್ಯಮ ಮಾಲೀಕರಿಗಾಗಿ: ಒಂದು ವೆಂಡರ್ 10 ಅಂಕಗಳಿಗಿಂತ ಕಡಿಮೆ ಮುನ್ನಡೆಯನ್ನು ಪ್ರತಿಪಾದಿಸಿದರೆ, ಅದನ್ನು ಸಮಾನ ಎಂದು ಪರಿಗಣಿಸಿ. ತೀರ್ಪುಗಾರರಿಂದ ಉಂಟಾಗುವ ಅನಿಶ್ಚಿತತೆಯು (noise) ಆ ಮುನ್ನಡೆಯರಿಗಿಂತ ಹೆಚ್ಚಾಗಿರಬಹುದು.

ಯಾವ ತೀರ್ಪುಗಾರ ಉತ್ತಮ ಎಂದು ಕೇಳುವುದನ್ನು ನಿಲ್ಲಿಸಿ. ಮಾನವ ಲೇಬಲ್‌ಗಳ ವಿರುದ್ಧ ಫಲಿತಾಂಶಗಳನ್ನು ಅತ್ಯಂತ ವೇಗವಾಗಿ ಪರಿಶೀಲಿಸಲು ಯಾವ ಸಾಧನವು ನಿಮಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ ಎಂದು ಕೇಳಿ.

ಮೂಲ: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

ನಿಮಗೆ ಬೇಕಾದ LLM ಬೆಂಚ್‌ಮಾರ್ಕ್ ಸ್ಕೋರ್ ಅಸ್ತಿತ್ವದಲ್ಲಿಲ್ಲ

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲