𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

📅3 hours ago⏱2 min read

ಲೀಡರ್‌ಬೋರ್ಡ್ ಸ್ಕೋರ್‌ಗಳು ಹೆಚ್ಚಾಗಿ ನಿಮ್ಮನ್ನು ವಂಚಿಸುತ್ತವೆ.

ಕಳೆದ ತಿಂಗಳು ನಾನು ಏಜೆಂಟಿಕ್ ಪೈಪ್‌ಲೈನ್ (agentic pipeline) ಗಾಗಿ ಮಾಡೆಲ್‌ಗಳನ್ನು ಪರೀಕ್ಷಿಸಿದೆ. ನಾನು ಜನಪ್ರಿಯ ಲೀಡರ್‌ಬೋರ್ಡ್‌ನಲ್ಲಿರುವ ಅತ್ಯುತ್ತಮ ಮಾಡೆಲ್ ಅನ್ನು ಆರಿಸಿಕೊಂಡೆ. ನಾನು ಅದನ್ನು ಅಳವಡಿಸಿದೆ. ಆದರೆ ಅದು ತಕ್ಷಣವೇ ಮೂಲಭೂತ ಟೂಲ್-ಬಳಕೆಯ (tool-use) ಕಾರ್ಯಗಳಲ್ಲಿ ವಿಫಲವಾಯಿತು.

ಆ ಸ್ಕೋರ್ ನಿಜವಾಗಿತ್ತು. ಆದರೆ ನನ್ನ ಅಗತ್ಯಗಳಿಗೆ ಆ ಸ್ಕೋರ್ ವ್ಯರ್ಥವಾಗಿತ್ತು.

ಹೆಚ್ಚಿನ ಸಾರ್ವಜನಿಕ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಮಾಡೆಲ್‌ಗಳನ್ನು ಪ್ರತ್ಯೇಕವಾಗಿ ಪರೀಕ್ಷಿಸುತ್ತವೆ. ಪ್ರೊಡಕ್ಷನ್‌ನಲ್ಲಿ (production), ನೀವು ಏಜೆಂಟ್‌ಗಳನ್ನು ಬಳಸುತ್ತೀರಿ. ಈ ಏಜೆಂಟ್‌ಗಳು ಟೂಲ್‌ಗಳನ್ನು ಕರೆಯುತ್ತವೆ, ವೆಬ್‌ನಲ್ಲಿ ಹುಡುಕುತ್ತವೆ ಮತ್ತು ಕೋಡ್ ಅನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುತ್ತವೆ. ಪ್ರಮಾಣಿತ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಇದನ್ನು ಅಳೆಯುವುದಿಲ್ಲ.

ಫೆಬ್ರವರಿ 2026 ರ LXT ವರದಿಯ ದತ್ತಾಂಶವು ಟೂಲ್ ಪ್ರವೇಶವನ್ನು (tool access) ಸಕ್ರಿಯಗೊಳಿಸಿದಾಗ ದೊಡ್ಡ ಅಂತರವನ್ನು ತೋರಿಸುತ್ತದೆ:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

ಟೂಲ್ ಪ್ರವೇಶವಿಲ್ಲದೆ, ಈ ಸ್ಕೋರ್‌ಗಳು ಕುಸಿಯುತ್ತವೆ. ಏಜೆಂಟ್‌ಗಳಿಗೆ ಟೂಲ್-ಸಹಾಯಿತ (tool-assisted) ಮತ್ತು ಟೂಲ್-ರಹಿತ (non-tool) ಸ್ಕೋರ್‌ಗಳ ನಡುವಿನ ಅಂತರವು ಮಾತ್ರ ಮುಖ್ಯವಾದ ಮೆಟ್ರಿಕ್ ಆಗಿದೆ.

BenchLM.ai ಇದನ್ನು ಖಚಿತಪಡಿಸುತ್ತದೆ. MMLU ನಂತಹ ಟ್ರಿವಿಯಾ ಅಥವಾ ಸ್ಥಿರ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಗೆಲ್ಲುವ ಮಾಡೆಲ್‌ಗಳು ಹೆಚ್ಚಾಗಿ ಕೇವಲ ಒಂದು ಫಂಕ್ಷನ್ ಕಾಲ್ (function call) ಬರೆಯುವಲ್ಲಿ ವಿಫಲವಾಗುತ್ತವೆ.

ನಿಮಗೆ ಇಮೇಲ್ ಬರೆಯಬೇಕಿದ್ದರೆ, ಪ್ರಮಾಣಿತ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಸಾಕು. ಆದರೆ ನೀವು ಏಜೆಂಟ್ ಅನ್ನು ನಿರ್ಮಿಸುತ್ತಿದ್ದರೆ, ಈ ಮೂರು ವಿಷಯಗಳ ಮೇಲೆ ಗಮನ ಹರಿಸಿ:

ಟೂಲ್ ಕಾಲ್ ವಿಶ್ವಾಸಾರ್ಹತೆ (Tool call reliability). ಒತ್ತಡದ ಸಂದರ್ಭದಲ್ಲಿ ಮಾಡೆಲ್ ಕರೆಗಳನ್ನು ಸರಿಯಾಗಿ ಫಾರ್ಮ್ಯಾಟ್ ಮಾಡಬಲ್ಲದೇ? ಅದು ದೋಷಗಳಿಂದ ಚೇತರಿಸಿಕೊಳ್ಳಬಲ್ಲದೇ?
ಕಾಂಟೆಕ್ಸ್ಟ್ ವಿಂಡೋ ವೆಚ್ಚಗಳು (Context window costs). MCP ಸರ್ವರ್‌ಗಳನ್ನು ಬಳಸುವುದರಿಂದ ಹೆಚ್ಚಿನ ಟೋಕನ್‌ಗಳು ಖರ್ಚಾಗುತ್ತವೆ. ಪ್ರತಿ ಟೂಲ್ ಕಾಲ್‌ನಲ್ಲಿ ನೀವು ಹೆಚ್ಚಿನ ಟೋಕನ್‌ಗಳನ್ನು ಬಳಸುತ್ತಿದ್ದರೆ, ದೊಡ್ಡ ಕಾಂಟೆಕ್ಸ್ಟ್ ವಿಂಡೋ ಒಂದು ಹೊರೆಯಾಗುತ್ತದೆ.
ಪ್ಲಾನಿಂಗ್ ನಿಖರತೆ (Planning fidelity). ಮಾಡೆಲ್ 5-ಹಂತದ ಯೋಜನೆಯನ್ನು ಅನುಸರಿಸಬಲ್ಲದೇ? ಹೆಚ್ಚಿನ ಮಾಡೆಲ್‌ಗಳು 3ನೇ ಹಂತದ ವೇಳೆಗೆ ದಾರಿಯನ್ನು ತಪ್ಪಿಸಿಕೊಳ್ಳುತ್ತವೆ.

ಸಾರ್ವಜನಿಕ ಲೀಡರ್‌ಬೋರ್ಡ್‌ಗಳನ್ನು ಮಾತ್ರ ನಿಮ್ಮ ಮಾರ್ಗದರ್ಶಿಯಾಗಿ ಬಳಸುವುದನ್ನು ನಿಲ್ಲಿಸಿ. ಬದಲಾಗಿ ಇದನ್ನು ಮಾಡಿ:

• ಒಂದು ಮಿನಿ-ಬೆಂಚ್‌ಮಾರ್ಕ್ ನಡೆಸಲು (Run a mini-benchmark). ನಿಮ್ಮ ಸ್ವಂತ ಲಾಗ್‌ಗಳಿಂದ 20 ರಿಂದ 50 ನೈಜ ಟೂಲ್ ಕಾಲ್‌ಗಳನ್ನು ಬಳಸಿ. ನಿಮ್ಮ ನಿರ್ದಿಷ್ಟ ಸ್ಕೀಮಾದ ಮೇಲೆ ನಿಖರತೆಯನ್ನು ಅಳೆಯಿರಿ.

• ದೋಷದ ಪರಿಸ್ಥಿತಿಗಳನ್ನು ಪರೀಕ್ಷಿಸಿ (Test error conditions). ಒಂದು ಟೂಲ್ ಖಾಲಿ ಫಲಿತಾಂಶ ಅಥವಾ ದೋಷವನ್ನು ನೀಡಿದಾಗ ಮಾಡೆಲ್ ಹೇಗೆ ವರ್ತಿಸುತ್ತದೆ ಎಂದು ನೋಡಿ.

• ಪ್ರತಿ ಕಾರ್ಯದ ವೆಚ್ಚವನ್ನು ಅಳೆಯಿರಿ (Measure cost per task). 5% ಉತ್ತಮವಾಗಿರುವ ಆದರೆ 3 ಪಟ್ಟು ಹೆಚ್ಚು ವೆಚ್ಚದ ಮಾಡೆಲ್ ಆಗಿರುವುದು ಹೆಚ್ಚಾಗಿ ತಪ್ಪು ನಿರ್ಧಾರವಾಗಿರುತ್ತದೆ.

• ನಿರ್ದಿಷ್ಟ ಲೀಡರ್‌ಬೋರ್ಡ್‌ಗಳನ್ನು ಬಳಸಿ. ಟೂಲ್-ಬಳಕೆಯ ಸ್ಕೋರ್‌ಗಳಿಗಾಗಿ ವಿಶೇಷವಾಗಿ LLM-stats.com ಅಥವಾ BenchLM.ai ಅನ್ನು ನೋಡಿ.

ನಿಮ್ಮ ಸ್ವಂತ ದತ್ತಾಂಶವನ್ನು ಪರೀಕ್ಷಿಸಲು ಒಂದು ಮಧ್ಯಾಹ್ನವನ್ನು ಮೀಸಲಿಡಿ. ಕೇವಲ ಕಾಗದದ ಮೇಲೆ ಚೆನ್ನಾಗಿ ಕಾಣುವ ಮಾಡೆಲ್ ಅನ್ನು ಡಿಬಗ್ ಮಾಡುವ ಒಂದು ವಾರದ ಸಮಯವನ್ನು ಇದು ಉಳಿಸುತ್ತದೆ.

ನೀವು ನಿಮ್ಮ ಮಾಡೆಲ್‌ಗಳನ್ನು ಹೇಗೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತೀರಿ? ಕಾಮೆಂಟ್‌ಗಳಲ್ಲಿ ತಿಳಿಸಿ.

Source: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-3neo

Optional learning community: https://t.me/GyaanSetuAi

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

Continue reading

𝗟𝗟𝗠 𝗚𝗔𝗧𝗘𝗪𝗔𝗬𝗦 𝗙𝗢𝗥 𝗔𝗜 𝗦𝗔𝗔𝗦

ಅತ್ಯಂತ ಶಕ್ತಿಯುತ ಮಾದರಿಯ ಮಿಥ್ಯ

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

ನಿಮಗೆ ಬೇಕಾದ LLM ಬೆಂಚ್‌ಮಾರ್ಕ್ ಸ್ಕೋರ್ ಅಸ್ತಿತ್ವದಲ್ಲಿಲ್ಲ