𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

ಲೀಡರ್‌ಬೋರ್ಡ್ ಸ್ಕೋರ್‌ಗಳು ಹೆಚ್ಚಾಗಿ ನಿಮ್ಮನ್ನು ವಂಚಿಸುತ್ತವೆ.

ಕಳೆದ ತಿಂಗಳು ನಾನು ಏಜೆಂಟಿಕ್ ಪೈಪ್‌ಲೈನ್ (agentic pipeline) ಗಾಗಿ ಮಾಡೆಲ್‌ಗಳನ್ನು ಪರೀಕ್ಷಿಸಿದೆ. ನಾನು ಜನಪ್ರಿಯ ಲೀಡರ್‌ಬೋರ್ಡ್‌ನಲ್ಲಿರುವ ಅತ್ಯುತ್ತಮ ಮಾಡೆಲ್ ಅನ್ನು ಆರಿಸಿಕೊಂಡೆ. ನಾನು ಅದನ್ನು ಅಳವಡಿಸಿದೆ. ಆದರೆ ಅದು ತಕ್ಷಣವೇ ಮೂಲಭೂತ ಟೂಲ್-ಬಳಕೆಯ (tool-use) ಕಾರ್ಯಗಳಲ್ಲಿ ವಿಫಲವಾಯಿತು.

ಆ ಸ್ಕೋರ್ ನಿಜವಾಗಿತ್ತು. ಆದರೆ ನನ್ನ ಅಗತ್ಯಗಳಿಗೆ ಆ ಸ್ಕೋರ್ ವ್ಯರ್ಥವಾಗಿತ್ತು.

ಹೆಚ್ಚಿನ ಸಾರ್ವಜನಿಕ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಮಾಡೆಲ್‌ಗಳನ್ನು ಪ್ರತ್ಯೇಕವಾಗಿ ಪರೀಕ್ಷಿಸುತ್ತವೆ. ಪ್ರೊಡಕ್ಷನ್‌ನಲ್ಲಿ (production), ನೀವು ಏಜೆಂಟ್‌ಗಳನ್ನು ಬಳಸುತ್ತೀರಿ. ಈ ಏಜೆಂಟ್‌ಗಳು ಟೂಲ್‌ಗಳನ್ನು ಕರೆಯುತ್ತವೆ, ವೆಬ್‌ನಲ್ಲಿ ಹುಡುಕುತ್ತವೆ ಮತ್ತು ಕೋಡ್ ಅನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುತ್ತವೆ. ಪ್ರಮಾಣಿತ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಇದನ್ನು ಅಳೆಯುವುದಿಲ್ಲ.

ಫೆಬ್ರವರಿ 2026 ರ LXT ವರದಿಯ ದತ್ತಾಂಶವು ಟೂಲ್ ಪ್ರವೇಶವನ್ನು (tool access) ಸಕ್ರಿಯಗೊಳಿಸಿದಾಗ ದೊಡ್ಡ ಅಂತರವನ್ನು ತೋರಿಸುತ್ತದೆ:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

ಟೂಲ್ ಪ್ರವೇಶವಿಲ್ಲದೆ, ಈ ಸ್ಕೋರ್‌ಗಳು ಕುಸಿಯುತ್ತವೆ. ಏಜೆಂಟ್‌ಗಳಿಗೆ ಟೂಲ್-ಸಹಾಯಿತ (tool-assisted) ಮತ್ತು ಟೂಲ್-ರಹಿತ (non-tool) ಸ್ಕೋರ್‌ಗಳ ನಡುವಿನ ಅಂತರವು ಮಾತ್ರ ಮುಖ್ಯವಾದ ಮೆಟ್ರಿಕ್ ಆಗಿದೆ.

BenchLM.ai ಇದನ್ನು ಖಚಿತಪಡಿಸುತ್ತದೆ. MMLU ನಂತಹ ಟ್ರಿವಿಯಾ ಅಥವಾ ಸ್ಥಿರ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ ಗೆಲ್ಲುವ ಮಾಡೆಲ್‌ಗಳು ಹೆಚ್ಚಾಗಿ ಕೇವಲ ಒಂದು ಫಂಕ್ಷನ್ ಕಾಲ್ (function call) ಬರೆಯುವಲ್ಲಿ ವಿಫಲವಾಗುತ್ತವೆ.

ನಿಮಗೆ ಇಮೇಲ್ ಬರೆಯಬೇಕಿದ್ದರೆ, ಪ್ರಮಾಣಿತ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಸಾಕು. ಆದರೆ ನೀವು ಏಜೆಂಟ್ ಅನ್ನು ನಿರ್ಮಿಸುತ್ತಿದ್ದರೆ, ಈ ಮೂರು ವಿಷಯಗಳ ಮೇಲೆ ಗಮನ ಹರಿಸಿ:

  1. ಟೂಲ್ ಕಾಲ್ ವಿಶ್ವಾಸಾರ್ಹತೆ (Tool call reliability). ಒತ್ತಡದ ಸಂದರ್ಭದಲ್ಲಿ ಮಾಡೆಲ್ ಕರೆಗಳನ್ನು ಸರಿಯಾಗಿ ಫಾರ್ಮ್ಯಾಟ್ ಮಾಡಬಲ್ಲದೇ? ಅದು ದೋಷಗಳಿಂದ ಚೇತರಿಸಿಕೊಳ್ಳಬಲ್ಲದೇ?

  2. ಕಾಂಟೆಕ್ಸ್ಟ್ ವಿಂಡೋ ವೆಚ್ಚಗಳು (Context window costs). MCP ಸರ್ವರ್‌ಗಳನ್ನು ಬಳಸುವುದರಿಂದ ಹೆಚ್ಚಿನ ಟೋಕನ್‌ಗಳು ಖರ್ಚಾಗುತ್ತವೆ. ಪ್ರತಿ ಟೂಲ್ ಕಾಲ್‌ನಲ್ಲಿ ನೀವು ಹೆಚ್ಚಿನ ಟೋಕನ್‌ಗಳನ್ನು ಬಳಸುತ್ತಿದ್ದರೆ, ದೊಡ್ಡ ಕಾಂಟೆಕ್ಸ್ಟ್ ವಿಂಡೋ ಒಂದು ಹೊರೆಯಾಗುತ್ತದೆ.

  3. ಪ್ಲಾನಿಂಗ್ ನಿಖರತೆ (Planning fidelity). ಮಾಡೆಲ್ 5-ಹಂತದ ಯೋಜನೆಯನ್ನು ಅನುಸರಿಸಬಲ್ಲದೇ? ಹೆಚ್ಚಿನ ಮಾಡೆಲ್‌ಗಳು 3ನೇ ಹಂತದ ವೇಳೆಗೆ ದಾರಿಯನ್ನು ತಪ್ಪಿಸಿಕೊಳ್ಳುತ್ತವೆ.

ಸಾರ್ವಜನಿಕ ಲೀಡರ್‌ಬೋರ್ಡ್‌ಗಳನ್ನು ಮಾತ್ರ ನಿಮ್ಮ ಮಾರ್ಗದರ್ಶಿಯಾಗಿ ಬಳಸುವುದನ್ನು ನಿಲ್ಲಿಸಿ. ಬದಲಾಗಿ ಇದನ್ನು ಮಾಡಿ:

• ಒಂದು ಮಿನಿ-ಬೆಂಚ್‌ಮಾರ್ಕ್ ನಡೆಸಲು (Run a mini-benchmark). ನಿಮ್ಮ ಸ್ವಂತ ಲಾಗ್‌ಗಳಿಂದ 20 ರಿಂದ 50 ನೈಜ ಟೂಲ್ ಕಾಲ್‌ಗಳನ್ನು ಬಳಸಿ. ನಿಮ್ಮ ನಿರ್ದಿಷ್ಟ ಸ್ಕೀಮಾದ ಮೇಲೆ ನಿಖರತೆಯನ್ನು ಅಳೆಯಿರಿ.

• ದೋಷದ ಪರಿಸ್ಥಿತಿಗಳನ್ನು ಪರೀಕ್ಷಿಸಿ (Test error conditions). ಒಂದು ಟೂಲ್ ಖಾಲಿ ಫಲಿತಾಂಶ ಅಥವಾ ದೋಷವನ್ನು ನೀಡಿದಾಗ ಮಾಡೆಲ್ ಹೇಗೆ ವರ್ತಿಸುತ್ತದೆ ಎಂದು ನೋಡಿ.

• ಪ್ರತಿ ಕಾರ್ಯದ ವೆಚ್ಚವನ್ನು ಅಳೆಯಿರಿ (Measure cost per task). 5% ಉತ್ತಮವಾಗಿರುವ ಆದರೆ 3 ಪಟ್ಟು ಹೆಚ್ಚು ವೆಚ್ಚದ ಮಾಡೆಲ್ ಆಗಿರುವುದು ಹೆಚ್ಚಾಗಿ ತಪ್ಪು ನಿರ್ಧಾರವಾಗಿರುತ್ತದೆ.

• ನಿರ್ದಿಷ್ಟ ಲೀಡರ್‌ಬೋರ್ಡ್‌ಗಳನ್ನು ಬಳಸಿ. ಟೂಲ್-ಬಳಕೆಯ ಸ್ಕೋರ್‌ಗಳಿಗಾಗಿ ವಿಶೇಷವಾಗಿ LLM-stats.com ಅಥವಾ BenchLM.ai ಅನ್ನು ನೋಡಿ.

ನಿಮ್ಮ ಸ್ವಂತ ದತ್ತಾಂಶವನ್ನು ಪರೀಕ್ಷಿಸಲು ಒಂದು ಮಧ್ಯಾಹ್ನವನ್ನು ಮೀಸಲಿಡಿ. ಕೇವಲ ಕಾಗದದ ಮೇಲೆ ಚೆನ್ನಾಗಿ ಕಾಣುವ ಮಾಡೆಲ್ ಅನ್ನು ಡಿಬಗ್ ಮಾಡುವ ಒಂದು ವಾರದ ಸಮಯವನ್ನು ಇದು ಉಳಿಸುತ್ತದೆ.

ನೀವು ನಿಮ್ಮ ಮಾಡೆಲ್‌ಗಳನ್ನು ಹೇಗೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡುತ್ತೀರಿ? ಕಾಮೆಂಟ್‌ಗಳಲ್ಲಿ ತಿಳಿಸಿ.

Source: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-3neo

Optional learning community: https://t.me/GyaanSetuAi