𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

📅3 hours ago⏱2 min read

LLM ਬੈਂਚਮਾਰਕ ਦਾ ਝੂਠ

ਲੀਡਰਬੋਰਡ ਸਕੋਰ ਅਕਸਰ ਤੁਹਾਨੂੰ ਗੁੰਮਰਾਹ ਕਰਦੇ ਹਨ।

ਪਿਛਲੇ ਮਹੀਨੇ ਮੈਂ ਇੱਕ agentic pipeline ਲਈ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ। ਮੈਂ ਇੱਕ ਪ੍ਰਸਿੱਧ ਲੀਡਰਬੋਰਡ ਤੋਂ ਸਭ ਤੋਂ ਉੱਪਰਲੇ ਮਾਡਲ ਨੂੰ ਚੁਣਿਆ। ਮੈਂ ਇਸਨੂੰ ਲਾਂਚ ਕੀਤਾ। ਇਹ ਤੁਰੰਤ ਹੀ ਬੁਨਿਆਦੀ tool-use ਕੰਮਾਂ ਵਿੱਚ ਅਸਫਲ ਰਿਹਾ।

ਸਕੋਰ ਅਸਲੀ ਸੀ। ਪਰ ਸਕੋਰ ਮੇਰੀਆਂ ਲੋੜਾਂ ਲਈ ਬੇਕਾਰ ਵੀ ਸੀ।

ਜ਼ਿਆਦਾਤਰ ਜਨਤਕ ਬੈਂਚਮਾਰਕ ਮਾਡਲਾਂ ਦੀ ਇਕੱਲੇ (isolation) ਵਿੱਚ ਜਾਂਚ ਕਰਦੇ ਹਨ। ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ, ਤੁਸੀਂ agents ਚਲਾਉਂਦੇ ਹੋ। ਇਹ agents tools ਨੂੰ ਕਾਲ ਕਰਦੇ ਹਨ, ਵੈੱਬ 'ਤੇ ਸਰਚ ਕਰਦੇ ਹਨ, ਅਤੇ code ਨੂੰ ਚਲਾਉਂਦੇ ਹਨ। ਸਟੈਂਡਰਡ ਬੈਂਚਮਾਰਕ ਇਸ ਨੂੰ ਨਹੀਂ ਮਾਪਦੇ।

ਫਰਵਰੀ 2026 ਦੀ LXT ਰਿਪੋਰਟ ਦਾ ਡੇਟਾ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਜਦੋਂ tool access ਚਾਲੂ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਇੱਕ ਵੱਡਾ ਅੰਤਰ ਹੁੰਦਾ ਹੈ:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

Tool access ਤੋਂ ਬਿਨਾਂ, ਇਹ ਸਕੋਰ ਡਿੱਗ ਜਾਂਦੇ ਹਨ। Tool-assisted ਅਤੇ non-tool ਸਕੋਰਾਂ ਵਿਚਕਾਰ ਦਾ ਅੰਤਰ ਹੀ ਇਕਲੌਤਾ ਮਾਪਦੰਡ ਹੈ ਜੋ agents ਲਈ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ।

BenchLM.ai ਇਸ ਦੀ ਪੁਸ਼ਟੀ ਕਰਦਾ ਹੈ। ਉਹ ਮਾਡਲ ਜੋ trivia ਜਾਂ MMLU ਵਰਗੇ ਸਟੈਟਿਕ ਟੈਸਟਾਂ ਵਿੱਚ ਜਿੱਤਦੇ ਹਨ, ਉਹ ਅਕਸਰ ਇੱਕ ਸਿੰਗਲ function call ਲਿਖਣ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।

ਜੇਕਰ ਤੁਹਾਨੂੰ ਇੱਕ ਈਮੇਲ ਲਿਖਵਾਉਣੀ ਹੈ, ਤਾਂ ਇੱਕ ਸਟੈਂਡਰਡ ਬੈਂਚਮਾਰਕ ਕੰਮ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਇੱਕ agent ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ ਇਹਨਾਂ ਤਿੰਨ ਚੀਜ਼ਾਂ 'ਤੇ ਧਿਆਨ ਦਿਓ:

Tool call ਦੀ ਭਰੋਸੇਯੋਗਤਾ। ਕੀ ਮਾਡਲ ਦਬਾਅ ਹੇਠ ਕਾਲਾਂ ਨੂੰ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਫਾਰਮੈਟ ਕਰ ਸਕਦਾ ਹੈ? ਕੀ ਇਹ ਗਲਤੀਆਂ (errors) ਤੋਂ ਸੁਧਾਰ ਕਰ ਸਕਦਾ ਹੈ?
Context window ਦੀ ਲਾਗਤ। MCP servers ਦੀ ਵਰਤੋਂ ਕਰਨ ਨਾਲ tokens ਦੀ ਲਾਗਤ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੁੰਦੀ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਹਰ tool call 'ਤੇ tokens ਖਰਚ ਕਰਦੇ ਹੋ, ਤਾਂ ਇੱਕ ਵੱਡਾ context window ਇੱਕ ਬੋਝ ਬਣ ਜਾਂਦਾ ਹੈ।
Planning fidelity। ਕੀ ਮਾਡਲ 5-ਸਟੈਪ ਯੋਜਨਾ ਦੀ ਪਾਲਣਾ ਕਰ ਸਕਦਾ ਹੈ? ਜ਼ਿਆਦਾਤਰ ਮਾਡਲ ਤੀਜੇ ਸਟੈਪ ਤੱਕ ਹੀ ਰਸਤਾ ਭੁੱਲ ਜਾਂਦੇ ਹਨ।

ਜਨਤਕ ਲੀਡਰਬੋਰਡਾਂ ਨੂੰ ਆਪਣੇ ਇਕਲੌਤੇ ਮਾਰਗਦਰਸ਼ਕ ਵਜੋਂ ਵਰਤਣਾ ਬੰਦ ਕਰੋ। ਇਸ ਦੀ ਬਜਾਏ ਇਹ ਕਰੋ:

• ਇੱਕ ਮਿੰਨੀ-ਬੈਂਚਮਾਰਕ ਚਲਾਓ। ਆਪਣੇ ਲੋਗਸ (logs) ਵਿੱਚੋਂ 20 ਤੋਂ 50 ਅਸਲੀ tool calls ਦੀ ਵਰਤੋਂ ਕਰੋ। ਆਪਣੇ ਖਾਸ schema 'ਤੇ ਸਹੀਤਾ (accuracy) ਨੂੰ ਮਾਪੋ।

• Error ਸਥਿਤੀਆਂ ਦੀ ਜਾਂਚ ਕਰੋ। ਦੇਖੋ ਕਿ ਜਦੋਂ ਕੋਈ tool ਖਾਲੀ ਨਤੀਜਾ ਜਾਂ error ਵਾਪਸ ਕਰਦਾ ਹੈ ਤਾਂ ਮਾਡਲ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ।

• ਪ੍ਰਤੀ ਟਾਸਕ ਲਾਗਤ ਨੂੰ ਮਾਪੋ। ਇੱਕ ਮਾਡਲ ਜੋ 5% ਬਿਹਤਰ ਹੈ ਪਰ 3 ਗੁਣਾ ਮਹਿੰਗਾ ਹੈ, ਉਹ ਅਕਸਰ ਗਲਤ ਚੋਣ ਹੁੰਦਾ ਹੈ।

• ਖਾਸ ਲੀਡਰਬੋਰਡਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਖਾਸ ਤੌਰ 'ਤੇ tool-use ਸਕੋਰਾਂ ਲਈ LLM-stats.com ਜਾਂ BenchLM.ai ਨੂੰ ਦੇਖੋ।

ਆਪਣੇ ਡੇਟਾ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਇੱਕ ਦੁਪਹਿਰ ਬਿਤਾਓ। ਇਹ ਤੁਹਾਨੂੰ ਉਸ ਮਾਡਲ ਨੂੰ ਡੀਬੱਗ (debug) ਕਰਨ ਦੇ ਇੱਕ ਹਫਤੇ ਦੇ ਸਮੇਂ ਤੋਂ ਬਚਾਉਂਦਾ ਹੈ ਜੋ ਸਿਰਫ਼ ਕਾਗਜ਼ਾਂ 'ਤੇ ਹੀ ਚੰਗਾ ਲੱਗਦਾ ਸੀ।

ਤੁਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕਰਦੇ ਹੋ? ਮੈਨੂੰ ਜਵਾਬਾਂ ਵਿੱਚ ਦੱਸੋ।

Source: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-3neo

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

Continue reading

𝗟𝗟𝗠 𝗚𝗔𝗧𝗘𝗪𝗔𝗬𝗦 𝗙𝗢𝗥 𝗔𝗜 𝗦𝗔𝗔𝗦

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁