LLM ਬੈਂਚਮਾਰਕ ਦਾ ਝੂਠ

ਲੀਡਰਬੋਰਡ ਸਕੋਰ ਅਕਸਰ ਤੁਹਾਨੂੰ ਗੁੰਮਰਾਹ ਕਰਦੇ ਹਨ।

ਪਿਛਲੇ ਮਹੀਨੇ ਮੈਂ ਇੱਕ agentic pipeline ਲਈ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ। ਮੈਂ ਇੱਕ ਪ੍ਰਸਿੱਧ ਲੀਡਰਬੋਰਡ ਤੋਂ ਸਭ ਤੋਂ ਉੱਪਰਲੇ ਮਾਡਲ ਨੂੰ ਚੁਣਿਆ। ਮੈਂ ਇਸਨੂੰ ਲਾਂਚ ਕੀਤਾ। ਇਹ ਤੁਰੰਤ ਹੀ ਬੁਨਿਆਦੀ tool-use ਕੰਮਾਂ ਵਿੱਚ ਅਸਫਲ ਰਿਹਾ।

ਸਕੋਰ ਅਸਲੀ ਸੀ। ਪਰ ਸਕੋਰ ਮੇਰੀਆਂ ਲੋੜਾਂ ਲਈ ਬੇਕਾਰ ਵੀ ਸੀ।

ਜ਼ਿਆਦਾਤਰ ਜਨਤਕ ਬੈਂਚਮਾਰਕ ਮਾਡਲਾਂ ਦੀ ਇਕੱਲੇ (isolation) ਵਿੱਚ ਜਾਂਚ ਕਰਦੇ ਹਨ। ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ, ਤੁਸੀਂ agents ਚਲਾਉਂਦੇ ਹੋ। ਇਹ agents tools ਨੂੰ ਕਾਲ ਕਰਦੇ ਹਨ, ਵੈੱਬ 'ਤੇ ਸਰਚ ਕਰਦੇ ਹਨ, ਅਤੇ code ਨੂੰ ਚਲਾਉਂਦੇ ਹਨ। ਸਟੈਂਡਰਡ ਬੈਂਚਮਾਰਕ ਇਸ ਨੂੰ ਨਹੀਂ ਮਾਪਦੇ।

ਫਰਵਰੀ 2026 ਦੀ LXT ਰਿਪੋਰਟ ਦਾ ਡੇਟਾ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਜਦੋਂ tool access ਚਾਲੂ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਇੱਕ ਵੱਡਾ ਅੰਤਰ ਹੁੰਦਾ ਹੈ:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

Tool access ਤੋਂ ਬਿਨਾਂ, ਇਹ ਸਕੋਰ ਡਿੱਗ ਜਾਂਦੇ ਹਨ। Tool-assisted ਅਤੇ non-tool ਸਕੋਰਾਂ ਵਿਚਕਾਰ ਦਾ ਅੰਤਰ ਹੀ ਇਕਲੌਤਾ ਮਾਪਦੰਡ ਹੈ ਜੋ agents ਲਈ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ।

BenchLM.ai ਇਸ ਦੀ ਪੁਸ਼ਟੀ ਕਰਦਾ ਹੈ। ਉਹ ਮਾਡਲ ਜੋ trivia ਜਾਂ MMLU ਵਰਗੇ ਸਟੈਟਿਕ ਟੈਸਟਾਂ ਵਿੱਚ ਜਿੱਤਦੇ ਹਨ, ਉਹ ਅਕਸਰ ਇੱਕ ਸਿੰਗਲ function call ਲਿਖਣ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।

ਜੇਕਰ ਤੁਹਾਨੂੰ ਇੱਕ ਈਮੇਲ ਲਿਖਵਾਉਣੀ ਹੈ, ਤਾਂ ਇੱਕ ਸਟੈਂਡਰਡ ਬੈਂਚਮਾਰਕ ਕੰਮ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਇੱਕ agent ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ ਇਹਨਾਂ ਤਿੰਨ ਚੀਜ਼ਾਂ 'ਤੇ ਧਿਆਨ ਦਿਓ:

  1. Tool call ਦੀ ਭਰੋਸੇਯੋਗਤਾ। ਕੀ ਮਾਡਲ ਦਬਾਅ ਹੇਠ ਕਾਲਾਂ ਨੂੰ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਫਾਰਮੈਟ ਕਰ ਸਕਦਾ ਹੈ? ਕੀ ਇਹ ਗਲਤੀਆਂ (errors) ਤੋਂ ਸੁਧਾਰ ਕਰ ਸਕਦਾ ਹੈ?

  2. Context window ਦੀ ਲਾਗਤ। MCP servers ਦੀ ਵਰਤੋਂ ਕਰਨ ਨਾਲ tokens ਦੀ ਲਾਗਤ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੁੰਦੀ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਹਰ tool call 'ਤੇ tokens ਖਰਚ ਕਰਦੇ ਹੋ, ਤਾਂ ਇੱਕ ਵੱਡਾ context window ਇੱਕ ਬੋਝ ਬਣ ਜਾਂਦਾ ਹੈ।

  3. Planning fidelity। ਕੀ ਮਾਡਲ 5-ਸਟੈਪ ਯੋਜਨਾ ਦੀ ਪਾਲਣਾ ਕਰ ਸਕਦਾ ਹੈ? ਜ਼ਿਆਦਾਤਰ ਮਾਡਲ ਤੀਜੇ ਸਟੈਪ ਤੱਕ ਹੀ ਰਸਤਾ ਭੁੱਲ ਜਾਂਦੇ ਹਨ।

ਜਨਤਕ ਲੀਡਰਬੋਰਡਾਂ ਨੂੰ ਆਪਣੇ ਇਕਲੌਤੇ ਮਾਰਗਦਰਸ਼ਕ ਵਜੋਂ ਵਰਤਣਾ ਬੰਦ ਕਰੋ। ਇਸ ਦੀ ਬਜਾਏ ਇਹ ਕਰੋ:

• ਇੱਕ ਮਿੰਨੀ-ਬੈਂਚਮਾਰਕ ਚਲਾਓ। ਆਪਣੇ ਲੋਗਸ (logs) ਵਿੱਚੋਂ 20 ਤੋਂ 50 ਅਸਲੀ tool calls ਦੀ ਵਰਤੋਂ ਕਰੋ। ਆਪਣੇ ਖਾਸ schema 'ਤੇ ਸਹੀਤਾ (accuracy) ਨੂੰ ਮਾਪੋ।

• Error ਸਥਿਤੀਆਂ ਦੀ ਜਾਂਚ ਕਰੋ। ਦੇਖੋ ਕਿ ਜਦੋਂ ਕੋਈ tool ਖਾਲੀ ਨਤੀਜਾ ਜਾਂ error ਵਾਪਸ ਕਰਦਾ ਹੈ ਤਾਂ ਮਾਡਲ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ।

• ਪ੍ਰਤੀ ਟਾਸਕ ਲਾਗਤ ਨੂੰ ਮਾਪੋ। ਇੱਕ ਮਾਡਲ ਜੋ 5% ਬਿਹਤਰ ਹੈ ਪਰ 3 ਗੁਣਾ ਮਹਿੰਗਾ ਹੈ, ਉਹ ਅਕਸਰ ਗਲਤ ਚੋਣ ਹੁੰਦਾ ਹੈ।

• ਖਾਸ ਲੀਡਰਬੋਰਡਾਂ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਖਾਸ ਤੌਰ 'ਤੇ tool-use ਸਕੋਰਾਂ ਲਈ LLM-stats.com ਜਾਂ BenchLM.ai ਨੂੰ ਦੇਖੋ।

ਆਪਣੇ ਡੇਟਾ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਇੱਕ ਦੁਪਹਿਰ ਬਿਤਾਓ। ਇਹ ਤੁਹਾਨੂੰ ਉਸ ਮਾਡਲ ਨੂੰ ਡੀਬੱਗ (debug) ਕਰਨ ਦੇ ਇੱਕ ਹਫਤੇ ਦੇ ਸਮੇਂ ਤੋਂ ਬਚਾਉਂਦਾ ਹੈ ਜੋ ਸਿਰਫ਼ ਕਾਗਜ਼ਾਂ 'ਤੇ ਹੀ ਚੰਗਾ ਲੱਗਦਾ ਸੀ।

ਤੁਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕਰਦੇ ਹੋ? ਮੈਨੂੰ ਜਵਾਬਾਂ ਵਿੱਚ ਦੱਸੋ।

Source: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-3neo

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi