Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities

Translated for your language. Read the original.

AI-assisted draft.

Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities

In this article

ਕਿਉਂ ਸਟੈਂਡਰਡ AI ਬੈਂਚਮਾਰਕਸ (Benchmarks) ਪ੍ਰਣਾਲੀਗਤ ਰੂਪ ਵਿੱਚ ਏਜੰਟਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਘੱਟ ਅੰਕਾਂ ਵਿੱਚ ਮਾਪਦੇ ਹਨ

ਮੌਜੂਦਾ AI ਮੁਲਾਂਕਣ ਵਿਧੀਆਂ ਫਰੰਟੀਅਰ ਮਾਡਲਾਂ (frontier models) ਦੀ ਅਸਲ ਸਮਰੱਥਾ ਨੂੰ ਫੜਨ ਵਿੱਚ ਅਸਫਲ ਰਹੀਆਂ ਹਨ, ਜੋ ਅਕਸਰ ਕੰਪਿਊਟੇਸ਼ਨਲ ਬਜਟ ਦੀ ਕਮੀ ਨੂੰ ਬੁੱਧੀ ਦੀ ਕਮੀ ਸਮਝ ਲੈਂਦੀਆਂ ਹਨ। ਯੂਕੇ ਦੇ AI Security Institute (AISI) ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਹੈ ਕਿ AI ਏਜੰਟ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਕੋਈ ਨਿਸ਼ਚਿਤ ਸਕੋਰ ਨਹੀਂ ਹੈ, ਸਗੋਂ ਇੱਕ ਸਕੈਲਿੰਗ ਕਰਵ (scaling curve) ਹੈ ਜੋ ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ (test-time compute) ਵਧਣ ਨਾਲ ਤੇਜ਼ੀ ਨਾਲ ਉੱਪਰ ਜਾਂਦਾ ਹੈ।

ਕੰਪਿਊਟ-ਸਮਰੱਥਾ ਕਰਵ (The Compute-Capability Curve)

AISI ਖੋਜ ਦਾ ਮੁੱਖ ਨਤੀਜਾ ਇਹ ਹੈ ਕਿ ਇੱਕ AI ਏਜੰਟ ਦੀ ਸਫਲਤਾ ਦੀ ਦਰ ਉਸਦੇ "ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ" ਨਾਲ ਅਟੁੱਟ ਰੂਪ ਵਿੱਚ ਜੁੜੀ ਹੋਈ ਹੈ—ਯਾਨੀ ਕਿ ਕਿਸੇ ਕੰਮ 'ਤੇ ਕੰਮ ਕਰਦੇ ਸਮੇਂ ਇੱਕ ਏਜੰਟ ਨੂੰ ਵਰਤਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੱਤੀ ਗਈ ਪ੍ਰੋਸੈਸਿੰਗ ਪਾਵਰ ਅਤੇ ਟੋਕਨਾਂ ਦੀ ਮਾਤਰਾ। ਜਦੋਂ ਖੋਜਕਰਤਾ ਮੁਲਾਂਕਣਾਂ ਲਈ ਨਿਸ਼ਚਿਤ ਬਜਟ ਸੀਮਾਵਾਂ ਲਗਾਉਂਦੇ ਹਨ, ਤਾਂ ਉਹ ਮਾਡਲ ਦੀ ਵੱਧ ਤੋਂ ਵੱਧ ਸੰਭਾਵਨਾ ਦੀ ਬਜਾਏ ਉਸਦੀ ਘੱਟੋ-ਘੱਟ ਸਮਰੱਥਾ ਨੂੰ ਮਾਪ ਰਹੇ ਹੁੰਦੇ ਹਨ।

ਇਹ ਵਰਤਾਰਾ ਕਈ ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਖੇਤਰਾਂ ਵਿੱਚ ਦੇਖਿਆ ਜਾ ਸਕਦਾ ਹੈ। TerminalBench 2.0 ਅਤੇ SWE-Bench Pro ਵਰਗੇ ਬੈਂਚਮਾਰਕਸ ਦੀ ਵਰਤੋਂ ਕਰਨ ਵਾਲੇ ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਕੰਮਾਂ ਵਿੱਚ, ਜਦੋਂ ਟੋਕਨ ਬਜਟ ਇੱਕ ਮਿਲੀਅਨ ਤੋਂ ਵਧਾ ਕੇ ਦਸ ਮਿਲੀਅਨ ਕਰ ਦਿੱਤਾ ਗਿਆ, ਤਾਂ ਸਫਲਤਾ ਦੀ ਦਰ ਵਿੱਚ ਲਗਭਗ 25% ਦਾ ਵਾਧਾ ਹੋਇਆ। ਇਸੇ ਤਰ੍ਹਾਂ, "Humanity's Last Exam" ਵਿੱਚ ਗਣਿਤਕ ਅਤੇ ਅਕਾਦਮਿਕ ਕੰਮਾਂ ਵਿੱਚ 22% ਦਾ ਵਾਧਾ ਦੇਖਿਆ ਗਿਆ ਜਦੋਂ ਬਜਟ ਪੰਜ ਮਿਲੀਅਨ ਟੋਕਨਾਂ ਤੱਕ ਪਹੁੰਚ ਗਿਆ।

ਮਨੁੱਖੀ ਬਨਾਮ AI ਕੰਮ ਦੇ ਸਮੇਂ ਦਾ ਪਾਵਰ ਲਾਅ (The Power Law of Human vs. AI Task Time)

ਅਧਿਐਨ ਨੇ ਇੱਕ ਮਨੁੱਖੀ ਮਾਹਰ ਦੁਆਰਾ ਕਿਸੇ ਕੰਮ ਲਈ ਲਏ ਜਾਣ ਵਾਲੇ ਸਮੇਂ ਅਤੇ ਇੱਕ AI ਏਜੰਟ ਦੁਆਰਾ ਲੋੜੀਂਦੀ ਟੋਕਨ ਖਪਤ ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਸਿੱਧਾ ਸਬੰਧ ਸਥਾਪਿਤ ਕੀਤਾ ਹੈ। ਇਹ ਸਬੰਧ ਇੱਕ ਪਾਵਰ ਲਾਅ (power law) ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ: ਇੱਕ ਕੰਮ ਜਿਸ ਵਿੱਚ ਇੱਕ ਮਨੁੱਖ ਨੂੰ ਇੱਕ ਮਿੰਟ ਲੱਗਦਾ ਹੈ, ਉਸ ਲਈ ਇੱਕ ਏਜੰਟ ਨੂੰ ਹਜ਼ਾਰਾਂ ਟੋਕਨਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜਦੋਂ ਕਿ ਇੱਕ ਘੰਟੇ ਦੇ ਕੰਮ ਲਈ ਲੱਖਾਂ ਟੋਕਨਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਇਹ ਮੌਜੂਦਾ ਟੈਸਟਿੰਗ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਅੰਨ੍ਹਾ ਕੋਨਾ (blind spot) ਪੈਦਾ ਕਰਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, AISI ਸਾਈਬਰ ਸੁਰੱਖਿਆ ਕੰਮ "The Last Ones" ਲਈ ਲਗਭਗ 20 ਘੰਟੇ ਦੀ ਮਨੁੱਖੀ ਮੁਹਾਰਤ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਸੰਸਥਾ ਦੁਆਰਾ ਟੈਸਟ ਕੀਤੇ ਗਏ ਕਿਸੇ ਵੀ ਮਾਡਲ ਨੇ 30 ਮਿਲੀਅਨ ਟੋਕਨਾਂ ਤੋਂ ਘੱਟ ਵਿੱਚ ਇਸ ਕੰਮ ਨੂੰ ਹੱਲ ਨਹੀਂ ਕੀਤਾ। ਮਿਆਰੀ, ਘੱਟ ਬਜਟ ਵਾਲੇ ਮੁਲਾਂਕਣਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਖੋਜਕਰਤਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੂਪ ਨਾਲ ਮਾਪ ਪ੍ਰਕਿਰਿਆ ਤੋਂ ਸਭ ਤੋਂ ਗੁੰਝਲਦਾਰ ਅਤੇ ਮਹੱਤਵਪੂਰਨ ਕੰਮਾਂ ਨੂੰ ਬਾਹਰ ਰੱਖ ਰਹੇ ਹਨ।

ਪ੍ਰਗਤੀ ਨੂੰ ਤੇਜ਼ ਕਰਨਾ ਅਤੇ ਸੁਧਾਰ ਦੇ ਤਿੰਨ ਅੱਖ (The Three Axes of Improvement)

AISI ਨੋਟ ਕਰਦਾ ਹੈ ਕਿ ਫਰੰਟੀਅਰ ਮਾਡਲਾਂ ਦਾ "ਟਾਈਮ ਹੋਰਾਈਜ਼ਨ" (time horizon)—ਉਹਨਾਂ ਦੁਆਰਾ ਸੰਭਾਲੇ ਜਾ ਸਕਣ ਵਾਲੇ ਕੰਮਾਂ ਦੀ ਗੁੰਝਲਤਾ—ਪਹਿਲਾਂ ਨਾਲੋਂ ਕਿਤੇ ਜ਼ਿਆਦਾ ਤੇਜ਼ੀ ਨਾਲ ਵਧ ਰਿਹਾ ਹੈ। ਜਦੋਂ ਕਿ ਪਹਿਲੇ ਅਨੁਮਾਨਾਂ ਨੇ ਸੁਝਾਅ ਦਿੱਤਾ ਸੀ ਕਿ 2.5 ਮਿਲੀਅਨ ਟੋਕਨ ਦੇ ਨਿਸ਼ਚਿਤ ਬਜਟ 'ਤੇ ਸਾਈਬਰ ਕੰਮਾਂ ਲਈ ਟਾਈਮ ਹੋਰਾਈਜ਼ਨ ਹਰ 4.7 ਮਹੀਨਿਆਂ ਵਿੱਚ ਦੁੱਗਣੀ ਹੋ ਜਾਂਦੀ ਹੈ, ਉੱਚੇ ਬਜਟਾਂ 'ਤੇ ਉਹ ਦਰ ਕਾਫ਼ੀ ਤੇਜ਼ ਹੋ ਜਾਂਦੀ ਹੈ। 50 ਮਿਲੀਅਨ ਟੋਕਨਾਂ 'ਤੇ, ਦੁੱਗਣੀ ਹੋਣ ਦੀ ਦਰ ਹਰ 40 ਤੋਂ 50 ਦਿਨਾਂ ਵਿੱਚ ਹੋ ਜਾਂਦੀ ਹੈ।

ਨਵੇਂ ਮਾਡਲ (ਜਿਵੇਂ ਕਿ ਟੈਸਟ ਕੀਤੇ ਗਏ GPT ਅਤੇ Claude ਸੀਰੀਜ਼) ਤਿੰਨ ਵਿਸ਼ੇਸ਼ ਪਹਿਲੂਆਂ ਵਿੱਚ ਸੁਧਾਰ ਦਿਖਾਉਂਦੇ ਹਨ:

Reach (ਪਹੁੰਚ): ਲਗਾਤਾਰ ਵਧਦੇ ਮੁਸ਼ਕਲ ਕੰਮਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ਦੀ ਯੋਗਤਾ।
Reliability (ਭਰੋਸੇਯੋਗਤਾ): ਇੱਕੋ ਕੰਮ ਨੂੰ ਵਧੇਰੇ ਨਿਰੰਤਰਤਾ ਨਾਲ ਹੱਲ ਕਰਨ ਦੀ ਯੋਗਤਾ।
Efficiency (ਕਾਰਜਕੁਸ਼ਲਤਾ): ਘੱਟ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੰਮਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਯੋਗਤਾ।

AI ਸੁਰੱਖਿਆ ਅਤੇ ਤੈਨਾਤੀ (Deployment) ਲਈ ਪ੍ਰਭਾਵ

ਇਹ ਖੋਜ AI ਮੁਲਾਂਕਣ ਦੇ ਪੈਰਾਡਾਈਮ ਨੂੰ "ਨਿਸ਼ਚਿਤ ਸਕੋਰਾਂ" ਤੋਂ "ਕੰਪਿਊਟ-ਅਵੇਅਰ ਕਰਵਜ਼" (compute-aware curves) ਵਿੱਚ ਬਦਲ ਦਿੰਦੀ ਹੈ। ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਸੰਸਥਾਪਕਾਂ ਲਈ, ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇੱਕ ਮਾਡਲ ਦੀ ਉਪਯੋਗਤਾ ਸਿਰਫ਼ ਇਸਦੀ ਸਿਖਲਾਈ (training) 'ਤੇ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਇਸ 'ਤੇ ਵੀ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ਕਿ ਤੈਨਾਤੀ (deployment) ਦੌਰਾਨ ਕਿੰਨਾ ਇਨਫਰੈਂਸ ਕੰਪਿਊਟ (inference compute) ਅਲਾਟ ਕੀਤਾ ਗਿਆ ਹੈ।

ਜਿਵੇਂ-ਜਿਵੇਂ ਪ੍ਰਤੀ ਟੋਕਨ ਦੀ ਲਾਗਤ ਘਟਦੀ ਜਾ ਰਹੀ ਹੈ, ਉਹ ਸਮਰੱਥਾਵਾਂ ਜੋ ਪਹਿਲਾਂ ਆਰਥਿਕ ਤੌਰ 'ਤੇ ਅਸੰਭਵ ਲੱਗਦੀਆਂ ਸਨ, ਮਿਆਰੀ ਬਣ ਜਾਣਗੀਆਂ। AI ਸੁਰੱਖਿਆ ਅਤੇ ਸੁਰੱਖਿਆ ਲਈ, ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਸਵੈ-ਚਾਲਿਤ ਏਜੰਟਾਂ (autonomous agents) ਨਾਲ ਸਬੰਧਤ ਜੋਖਮਾਂ—ਜਿਵੇਂ ਕਿ ਗੁੰਝਲਦਾਰ ਸਾਈਬਰ ਹਮਲੇ—ਨੂੰ ਕਾਫ਼ੀ ਘੱਟ ਅੰਕਾਂ ਵਿੱਚ ਮਾਪਿਆ ਜਾ ਸਕਦਾ ਹੈ ਜੇਕਰ ਨਿਯਮਕ ਅਤੇ ਕੰਪਨੀਆਂ ਰਵਾਇਤੀ, ਘੱਟ ਬਜਟ ਵਾਲੇ ਬੈਂਚਮਾਰਕਸ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ।

ਮੁੱਖ ਨੁਕਤੇ (Key Takeaways)

ਬੈਂਚਮਾਰਕਸ ਭਰਮਾਊ ਹਨ: ਨਿਸ਼ਚਿਤ ਟੋਕਨ ਬਜਟ ਇੱਕ ਮਾਡਲ ਦੀ ਘੱਟੋ-ਘੱਟ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ, ਜਿਸ ਨਾਲ AI ਏਜੰਟਾਂ ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਕੀਤੀ ਜਾ ਸਕਣ ਵਾਲੀ ਵੱਧ ਤੋਂ ਵੱਧ ਸੀਮਾ ਨੂੰ ਪ੍ਰਣਾਲੀਗਤ ਰੂਪ ਵਿੱਚ ਘੱਟ ਅੰਕਾਂ ਵਿੱਚ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ।
ਕੰਪਿਊਟ ਸਮਰੱਥਾ ਵਧਾਉਂਦਾ ਹੈ: ਜਿਵੇਂ-ਜਿਵੇਂ ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ ਬਜਟ ਵਧਦਾ ਹੈ, ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਅਤੇ ਗਣਿਤ ਵਿੱਚ ਸਫਲਤਾ ਦੀ ਦਰ ਵਿੱਚ ਕਾਫ਼ੀ ਵਾਧਾ ਹੁੰਦਾ ਹੈ।
"ਦੁੱਗਣੀ" ਹੋਣ ਦੀ ਦਰ ਤੇਜ਼ ਹੋ ਰਹੀ ਹੈ: ਉੱਚੇ ਕੰਪਿਊਟ ਬਜਟਾਂ 'ਤੇ, ਫਰੰਟੀਅਰ ਮਾਡਲਾਂ ਦੁਆਰਾ ਗੁੰਝਲਦਾਰ ਕੰਮਾਂ ਵਿੱਚ ਮੁਹਾਰਤ ਹਾਸਲ ਕਰਨ ਦੀ ਦਰ ਪਹਿਲਾਂ ਦੇ ਅਨੁਮਾਨਾਂ ਨਾਲੋਂ ਕਿਤੇ ਜ਼ਿਆਦਾ ਤੇ

Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities

ਕਿਉਂ ਸਟੈਂਡਰਡ AI ਬੈਂਚਮਾਰਕਸ (Benchmarks) ਪ੍ਰਣਾਲੀਗਤ ਰੂਪ ਵਿੱਚ ਏਜੰਟਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਘੱਟ ਅੰਕਾਂ ਵਿੱਚ ਮਾਪਦੇ ਹਨ

ਕੰਪਿਊਟ-ਸਮਰੱਥਾ ਕਰਵ (The Compute-Capability Curve)

ਮਨੁੱਖੀ ਬਨਾਮ AI ਕੰਮ ਦੇ ਸਮੇਂ ਦਾ ਪਾਵਰ ਲਾਅ (The Power Law of Human vs. AI Task Time)

ਪ੍ਰਗਤੀ ਨੂੰ ਤੇਜ਼ ਕਰਨਾ ਅਤੇ ਸੁਧਾਰ ਦੇ ਤਿੰਨ ਅੱਖ (The Three Axes of Improvement)

AI ਸੁਰੱਖਿਆ ਅਤੇ ਤੈਨਾਤੀ (Deployment) ਲਈ ਪ੍ਰਭਾਵ

ਮੁੱਖ ਨੁਕਤੇ (Key Takeaways)

Continue reading

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

AI ਏਜੰਟ ਦਾ ਮੁਲਾਂਕਣ ਬਹੁਤ ਜਲਦੀ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ

Agentic AI ਦਾ ਉਭਾਰ: ਤਕਨੀਕੀ ਟੀਮਾਂ ਆਟੋਮੇਸ਼ਨ ਦੀ ਅਗਵਾਈ ਕਿਉਂ ਕਰ ਰਹੀਆਂ ਹਨ

Why Frontier AI Models Fail Financial Triage Tests