ਕਿਉਂ ਸਟੈਂਡਰਡ AI ਬੈਂਚਮਾਰਕਸ (Benchmarks) ਪ੍ਰਣਾਲੀਗਤ ਰੂਪ ਵਿੱਚ ਏਜੰਟਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਘੱਟ ਅੰਕਾਂ ਵਿੱਚ ਮਾਪਦੇ ਹਨ

ਮੌਜੂਦਾ AI ਮੁਲਾਂਕਣ ਵਿਧੀਆਂ ਫਰੰਟੀਅਰ ਮਾਡਲਾਂ (frontier models) ਦੀ ਅਸਲ ਸਮਰੱਥਾ ਨੂੰ ਫੜਨ ਵਿੱਚ ਅਸਫਲ ਰਹੀਆਂ ਹਨ, ਜੋ ਅਕਸਰ ਕੰਪਿਊਟੇਸ਼ਨਲ ਬਜਟ ਦੀ ਕਮੀ ਨੂੰ ਬੁੱਧੀ ਦੀ ਕਮੀ ਸਮਝ ਲੈਂਦੀਆਂ ਹਨ। ਯੂਕੇ ਦੇ AI Security Institute (AISI) ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਹੈ ਕਿ AI ਏਜੰਟ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਕੋਈ ਨਿਸ਼ਚਿਤ ਸਕੋਰ ਨਹੀਂ ਹੈ, ਸਗੋਂ ਇੱਕ ਸਕੈਲਿੰਗ ਕਰਵ (scaling curve) ਹੈ ਜੋ ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ (test-time compute) ਵਧਣ ਨਾਲ ਤੇਜ਼ੀ ਨਾਲ ਉੱਪਰ ਜਾਂਦਾ ਹੈ।

ਕੰਪਿਊਟ-ਸਮਰੱਥਾ ਕਰਵ (The Compute-Capability Curve)

AISI ਖੋਜ ਦਾ ਮੁੱਖ ਨਤੀਜਾ ਇਹ ਹੈ ਕਿ ਇੱਕ AI ਏਜੰਟ ਦੀ ਸਫਲਤਾ ਦੀ ਦਰ ਉਸਦੇ "ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ" ਨਾਲ ਅਟੁੱਟ ਰੂਪ ਵਿੱਚ ਜੁੜੀ ਹੋਈ ਹੈ—ਯਾਨੀ ਕਿ ਕਿਸੇ ਕੰਮ 'ਤੇ ਕੰਮ ਕਰਦੇ ਸਮੇਂ ਇੱਕ ਏਜੰਟ ਨੂੰ ਵਰਤਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੱਤੀ ਗਈ ਪ੍ਰੋਸੈਸਿੰਗ ਪਾਵਰ ਅਤੇ ਟੋਕਨਾਂ ਦੀ ਮਾਤਰਾ। ਜਦੋਂ ਖੋਜਕਰਤਾ ਮੁਲਾਂਕਣਾਂ ਲਈ ਨਿਸ਼ਚਿਤ ਬਜਟ ਸੀਮਾਵਾਂ ਲਗਾਉਂਦੇ ਹਨ, ਤਾਂ ਉਹ ਮਾਡਲ ਦੀ ਵੱਧ ਤੋਂ ਵੱਧ ਸੰਭਾਵਨਾ ਦੀ ਬਜਾਏ ਉਸਦੀ ਘੱਟੋ-ਘੱਟ ਸਮਰੱਥਾ ਨੂੰ ਮਾਪ ਰਹੇ ਹੁੰਦੇ ਹਨ।

ਇਹ ਵਰਤਾਰਾ ਕਈ ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਖੇਤਰਾਂ ਵਿੱਚ ਦੇਖਿਆ ਜਾ ਸਕਦਾ ਹੈ। TerminalBench 2.0 ਅਤੇ SWE-Bench Pro ਵਰਗੇ ਬੈਂਚਮਾਰਕਸ ਦੀ ਵਰਤੋਂ ਕਰਨ ਵਾਲੇ ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਕੰਮਾਂ ਵਿੱਚ, ਜਦੋਂ ਟੋਕਨ ਬਜਟ ਇੱਕ ਮਿਲੀਅਨ ਤੋਂ ਵਧਾ ਕੇ ਦਸ ਮਿਲੀਅਨ ਕਰ ਦਿੱਤਾ ਗਿਆ, ਤਾਂ ਸਫਲਤਾ ਦੀ ਦਰ ਵਿੱਚ ਲਗਭਗ 25% ਦਾ ਵਾਧਾ ਹੋਇਆ। ਇਸੇ ਤਰ੍ਹਾਂ, "Humanity's Last Exam" ਵਿੱਚ ਗਣਿਤਕ ਅਤੇ ਅਕਾਦਮਿਕ ਕੰਮਾਂ ਵਿੱਚ 22% ਦਾ ਵਾਧਾ ਦੇਖਿਆ ਗਿਆ ਜਦੋਂ ਬਜਟ ਪੰਜ ਮਿਲੀਅਨ ਟੋਕਨਾਂ ਤੱਕ ਪਹੁੰਚ ਗਿਆ।

ਮਨੁੱਖੀ ਬਨਾਮ AI ਕੰਮ ਦੇ ਸਮੇਂ ਦਾ ਪਾਵਰ ਲਾਅ (The Power Law of Human vs. AI Task Time)

ਅਧਿਐਨ ਨੇ ਇੱਕ ਮਨੁੱਖੀ ਮਾਹਰ ਦੁਆਰਾ ਕਿਸੇ ਕੰਮ ਲਈ ਲਏ ਜਾਣ ਵਾਲੇ ਸਮੇਂ ਅਤੇ ਇੱਕ AI ਏਜੰਟ ਦੁਆਰਾ ਲੋੜੀਂਦੀ ਟੋਕਨ ਖਪਤ ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਸਿੱਧਾ ਸਬੰਧ ਸਥਾਪਿਤ ਕੀਤਾ ਹੈ। ਇਹ ਸਬੰਧ ਇੱਕ ਪਾਵਰ ਲਾਅ (power law) ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ: ਇੱਕ ਕੰਮ ਜਿਸ ਵਿੱਚ ਇੱਕ ਮਨੁੱਖ ਨੂੰ ਇੱਕ ਮਿੰਟ ਲੱਗਦਾ ਹੈ, ਉਸ ਲਈ ਇੱਕ ਏਜੰਟ ਨੂੰ ਹਜ਼ਾਰਾਂ ਟੋਕਨਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜਦੋਂ ਕਿ ਇੱਕ ਘੰਟੇ ਦੇ ਕੰਮ ਲਈ ਲੱਖਾਂ ਟੋਕਨਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਇਹ ਮੌਜੂਦਾ ਟੈਸਟਿੰਗ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਅੰਨ੍ਹਾ ਕੋਨਾ (blind spot) ਪੈਦਾ ਕਰਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, AISI ਸਾਈਬਰ ਸੁਰੱਖਿਆ ਕੰਮ "The Last Ones" ਲਈ ਲਗਭਗ 20 ਘੰਟੇ ਦੀ ਮਨੁੱਖੀ ਮੁਹਾਰਤ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਸੰਸਥਾ ਦੁਆਰਾ ਟੈਸਟ ਕੀਤੇ ਗਏ ਕਿਸੇ ਵੀ ਮਾਡਲ ਨੇ 30 ਮਿਲੀਅਨ ਟੋਕਨਾਂ ਤੋਂ ਘੱਟ ਵਿੱਚ ਇਸ ਕੰਮ ਨੂੰ ਹੱਲ ਨਹੀਂ ਕੀਤਾ। ਮਿਆਰੀ, ਘੱਟ ਬਜਟ ਵਾਲੇ ਮੁਲਾਂਕਣਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਖੋਜਕਰਤਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤਰੂਪ ਨਾਲ ਮਾਪ ਪ੍ਰਕਿਰਿਆ ਤੋਂ ਸਭ ਤੋਂ ਗੁੰਝਲਦਾਰ ਅਤੇ ਮਹੱਤਵਪੂਰਨ ਕੰਮਾਂ ਨੂੰ ਬਾਹਰ ਰੱਖ ਰਹੇ ਹਨ।

ਪ੍ਰਗਤੀ ਨੂੰ ਤੇਜ਼ ਕਰਨਾ ਅਤੇ ਸੁਧਾਰ ਦੇ ਤਿੰਨ ਅੱਖ (The Three Axes of Improvement)

AISI ਨੋਟ ਕਰਦਾ ਹੈ ਕਿ ਫਰੰਟੀਅਰ ਮਾਡਲਾਂ ਦਾ "ਟਾਈਮ ਹੋਰਾਈਜ਼ਨ" (time horizon)—ਉਹਨਾਂ ਦੁਆਰਾ ਸੰਭਾਲੇ ਜਾ ਸਕਣ ਵਾਲੇ ਕੰਮਾਂ ਦੀ ਗੁੰਝਲਤਾ—ਪਹਿਲਾਂ ਨਾਲੋਂ ਕਿਤੇ ਜ਼ਿਆਦਾ ਤੇਜ਼ੀ ਨਾਲ ਵਧ ਰਿਹਾ ਹੈ। ਜਦੋਂ ਕਿ ਪਹਿਲੇ ਅਨੁਮਾਨਾਂ ਨੇ ਸੁਝਾਅ ਦਿੱਤਾ ਸੀ ਕਿ 2.5 ਮਿਲੀਅਨ ਟੋਕਨ ਦੇ ਨਿਸ਼ਚਿਤ ਬਜਟ 'ਤੇ ਸਾਈਬਰ ਕੰਮਾਂ ਲਈ ਟਾਈਮ ਹੋਰਾਈਜ਼ਨ ਹਰ 4.7 ਮਹੀਨਿਆਂ ਵਿੱਚ ਦੁੱਗਣੀ ਹੋ ਜਾਂਦੀ ਹੈ, ਉੱਚੇ ਬਜਟਾਂ 'ਤੇ ਉਹ ਦਰ ਕਾਫ਼ੀ ਤੇਜ਼ ਹੋ ਜਾਂਦੀ ਹੈ। 50 ਮਿਲੀਅਨ ਟੋਕਨਾਂ 'ਤੇ, ਦੁੱਗਣੀ ਹੋਣ ਦੀ ਦਰ ਹਰ 40 ਤੋਂ 50 ਦਿਨਾਂ ਵਿੱਚ ਹੋ ਜਾਂਦੀ ਹੈ।

ਨਵੇਂ ਮਾਡਲ (ਜਿਵੇਂ ਕਿ ਟੈਸਟ ਕੀਤੇ ਗਏ GPT ਅਤੇ Claude ਸੀਰੀਜ਼) ਤਿੰਨ ਵਿਸ਼ੇਸ਼ ਪਹਿਲੂਆਂ ਵਿੱਚ ਸੁਧਾਰ ਦਿਖਾਉਂਦੇ ਹਨ:

  • Reach (ਪਹੁੰਚ): ਲਗਾਤਾਰ ਵਧਦੇ ਮੁਸ਼ਕਲ ਕੰਮਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ਦੀ ਯੋਗਤਾ।
  • Reliability (ਭਰੋਸੇਯੋਗਤਾ): ਇੱਕੋ ਕੰਮ ਨੂੰ ਵਧੇਰੇ ਨਿਰੰਤਰਤਾ ਨਾਲ ਹੱਲ ਕਰਨ ਦੀ ਯੋਗਤਾ।
  • Efficiency (ਕਾਰਜਕੁਸ਼ਲਤਾ): ਘੱਟ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੰਮਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਯੋਗਤਾ।

AI ਸੁਰੱਖਿਆ ਅਤੇ ਤੈਨਾਤੀ (Deployment) ਲਈ ਪ੍ਰਭਾਵ

ਇਹ ਖੋਜ AI ਮੁਲਾਂਕਣ ਦੇ ਪੈਰਾਡਾਈਮ ਨੂੰ "ਨਿਸ਼ਚਿਤ ਸਕੋਰਾਂ" ਤੋਂ "ਕੰਪਿਊਟ-ਅਵੇਅਰ ਕਰਵਜ਼" (compute-aware curves) ਵਿੱਚ ਬਦਲ ਦਿੰਦੀ ਹੈ। ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਸੰਸਥਾਪਕਾਂ ਲਈ, ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇੱਕ ਮਾਡਲ ਦੀ ਉਪਯੋਗਤਾ ਸਿਰਫ਼ ਇਸਦੀ ਸਿਖਲਾਈ (training) 'ਤੇ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਇਸ 'ਤੇ ਵੀ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ਕਿ ਤੈਨਾਤੀ (deployment) ਦੌਰਾਨ ਕਿੰਨਾ ਇਨਫਰੈਂਸ ਕੰਪਿਊਟ (inference compute) ਅਲਾਟ ਕੀਤਾ ਗਿਆ ਹੈ।

ਜਿਵੇਂ-ਜਿਵੇਂ ਪ੍ਰਤੀ ਟੋਕਨ ਦੀ ਲਾਗਤ ਘਟਦੀ ਜਾ ਰਹੀ ਹੈ, ਉਹ ਸਮਰੱਥਾਵਾਂ ਜੋ ਪਹਿਲਾਂ ਆਰਥਿਕ ਤੌਰ 'ਤੇ ਅਸੰਭਵ ਲੱਗਦੀਆਂ ਸਨ, ਮਿਆਰੀ ਬਣ ਜਾਣਗੀਆਂ। AI ਸੁਰੱਖਿਆ ਅਤੇ ਸੁਰੱਖਿਆ ਲਈ, ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਸਵੈ-ਚਾਲਿਤ ਏਜੰਟਾਂ (autonomous agents) ਨਾਲ ਸਬੰਧਤ ਜੋਖਮਾਂ—ਜਿਵੇਂ ਕਿ ਗੁੰਝਲਦਾਰ ਸਾਈਬਰ ਹਮਲੇ—ਨੂੰ ਕਾਫ਼ੀ ਘੱਟ ਅੰਕਾਂ ਵਿੱਚ ਮਾਪਿਆ ਜਾ ਸਕਦਾ ਹੈ ਜੇਕਰ ਨਿਯਮਕ ਅਤੇ ਕੰਪਨੀਆਂ ਰਵਾਇਤੀ, ਘੱਟ ਬਜਟ ਵਾਲੇ ਬੈਂਚਮਾਰਕਸ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ।

ਮੁੱਖ ਨੁਕਤੇ (Key Takeaways)

  • ਬੈਂਚਮਾਰਕਸ ਭਰਮਾਊ ਹਨ: ਨਿਸ਼ਚਿਤ ਟੋਕਨ ਬਜਟ ਇੱਕ ਮਾਡਲ ਦੀ ਘੱਟੋ-ਘੱਟ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ, ਜਿਸ ਨਾਲ AI ਏਜੰਟਾਂ ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਕੀਤੀ ਜਾ ਸਕਣ ਵਾਲੀ ਵੱਧ ਤੋਂ ਵੱਧ ਸੀਮਾ ਨੂੰ ਪ੍ਰਣਾਲੀਗਤ ਰੂਪ ਵਿੱਚ ਘੱਟ ਅੰਕਾਂ ਵਿੱਚ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ।
  • ਕੰਪਿਊਟ ਸਮਰੱਥਾ ਵਧਾਉਂਦਾ ਹੈ: ਜਿਵੇਂ-ਜਿਵੇਂ ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ ਬਜਟ ਵਧਦਾ ਹੈ, ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਅਤੇ ਗਣਿਤ ਵਿੱਚ ਸਫਲਤਾ ਦੀ ਦਰ ਵਿੱਚ ਕਾਫ਼ੀ ਵਾਧਾ ਹੁੰਦਾ ਹੈ।
  • "ਦੁੱਗਣੀ" ਹੋਣ ਦੀ ਦਰ ਤੇਜ਼ ਹੋ ਰਹੀ ਹੈ: ਉੱਚੇ ਕੰਪਿਊਟ ਬਜਟਾਂ 'ਤੇ, ਫਰੰਟੀਅਰ ਮਾਡਲਾਂ ਦੁਆਰਾ ਗੁੰਝਲਦਾਰ ਕੰਮਾਂ ਵਿੱਚ ਮੁਹਾਰਤ ਹਾਸਲ ਕਰਨ ਦੀ ਦਰ ਪਹਿਲਾਂ ਦੇ ਅਨੁਮਾਨਾਂ ਨਾਲੋਂ ਕਿਤੇ ਜ਼ਿਆਦਾ ਤੇ