ਨਵੇਂ MirrorCode ਬੈਂਚਮਾਰਕ ਵਿੱਚ AI ਮਾਡਲ 19 ਦਿਨਾਂ ਤੱਕ ਲਗਾਤਾਰ ਚੱਲੇ

ਖੁਦਮੁਖਤਿਆਰ (autonomous) ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਦਾ ਖੇਤਰ ਹੁਣ ਸਧਾਰਨ ਕੋਡ ਸਨਿਪੇਟਸ ਤੋਂ ਬਦਲ ਕੇ ਵਿਸ਼ਾਲ, ਕਈ ਦਿਨਾਂ ਤੱਕ ਚੱਲਣ ਵਾਲੀਆਂ ਪ੍ਰੋਗਰਾਮਿੰਗ ਮੈਰਾਥਨਾਂ ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ। Epoch AI ਅਤੇ METR ਵੱਲੋਂ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ, ਜਿਸਦਾ ਨਾਮ MirrorCode ਹੈ, ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ AI ਮਾਡਲ ਹੁਣ ਉਹਨਾਂ ਗੁੰਝਲਦਾਰ ਰੀ-ਇਮਪਲੀਮੈਂਟੇਸ਼ਨ (reimplementation) ਕੰਮਾਂ ਨੂੰ ਹੱਲ ਕਰ ਸਕਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਲਈ ਪਹਿਲਾਂ ਹਫ਼ਤਿਆਂ ਦੀ ਮਨੁੱਖੀ ਮਿਹਨਤ ਦੀ ਲੋੜ ਹੁੰਦੀ ਸੀ।

MirrorCode ਨਾਲ AI ਨੂੰ ਚੁਣੌਤੀ ਦੇਣਾ

MirrorCode ਰਵਾਇਤੀ ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ ਇੱਕ ਵੱਡਾ ਫਰਕ ਹੈ, ਜੋ ਆਮ ਤੌਰ 'ਤੇ ਪ੍ਰਤੀ ਕੰਮ ਇਨਫਰੈਂਸ (inference) ਲਾਗਤ ਨੂੰ ਸਿਰਫ $1 ਤੋਂ $10 ਤੱਕ ਸੀਮਤ ਰੱਖਦੇ ਹਨ। ਇਸ ਦੀ ਬਜਾਏ, ਇਹ ਬੈਂਚਮਾਰਕ AI ਮਾਡਲਾਂ ਤੋਂ ਇਹ ਮੰਗ ਕਰਦਾ ਹੈ ਕਿ ਉਹ ਅਸਲ ਸੋਰਸ ਕੋਡ ਤੱਕ ਪਹੁੰਚ ਤੋਂ ਬਿਨਾਂ—Unix utilities ਅਤੇ cryptography ਤੋਂ ਲੈ ਕੇ bioinformatics ਅਤੇ data serialization ਤੱਕ—ਪੂਰੇ, ਗੁੰਝਲਦਾਰ ਪ੍ਰੋਗਰਾਮਾਂ ਨੂੰ ਸ਼ੁਰੂ ਤੋਂ ਦੁਬਾਰਾ ਲਿਖਣ (reimplement) ਦੀ ਯੋਗਤਾ ਰੱਖਣ। ਅਸਲ ਫੰਕਸ਼ਨਲ ਸਮਾਨਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ, ਹਰੇਕ AI-ਜਨਰੇਟਡ ਹੱਲ ਨੂੰ ਉਹਨਾਂ ਗੁਪਤ end-to-end ਟੈਸਟਾਂ ਨੂੰ ਪਾਸ ਕਰਨਾ ਪੈਂਦਾ ਹੈ ਜੋ ਮਾਡਲ ਨੂੰ ਉਸਦੇ ਵਿਕਾਸ ਪੜਾਅ ਦੌਰਾਨ ਕਦੇ ਨਹੀਂ ਦਿਖਾਏ ਜਾਂਦੇ।

ਇਹਨਾਂ ਕੰਮਾਂ ਦਾ ਪੈਮਾਨਾ ਬੇਮਿਸਾਲ ਹੈ। ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਇੱਕ ਵਿਸ਼ੇਸ਼ ਕੰਮ ਲਈ ਇੱਕ AI ਮਾਡਲ ਨੂੰ ਕਿਸੇ ਵੀ ਮਨੁੱਖੀ ਦਖਲਅੰਦਾਜ਼ੀ ਤੋਂ ਬਿਨਾਂ ਲਗਾਤਾਰ 19 ਦਿਨਾਂ ਤੱਕ ਕੰਮ ਕਰਨ ਦੀ ਲੋੜ ਸੀ, ਜਿਸ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਸਿੰਗਲ ਰਨ ਲਈ $2,600 ਦੀ ਇਨਫਰੈਂਸ ਲਾਗਤ ਆਈ।

Claude Opus 4.7 ਦੌੜ ਵਿੱਚ ਸਭ ਤੋਂ ਅੱਗੇ

ਬੈਂਚਮਾਰਕ ਦੇ ਨਤੀਜੇ ਮੌਜੂਦਾ ਫਰੰਟੀਅਰ ਮਾਡਲਾਂ ਵਿੱਚ ਇੱਕ ਸਪਸ਼ਟ ਪਦਰਾੰਤਰ (hierarchy) ਨੂੰ ਉਜਾਗਰ ਕਰਦੇ ਹਨ। Claude Opus 4.7 56 ਪ੍ਰਤੀਸ਼ਤ ਸਲਵ ਰੇਟ (solve rate) ਦੇ ਨਾਲ ਲੀਡਰ ਵਜੋਂ ਉਭਰਿਆ, ਜਿਸ ਨੇ GPT-5.5 (44 ਪ੍ਰਤੀਸ਼ਤ) ਅਤੇ Gemini 3.1 Pro Preview (32 ਪ੍ਰਤੀਸ਼ਤ) ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ।

ਇੱਕ ਸ਼ਾਨਦਾਰ ਸਫਲਤਾ bioinformatics toolkit gotree ਨਾਲ ਸਬੰਧਤ ਸੀ। ਇਸ ਪ੍ਰੋਗਰਾਮ ਵਿੱਚ ਲਗਭਗ 16,000 ਲਾਈਨਾਂ ਦਾ Go ਕੋਡ ਸ਼ਾਮਲ ਹੈ ਅਤੇ ਇਸ ਵਿੱਚ 40 ਤੋਂ ਵੱਧ ਵੱਖ-ਵੱਖ ਕਮਾਂਡਾਂ ਹਨ। ਜਦੋਂ ਕਿ ਇੱਕ ਮਨੁੱਖੀ ਇੰਜੀਨੀਅਰ ਨੂੰ ਅਜਿਹਾ ਕੰਮ ਪੂਰਾ ਕਰਨ ਲਈ ਆਮ ਤੌਰ 'ਤੇ 2 ਤੋਂ 17 ਹਫ਼ਤਿਆਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, Claude Opus 4.7 ਨੇ ਇਸਨੂੰ ਸਿਰਫ 14 ਘੰਟਿਆਂ ਵਿੱਚ $251 ਦੀ ਲਾਗਤ 'ਤੇ ਸਫਲਤਾਪੂਰਵਕ ਰੀ-ਇਮਪਲੀਮੈਂਟ ਕੀਤਾ। ਇੱਥੋਂ ਤੱਕ ਕਿ ਉਹਨਾਂ ਮਾਮਲਿਆਂ ਵਿੱਚ ਵੀ ਜਿੱਥੇ ਮਾਡਲ 100 ਪ੍ਰਤੀਸ਼ਤ ਸੰਪੂਰਨ ਰੀ-ਇਮਪਲੀਮੈਂਟੇਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ, ਉਹ ਹੈਰਾਨੀਜਨਕ ਤੌਰ 'ਤੇ 90 ਪ੍ਰਤੀਸ਼ਤ ਤੋਂ ਵੱਧ ਫੰਕਸ਼ਨਲ ਟੈਸਟਾਂ ਨੂੰ ਪਾਸ ਕਰ ਲੈਂਦੇ ਹਨ।

ਗੁੰਝਲਦਾਰਤਾ ਦਾ ਪਾੜਾ ਅਤੇ ਯਾਦ ਰੱਖਣ (Memorization) ਦੇ ਜੋਖਮ

ਇਹਨਾਂ ਉਛਾਲਾਂ ਦੇ ਬਾਵਜੂਦ, MirrorCode ਦੇ ਨਤੀਜੇ ਇੱਕ ਸਪਸ਼ਟ "ਗੁੰਝਲਦਾਰਤਾ ਦੀ ਸੀਮਾ" (complexity ceiling) ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਹਾਲਾਂਕਿ ਸਾਰੇ ਟੈਸਟ ਕੀਤੇ ਗਏ ਮਾਡਲ uuid ਜਾਂ parseqsv ਵਰਗੇ ਛੋਟੇ ਪ੍ਰੋਗਰਾਮਾਂ ਨੂੰ ਭਰੋਸੇਯੋਗਤਾ ਨਾਲ ਸੰਭਾਲਦੇ ਹਨ, ਪਰ ਫਿਲਹਾਲ ਕਿਸੇ ਵੀ ਮਾਡਲ ਵਿੱਚ "ਵੱਡੇ" (large) ਸ਼੍ਰੇਣੀ ਦੇ ਕੰਮਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਹੱਲ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਨਹੀਂ ਹੈ। AI ਕੋਡਿੰਗ ਦਾ ਮੌਜੂਦਾ ਮੋਹਰੀ ਹਿੱਸਾ ਅਜੇ ਵੀ ਸਭ ਤੋਂ ਵਿਸ਼ਾਲ ਅਤੇ ਆਪਸ ਵਿੱਚ ਜੁੜੇ ਹੋਏ ਸਾਫਟਵੇਅਰ ਆਰਕੀਟੈਕਚਰਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਦੇ ਸਮੇਂ ਸੰਘਰਸ਼ ਕਰ ਰਿਹਾ ਹੈ।

Epoch AI ਨੇ LLM ਮੁਲਾਂਕਣ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਚਿੰਤਾ 'ਤੇ ਵੀ ਧਿਆਨ ਦਿੱਤਾ: ਡਾਟਾ ਕੰਟੈਮੀਨੇਸ਼ਨ (data contamination)। ਕਿਉਂਕਿ ਇਹ ਬੈਂਚਮਾਰਕ ਓਪਨ-ਸੋਰਸ ਪ੍ਰੋਗਰਾਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਇਸ ਲਈ ਇਹ ਜੋਖਮ ਹੈ ਕਿ ਮਾਡਲਾਂ ਨੇ ਆਪਣੇ ਟ੍ਰੇਨਿੰਗ ਪੜਾਅ ਦੌਰਾਨ ਅਸਲ ਕੋਡ ਨੂੰ ਪਹਿਲਾਂ ਹੀ ਯਾਦ ਕਰ ਲਿਆ ਹੋਵੇਗਾ। ਹਾਲਾਂਕਿ ਸ਼ੁਰੂਆਤੀ ਖੋਜਾਂ ਤੋਂ ਸੰਕੇਤ ਮਿਲਦਾ ਹੈ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਸਿਰਫ ਯਾਦ ਰੱਖਣ (memorization) ਕਾਰਨ ਨਹੀਂ ਹੈ, ਫਿਰ ਵੀ ਖੋਜਕਰਤਾ ਮੰਨਦੇ ਹਨ ਕਿ ਉਹ ਮੌਜੂਦਾ ਸਲਵ ਰੇਟਾਂ ਵਿੱਚ ਇਸਦੇ ਯੋਗਦਾਨ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਕਾਰ ਨਹੀਂ ਸਕਦੇ।

ਇਹ AI ਉਦਯੋਗ ਲਈ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ

MirrorCode "AI as a Copilot" ਤੋਂ "AI as an Autonomous Agent" ਵੱਲ ਤਬਦੀਲੀ ਦਾ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ। ਇਹ ਸਾਬਤ ਕਰਕੇ ਕਿ ਮਾਡਲ 19 ਦਿਨਾਂ ਦੇ ਸਮੇਂ ਦੌਰਾਨ ਤਰਕ (reasoning) ਨੂੰ ਬਣਾਈ ਰੱਖ ਸਕਦੇ ਹਨ ਅਤੇ ਹਜ਼ਾਰਾਂ ਲਾਈਨਾਂ ਦੇ ਕੋਡ ਨੂੰ ਸੰਭਾਲ ਸਕਦੇ ਹਨ, ਉਦਯੋਗ ਪੂਰੇ ਸਾਫਟਵੇਅਰ ਲਾਈਫਸਾਈਕਲ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਨ ਦੇ ਯੋਗ ਏਜੰਟਾਂ ਦੇ ਨੇੜੇ ਜਾ ਰਿਹਾ ਹੈ। ਜਿਵੇਂ-ਜਿਵੇਂ ਇਨਫਰੈਂਸ ਲਾਗਤਾਂ ਵਿੱਚ ਉਤਾਰ-ਚੜ੍ਹਾਅ ਆ ਰਿਹਾ ਹੈ—ਜਿੱਥੇ GPT-5.5 ਦੀ ਲਾਗਤ ਇਸਦੇ ਪਿਛਲੇ ਮਾਡਲ ਨਾਲੋਂ ਤਿੰਨ ਗੁਣਾ ਜ਼ਿਆਦਾ ਹੈ, ਜਦੋਂ ਕਿ Claude Opus 4.7 ਤਿੰਨ ਗੁਣਾ ਵਧੇਰੇ ਕੁਸ਼ਲ ਹੋ ਗਿਆ ਹੈ—ਖੁਦਮੁਖਤਿਆਰ ਇੰਜੀਨੀਅਰਿੰਗ ਦੀ ਆਰਥਿਕ ਵਿਵਹਾਰਕਤਾ ਅਗਲੀ ਵੱਡੀ ਚੁਣੌਤੀ ਬਣ ਜਾਵੇਗੀ।

ਮੁੱਖ ਗੱਲਾਂ

  • ਤਰਕ ਦਾ ਨਵਾਂ ਪੈਮਾਨਾ: MirrorCode ਵਿਸ਼ਾਲ ਇਨਫਰੈਂਸ ਬਜਟ ਦੀ ਇਜਾਜ਼ਤ ਦੇ ਕੇ AI ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਸਿੰਗਲ ਕੰਮਾਂ ਦੀ ਲਾਗਤ $2,600 ਤੱਕ ਹੋ ਸਕਦੀ ਹੈ ਅਤੇ ਇਹ 19 ਦਿਨਾਂ ਤੱਕ ਚੱਲ ਸਕਦੇ ਹਨ।
  • Claude ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਮੋਹਰੀ ਹੈ: Claude Opus 4.7 ਇਸ ਸਮੇਂ 56% ਸਲਵ ਰੇਟ ਦੇ ਨਾਲ ਬੈਂਚਮਾਰਕ ਲੀਡਰ ਹੈ, ਜੋ ਵੱਡੇ ਪੱਧਰ ਦੇ Go codebase ਨੂੰ ਰੀ-ਇਮਪਲੀਮੈਂਟ ਕਰਨ ਵਿੱਚ ਉੱਤਮ ਯੋਗਤਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।
  • ਗੁੰਝਲਦਾਰਤਾ ਦੀਆਂ ਰੁਕਾਵਟਾਂ ਅਜੇ ਵੀ ਬਾਕੀ ਹਨ: ਹਾਲਾਂਕਿ ਛੋਟੇ ਪੱਧਰ ਦੇ ਕੰਮ ਭਰੋਸੇਯੋਗਤਾ ਨਾਲ ਹੱਲ ਕੀਤੇ ਜਾ ਰਹੇ ਹਨ, ਪਰ ਕੋਈ ਵੀ ਮੌਜੂਦਾ ਮਾਡਲ ਅਜੇ ਤੱਕ ਸਭ ਤੋਂ ਗੁੰਝਲਦਾਰ, ਵੱਡੇ ਪੱਧਰ ਦੇ ਪ੍ਰੋਗਰਾਮਿੰਗ ਕੰਮਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਹੱਲ ਨਹੀਂ ਕਰ ਸਕਦਾ।