ਨਵੇਂ MirrorCode ਬੈਂਚਮਾਰਕ ਵਿੱਚ AI ਮਾਡਲ 19 ਦਿਨਾਂ ਤੱਕ ਲਗਾਤਾਰ ਚੱਲੇ

Translated for your language. Read the original.

AI-assisted draft.

In this article

ਨਵੇਂ MirrorCode ਬੈਂਚਮਾਰਕ ਵਿੱਚ AI ਮਾਡਲ 19 ਦਿਨਾਂ ਤੱਕ ਲਗਾਤਾਰ ਚੱਲੇ

ਖੁਦਮੁਖਤਿਆਰ (autonomous) ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਦਾ ਖੇਤਰ ਹੁਣ ਸਧਾਰਨ ਕੋਡ ਸਨਿਪੇਟਸ ਤੋਂ ਬਦਲ ਕੇ ਵਿਸ਼ਾਲ, ਕਈ ਦਿਨਾਂ ਤੱਕ ਚੱਲਣ ਵਾਲੀਆਂ ਪ੍ਰੋਗਰਾਮਿੰਗ ਮੈਰਾਥਨਾਂ ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ। Epoch AI ਅਤੇ METR ਵੱਲੋਂ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ, ਜਿਸਦਾ ਨਾਮ MirrorCode ਹੈ, ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ AI ਮਾਡਲ ਹੁਣ ਉਹਨਾਂ ਗੁੰਝਲਦਾਰ ਰੀ-ਇਮਪਲੀਮੈਂਟੇਸ਼ਨ (reimplementation) ਕੰਮਾਂ ਨੂੰ ਹੱਲ ਕਰ ਸਕਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਲਈ ਪਹਿਲਾਂ ਹਫ਼ਤਿਆਂ ਦੀ ਮਨੁੱਖੀ ਮਿਹਨਤ ਦੀ ਲੋੜ ਹੁੰਦੀ ਸੀ।

MirrorCode ਨਾਲ AI ਨੂੰ ਚੁਣੌਤੀ ਦੇਣਾ

MirrorCode ਰਵਾਇਤੀ ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਬੈਂਚਮਾਰਕਾਂ ਤੋਂ ਇੱਕ ਵੱਡਾ ਫਰਕ ਹੈ, ਜੋ ਆਮ ਤੌਰ 'ਤੇ ਪ੍ਰਤੀ ਕੰਮ ਇਨਫਰੈਂਸ (inference) ਲਾਗਤ ਨੂੰ ਸਿਰਫ $1 ਤੋਂ $10 ਤੱਕ ਸੀਮਤ ਰੱਖਦੇ ਹਨ। ਇਸ ਦੀ ਬਜਾਏ, ਇਹ ਬੈਂਚਮਾਰਕ AI ਮਾਡਲਾਂ ਤੋਂ ਇਹ ਮੰਗ ਕਰਦਾ ਹੈ ਕਿ ਉਹ ਅਸਲ ਸੋਰਸ ਕੋਡ ਤੱਕ ਪਹੁੰਚ ਤੋਂ ਬਿਨਾਂ—Unix utilities ਅਤੇ cryptography ਤੋਂ ਲੈ ਕੇ bioinformatics ਅਤੇ data serialization ਤੱਕ—ਪੂਰੇ, ਗੁੰਝਲਦਾਰ ਪ੍ਰੋਗਰਾਮਾਂ ਨੂੰ ਸ਼ੁਰੂ ਤੋਂ ਦੁਬਾਰਾ ਲਿਖਣ (reimplement) ਦੀ ਯੋਗਤਾ ਰੱਖਣ। ਅਸਲ ਫੰਕਸ਼ਨਲ ਸਮਾਨਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ, ਹਰੇਕ AI-ਜਨਰੇਟਡ ਹੱਲ ਨੂੰ ਉਹਨਾਂ ਗੁਪਤ end-to-end ਟੈਸਟਾਂ ਨੂੰ ਪਾਸ ਕਰਨਾ ਪੈਂਦਾ ਹੈ ਜੋ ਮਾਡਲ ਨੂੰ ਉਸਦੇ ਵਿਕਾਸ ਪੜਾਅ ਦੌਰਾਨ ਕਦੇ ਨਹੀਂ ਦਿਖਾਏ ਜਾਂਦੇ।

ਇਹਨਾਂ ਕੰਮਾਂ ਦਾ ਪੈਮਾਨਾ ਬੇਮਿਸਾਲ ਹੈ। ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਇੱਕ ਵਿਸ਼ੇਸ਼ ਕੰਮ ਲਈ ਇੱਕ AI ਮਾਡਲ ਨੂੰ ਕਿਸੇ ਵੀ ਮਨੁੱਖੀ ਦਖਲਅੰਦਾਜ਼ੀ ਤੋਂ ਬਿਨਾਂ ਲਗਾਤਾਰ 19 ਦਿਨਾਂ ਤੱਕ ਕੰਮ ਕਰਨ ਦੀ ਲੋੜ ਸੀ, ਜਿਸ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਸਿੰਗਲ ਰਨ ਲਈ $2,600 ਦੀ ਇਨਫਰੈਂਸ ਲਾਗਤ ਆਈ।

Claude Opus 4.7 ਦੌੜ ਵਿੱਚ ਸਭ ਤੋਂ ਅੱਗੇ

ਬੈਂਚਮਾਰਕ ਦੇ ਨਤੀਜੇ ਮੌਜੂਦਾ ਫਰੰਟੀਅਰ ਮਾਡਲਾਂ ਵਿੱਚ ਇੱਕ ਸਪਸ਼ਟ ਪਦਰਾੰਤਰ (hierarchy) ਨੂੰ ਉਜਾਗਰ ਕਰਦੇ ਹਨ। Claude Opus 4.7 56 ਪ੍ਰਤੀਸ਼ਤ ਸਲਵ ਰੇਟ (solve rate) ਦੇ ਨਾਲ ਲੀਡਰ ਵਜੋਂ ਉਭਰਿਆ, ਜਿਸ ਨੇ GPT-5.5 (44 ਪ੍ਰਤੀਸ਼ਤ) ਅਤੇ Gemini 3.1 Pro Preview (32 ਪ੍ਰਤੀਸ਼ਤ) ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ।

ਇੱਕ ਸ਼ਾਨਦਾਰ ਸਫਲਤਾ bioinformatics toolkit gotree ਨਾਲ ਸਬੰਧਤ ਸੀ। ਇਸ ਪ੍ਰੋਗਰਾਮ ਵਿੱਚ ਲਗਭਗ 16,000 ਲਾਈਨਾਂ ਦਾ Go ਕੋਡ ਸ਼ਾਮਲ ਹੈ ਅਤੇ ਇਸ ਵਿੱਚ 40 ਤੋਂ ਵੱਧ ਵੱਖ-ਵੱਖ ਕਮਾਂਡਾਂ ਹਨ। ਜਦੋਂ ਕਿ ਇੱਕ ਮਨੁੱਖੀ ਇੰਜੀਨੀਅਰ ਨੂੰ ਅਜਿਹਾ ਕੰਮ ਪੂਰਾ ਕਰਨ ਲਈ ਆਮ ਤੌਰ 'ਤੇ 2 ਤੋਂ 17 ਹਫ਼ਤਿਆਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, Claude Opus 4.7 ਨੇ ਇਸਨੂੰ ਸਿਰਫ 14 ਘੰਟਿਆਂ ਵਿੱਚ $251 ਦੀ ਲਾਗਤ 'ਤੇ ਸਫਲਤਾਪੂਰਵਕ ਰੀ-ਇਮਪਲੀਮੈਂਟ ਕੀਤਾ। ਇੱਥੋਂ ਤੱਕ ਕਿ ਉਹਨਾਂ ਮਾਮਲਿਆਂ ਵਿੱਚ ਵੀ ਜਿੱਥੇ ਮਾਡਲ 100 ਪ੍ਰਤੀਸ਼ਤ ਸੰਪੂਰਨ ਰੀ-ਇਮਪਲੀਮੈਂਟੇਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ, ਉਹ ਹੈਰਾਨੀਜਨਕ ਤੌਰ 'ਤੇ 90 ਪ੍ਰਤੀਸ਼ਤ ਤੋਂ ਵੱਧ ਫੰਕਸ਼ਨਲ ਟੈਸਟਾਂ ਨੂੰ ਪਾਸ ਕਰ ਲੈਂਦੇ ਹਨ।

ਗੁੰਝਲਦਾਰਤਾ ਦਾ ਪਾੜਾ ਅਤੇ ਯਾਦ ਰੱਖਣ (Memorization) ਦੇ ਜੋਖਮ

ਇਹਨਾਂ ਉਛਾਲਾਂ ਦੇ ਬਾਵਜੂਦ, MirrorCode ਦੇ ਨਤੀਜੇ ਇੱਕ ਸਪਸ਼ਟ "ਗੁੰਝਲਦਾਰਤਾ ਦੀ ਸੀਮਾ" (complexity ceiling) ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ। ਹਾਲਾਂਕਿ ਸਾਰੇ ਟੈਸਟ ਕੀਤੇ ਗਏ ਮਾਡਲ uuid ਜਾਂ parseqsv ਵਰਗੇ ਛੋਟੇ ਪ੍ਰੋਗਰਾਮਾਂ ਨੂੰ ਭਰੋਸੇਯੋਗਤਾ ਨਾਲ ਸੰਭਾਲਦੇ ਹਨ, ਪਰ ਫਿਲਹਾਲ ਕਿਸੇ ਵੀ ਮਾਡਲ ਵਿੱਚ "ਵੱਡੇ" (large) ਸ਼੍ਰੇਣੀ ਦੇ ਕੰਮਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਹੱਲ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਨਹੀਂ ਹੈ। AI ਕੋਡਿੰਗ ਦਾ ਮੌਜੂਦਾ ਮੋਹਰੀ ਹਿੱਸਾ ਅਜੇ ਵੀ ਸਭ ਤੋਂ ਵਿਸ਼ਾਲ ਅਤੇ ਆਪਸ ਵਿੱਚ ਜੁੜੇ ਹੋਏ ਸਾਫਟਵੇਅਰ ਆਰਕੀਟੈਕਚਰਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਦੇ ਸਮੇਂ ਸੰਘਰਸ਼ ਕਰ ਰਿਹਾ ਹੈ।

Epoch AI ਨੇ LLM ਮੁਲਾਂਕਣ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਚਿੰਤਾ 'ਤੇ ਵੀ ਧਿਆਨ ਦਿੱਤਾ: ਡਾਟਾ ਕੰਟੈਮੀਨੇਸ਼ਨ (data contamination)। ਕਿਉਂਕਿ ਇਹ ਬੈਂਚਮਾਰਕ ਓਪਨ-ਸੋਰਸ ਪ੍ਰੋਗਰਾਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਇਸ ਲਈ ਇਹ ਜੋਖਮ ਹੈ ਕਿ ਮਾਡਲਾਂ ਨੇ ਆਪਣੇ ਟ੍ਰੇਨਿੰਗ ਪੜਾਅ ਦੌਰਾਨ ਅਸਲ ਕੋਡ ਨੂੰ ਪਹਿਲਾਂ ਹੀ ਯਾਦ ਕਰ ਲਿਆ ਹੋਵੇਗਾ। ਹਾਲਾਂਕਿ ਸ਼ੁਰੂਆਤੀ ਖੋਜਾਂ ਤੋਂ ਸੰਕੇਤ ਮਿਲਦਾ ਹੈ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਸਿਰਫ ਯਾਦ ਰੱਖਣ (memorization) ਕਾਰਨ ਨਹੀਂ ਹੈ, ਫਿਰ ਵੀ ਖੋਜਕਰਤਾ ਮੰਨਦੇ ਹਨ ਕਿ ਉਹ ਮੌਜੂਦਾ ਸਲਵ ਰੇਟਾਂ ਵਿੱਚ ਇਸਦੇ ਯੋਗਦਾਨ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਕਾਰ ਨਹੀਂ ਸਕਦੇ।

ਇਹ AI ਉਦਯੋਗ ਲਈ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ

MirrorCode "AI as a Copilot" ਤੋਂ "AI as an Autonomous Agent" ਵੱਲ ਤਬਦੀਲੀ ਦਾ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ। ਇਹ ਸਾਬਤ ਕਰਕੇ ਕਿ ਮਾਡਲ 19 ਦਿਨਾਂ ਦੇ ਸਮੇਂ ਦੌਰਾਨ ਤਰਕ (reasoning) ਨੂੰ ਬਣਾਈ ਰੱਖ ਸਕਦੇ ਹਨ ਅਤੇ ਹਜ਼ਾਰਾਂ ਲਾਈਨਾਂ ਦੇ ਕੋਡ ਨੂੰ ਸੰਭਾਲ ਸਕਦੇ ਹਨ, ਉਦਯੋਗ ਪੂਰੇ ਸਾਫਟਵੇਅਰ ਲਾਈਫਸਾਈਕਲ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਨ ਦੇ ਯੋਗ ਏਜੰਟਾਂ ਦੇ ਨੇੜੇ ਜਾ ਰਿਹਾ ਹੈ। ਜਿਵੇਂ-ਜਿਵੇਂ ਇਨਫਰੈਂਸ ਲਾਗਤਾਂ ਵਿੱਚ ਉਤਾਰ-ਚੜ੍ਹਾਅ ਆ ਰਿਹਾ ਹੈ—ਜਿੱਥੇ GPT-5.5 ਦੀ ਲਾਗਤ ਇਸਦੇ ਪਿਛਲੇ ਮਾਡਲ ਨਾਲੋਂ ਤਿੰਨ ਗੁਣਾ ਜ਼ਿਆਦਾ ਹੈ, ਜਦੋਂ ਕਿ Claude Opus 4.7 ਤਿੰਨ ਗੁਣਾ ਵਧੇਰੇ ਕੁਸ਼ਲ ਹੋ ਗਿਆ ਹੈ—ਖੁਦਮੁਖਤਿਆਰ ਇੰਜੀਨੀਅਰਿੰਗ ਦੀ ਆਰਥਿਕ ਵਿਵਹਾਰਕਤਾ ਅਗਲੀ ਵੱਡੀ ਚੁਣੌਤੀ ਬਣ ਜਾਵੇਗੀ।

ਮੁੱਖ ਗੱਲਾਂ

ਤਰਕ ਦਾ ਨਵਾਂ ਪੈਮਾਨਾ: MirrorCode ਵਿਸ਼ਾਲ ਇਨਫਰੈਂਸ ਬਜਟ ਦੀ ਇਜਾਜ਼ਤ ਦੇ ਕੇ AI ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਸਿੰਗਲ ਕੰਮਾਂ ਦੀ ਲਾਗਤ $2,600 ਤੱਕ ਹੋ ਸਕਦੀ ਹੈ ਅਤੇ ਇਹ 19 ਦਿਨਾਂ ਤੱਕ ਚੱਲ ਸਕਦੇ ਹਨ।
Claude ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਮੋਹਰੀ ਹੈ: Claude Opus 4.7 ਇਸ ਸਮੇਂ 56% ਸਲਵ ਰੇਟ ਦੇ ਨਾਲ ਬੈਂਚਮਾਰਕ ਲੀਡਰ ਹੈ, ਜੋ ਵੱਡੇ ਪੱਧਰ ਦੇ Go codebase ਨੂੰ ਰੀ-ਇਮਪਲੀਮੈਂਟ ਕਰਨ ਵਿੱਚ ਉੱਤਮ ਯੋਗਤਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।
ਗੁੰਝਲਦਾਰਤਾ ਦੀਆਂ ਰੁਕਾਵਟਾਂ ਅਜੇ ਵੀ ਬਾਕੀ ਹਨ: ਹਾਲਾਂਕਿ ਛੋਟੇ ਪੱਧਰ ਦੇ ਕੰਮ ਭਰੋਸੇਯੋਗਤਾ ਨਾਲ ਹੱਲ ਕੀਤੇ ਜਾ ਰਹੇ ਹਨ, ਪਰ ਕੋਈ ਵੀ ਮੌਜੂਦਾ ਮਾਡਲ ਅਜੇ ਤੱਕ ਸਭ ਤੋਂ ਗੁੰਝਲਦਾਰ, ਵੱਡੇ ਪੱਧਰ ਦੇ ਪ੍ਰੋਗਰਾਮਿੰਗ ਕੰਮਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਹੱਲ ਨਹੀਂ ਕਰ ਸਕਦਾ।

ਨਵੇਂ MirrorCode ਬੈਂਚਮਾਰਕ ਵਿੱਚ AI ਮਾਡਲ 19 ਦਿਨਾਂ ਤੱਕ ਲਗਾਤਾਰ ਚੱਲੇ

ਨਵੇਂ MirrorCode ਬੈਂਚਮਾਰਕ ਵਿੱਚ AI ਮਾਡਲ 19 ਦਿਨਾਂ ਤੱਕ ਲਗਾਤਾਰ ਚੱਲੇ

MirrorCode ਨਾਲ AI ਨੂੰ ਚੁਣੌਤੀ ਦੇਣਾ

Claude Opus 4.7 ਦੌੜ ਵਿੱਚ ਸਭ ਤੋਂ ਅੱਗੇ

ਗੁੰਝਲਦਾਰਤਾ ਦਾ ਪਾੜਾ ਅਤੇ ਯਾਦ ਰੱਖਣ (Memorization) ਦੇ ਜੋਖਮ

ਇਹ AI ਉਦਯੋਗ ਲਈ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ

ਮੁੱਖ ਗੱਲਾਂ

Continue reading

ਨਵਾਂ AA Briefcase ਬੈਂਚਮਾਰਕ ਅਸਲ ਗਿਆਨ-ਅਧਾਰਤ ਕੰਮ ਵਿੱਚ AI ਦੇ ਸੰਘਰਸ਼ ਦਾ ਖੁਲਾਸਾ ਕਰਦਾ ਹੈ

Snowflake CEO: GLM 5.2 Rivals Claude Opus 4.7 at a Fraction of the Cost

Uber ਨੇ 4 ਮਹੀਨਿਆਂ ਵਿੱਚ ਆਪਣਾ ਸਾਰਾ AI ਕੋਡਿੰਗ ਬਜਟ ਖਤਮ ਕਰ ਦਿੱਤਾ

Lindy Swaps Claude for DeepSeek to Save Millions in AI Costs

500 ਦਿਨਾਂ ਦੇ ਸਟਾਰਟਅੱਪ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਸਿਰਫ਼ ਤਿੰਨ AI ਮਾਡਲ ਹੀ ਬਚ ਸਕੇ