500 ਦਿਨਾਂ ਦੇ ਸਟਾਰਟਅੱਪ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਸਿਰਫ਼ ਤਿੰਨ AI ਮਾਡਲ ਹੀ ਬਚ ਸਕੇ

Translated for your language. Read the original.

AI-assisted draft.

500 ਦਿਨਾਂ ਦੇ ਸਟਾਰਟਅੱਪ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਸਿਰਫ਼ ਤਿੰਨ AI ਮਾਡਲ ਹੀ ਬਚ ਸਕੇ

In this article

ਸਿਰਫ਼ ਤਿੰਨ AI ਮਾਡਲ ਹੀ 500-ਦਿਨਾਂ ਦੇ ਸਟਾਰਟਅੱਪ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਬਚ ਸਕੇ

ਮੌਜੂਦਾ AI ਏਜੰਟ ਵੱਖ-ਵੱਖ ਕੰਮਾਂ ਵਿੱਚ ਮਾਹਰ ਹਨ, ਪਰ ਉਹਨਾਂ ਨੂੰ ਇੱਕ ਕਾਰੋਬਾਰ ਚਲਾਉਣ ਲਈ ਲੋੜੀਂਦੀ ਗੁੰਝਲਦਾਰ ਅਤੇ ਲੰਬੇ ਸਮੇਂ ਦੀ ਰਣਨੀਤਕ ਸੋਚ (strategic thinking) ਵਿੱਚ ਮੁਸ਼ਕਲ ਆਉਂਦੀ ਹੈ। CEO-Bench ਨਾਮ ਦਾ ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ ਦੱਸਦਾ ਹੈ ਕਿ ਜਿੱਥੇ ਜ਼ਿਆਦਾਤਰ ਲਾਰਜ ਲੈਂਗੂਏਜ ਮਾਡਲ (LLMs) 500 ਸਿਮੂਲੇਟਡ ਦਿਨਾਂ ਦੇ ਅੰਦਰ ਦੀਵਾਲੀਆ ਹੋ ਜਾਂਦੇ ਹਨ, ਉੱਥੇ ਹੀ ਕੁਝ ਚੁਣਵੇਂ ਮਾਡਲ "ਸਟੀਅਰਿੰਗ ਇੰਟੈਲੀਜੈਂਸ" (steering intelligence) ਦੇ ਸੰਕੇਤ ਦਿਖਾਉਣੇ ਸ਼ੁਰੂ ਕਰ ਰਹੇ ਹਨ।

CEO-Bench ਦੀ ਜਾਣ-ਪਛਾਣ: ਰਣਨੀਤਕ ਬੁੱਧੀ ਦਾ ਅੰਤਿਮ ਟੈਸਟ

ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸਧਾਰਨ ਪ੍ਰੋਂਪਟਿੰਗ ਟੈਸਟਾਂ ਤੋਂ ਅੱਗੇ ਵਧ ਕੇ CEO-Bench ਵਿਕਸਿਤ ਕੀਤਾ ਹੈ, ਜੋ ਇੱਕ ਸਖ਼ਤ ਸਿਮੂਲੇਸ਼ਨ ਹੈ। ਇਸ ਨੂੰ ਇੱਕ ਏਜੰਟ ਦੀ ਪੂਰੀ ਸੰਸਥਾ ਨੂੰ ਲੰਬੇ ਸਮੇਂ ਦੇ ਟੀਚਿਆਂ ਵੱਲ ਲੈ ਕੇ ਜਾਣ ਦੀ ਯੋਗਤਾ ਨੂੰ ਮਾਪਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸ ਬੈਂਚਮਾਰਕ ਵਿੱਚ, ਇੱਕ AI ਏਜੰਟ "$1 ਮਿਲੀਅਨ" ਦੀ ਪੂੰਜੀ ਅਤੇ ਜ਼ੀਰੋ ਗਾਹਕਾਂ ਨਾਲ ਸ਼ੁਰੂ ਹੋਣ ਵਾਲੀ ਇੱਕ ਕਾਲਪਨਿਕ ਸਬਸਕ੍ਰਿਪਸ਼ਨ ਸਾਫਟਵੇਅਰ ਕੰਪਨੀ "NovaMind" ਦਾ ਕੰਟਰੋਲ ਸੰਭਾਲਦਾ ਹੈ।

ਇਹ ਵਾਤਾਵਰਣ ਅਸਲ ਦੁਨੀਆ ਦੀ ਅਸਥਿਰਤਾ ਦੀ ਨਕਲ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਏਜੰਟ 34 ਟੂਲਸ ਅਤੇ 19-ਟੇਬਲ ਡੇਟਾਬੇਸ ਵਾਲੇ Python API ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਦੇ ਹਨ, ਜਿਸ ਲਈ ਉਹਨਾਂ ਨੂੰ ਫੈਸਲੇ ਲੈਣ ਲਈ ਕਸਟਮ ਕੋਡ ਅਤੇ SQL ਕੁਐਰੀਆਂ ਲਿਖਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸ ਵਿੱਚ ਜੋਖਮ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ: ਜੇਕਰ 500-ਦਿਨਾਂ ਦੀ ਮਿਆਦ ਦੌਰਾਨ ਕਿਸੇ ਵੀ ਸਮੇਂ ਕੰਪਨੀ ਦਾ ਨਕਦ ਬੈਲੇਂਸ ਜ਼ੀਰੋ ਤੋਂ ਹੇਠਾਂ ਡਿੱਗ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਸਿਮੂਲੇਸ਼ਨ ਦੀ ਸਮਾਪਤੀ ਦੀਵਾਲੀਆ ਹੋਣ ਨਾਲ ਹੁੰਦੀ ਹੈ।

ਗੁੰਝਲਦਾਰਤਾ ਦੇ ਮੁੱਖ ਕਾਰਨ ਦੇਰੀ ਨਾਲ ਮਿਲਣ ਵਾਲੇ ਫੀਡਬੈਕ ਲੂਪਸ ਹਨ। ਕੰਮ-ਮੁਖੀ (task-oriented) ਏਜੰਟਾਂ ਦੇ ਉਲਟ, ਇੱਕ CEO ਨੂੰ R&D ਟਾਈਮਲਾਈਨਾਂ, ਮਾਰਕੀਟ ਚੱਕਰਾਂ ਅਤੇ ਬਦਲਦੀਆਂ ਗਾਹਕਾਂ ਦੀਆਂ ਉਮੀਦਾਂ ਦੇ ਅਨੁਸਾਰ ਚੱਲਣਾ ਪੈਂਦਾ ਹੈ। 10ਵੇਂ ਦਿਨ ਲਏ ਗਏ ਫੈਸਲੇ—ਜਿਵੇਂ ਕਿ ਵਿਗਿਆਪਨ ਖਰਚ ਜਾਂ ਕੀਮਤਾਂ—ਸਬਸਕ੍ਰਾਈਬਰਾਂ ਦੀ ਵਾਧੇ ਜਾਂ ਕੈਸ਼ ਫਲੋ ਵਿੱਚ ਹਫ਼ਤਿਆਂ ਬਾਅਦ ਹੀ ਦਿਖਾਈ ਦੇ ਸਕਦੇ ਹਨ।

ਦੀਵਾਲੀਆ ਦਾ ਸੰਕਟ: ਜ਼ਿਆਦਾਤਰ ਮਾਡਲ ਕਿਉਂ ਅਸਫਲ ਹੁੰਦੇ ਹਨ

14-ਮਾਡਲ ਟੈਸਟ ਦੇ ਨਤੀਜੇ ਚਿੰਤਾਜਨਕ ਸਨ। ਹਾਲਾਂਕਿ ਜ਼ਿਆਦਾਤਰ ਮਾਡਲ ਬੁਨਿਆਦੀ ਹੁਕਮਾਂ ਨੂੰ ਲਾਗੂ ਕਰ ਸਕਦੇ ਸਨ, ਪਰ ਉਹਨਾਂ ਵਿੱਚ ਵਿੱਤੀ ਤੌਰ 'ਤੇ ਟਿਕੇ ਰਹਿਣ ਲਈ ਲੋੜੀਂਦੀ ਇਕਸਾਰ ਲੰਬੇ ਸਮੇਂ ਦੀ ਰਣਨੀਤੀ ਦੀ ਕਮੀ ਸੀ। ਜ਼ਿਆਦਾਤਰ ਏਜੰਟ ਮਾਰਕੀਟ ਦੀ ਅਨਿਸ਼ਚਿਤਤਾ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹੇ ਅਤੇ 500-ਦਿਨਾਂ ਦੀ ਮਿਆਦ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਦੀਵਾਲੀਆ ਹੋ ਗਏ।

ਇੱਕ ਹੈਰਾਨੀਜਨਕ ਤੁਲਨਾ ਵਿੱਚ, ਇੱਕ ਸਧਾਰਨ ਰੂਲ-ਅਧਾਰਤ ਹੀਯੂਰਿਸਟਿਕ (heuristic)—ਇੱਕ ਗੈਰ-AI ਪ੍ਰੋਗਰਾਮ ਜੋ ਨਿਸ਼ਚਿਤ ਕੀਮਤਾਂ ਅਤੇ ਬੁਨਿਆਦੀ ਸਮਰੱਥਾ ਵਿਵਸਥਾ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ—$15.76 ਮਿਲੀਅਨ ਤੱਕ ਪਹੁੰਚ ਗਿਆ। ਇਸ ਨੇ ਲਗਭਗ ਹਰ ਟੈਸਟ ਕੀਤੇ ਗਏ LLM ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ, ਜੋ ਇਹ ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ ਦਿਸ਼ਾ ਤੋਂ ਬਿਨਾਂ "ਬੁੱਧੀ" ਅਕਸਰ ਇੱਕ ਬੁਨਿਆਦੀ, ਅਨੁਸ਼ਾਸਿਤ ਕਾਰੋਬਾਰੀ ਯੋਜਨਾ ਨਾਲੋਂ ਘੱਟ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੁੰਦੀ ਹੈ।

ਚੋਟੀ ਦੇ ਤਿੰਨ: Claude ਅਤੇ GPT ਸਭ ਤੋਂ ਅੱਗੇ

ਸਿਰਫ਼ ਤਿੰਨ ਮਾਡਲ ਹੀ ਆਪਣੀ ਸ਼ੁਰੂਆਤੀ $1 ਮਿਲੀਅਨ ਦੀ ਪੂੰਜੀ ਤੋਂ ਵੱਧ ਨਾਲ ਆਪਣਾ ਸਫ਼ਰ ਖਤਮ ਕਰਨ ਵਿੱਚ ਸਫਲ ਰਹੇ। ਇਹਨਾਂ ਮਾਡਲਾਂ ਨੇ ਲੁਕੀ ਹੋਈ ਜਾਣਕਾਰੀ ਨੂੰ ਲੱਭਣ ਅਤੇ ਭਵਿੱਖ ਦੇ ਕੈਸ਼ ਫਲੋ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ:

Claude Fable 5: ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਾ ਮਾਡਲ, ਜੋ ਕਿ $47.15 ਮਿਲੀਅਨ ਦੇ ਹੈਰਾਨੀਜਨਕ ਅੰਕੜੇ ਤੱਕ ਪਹੁੰਚਿਆ ਅਤੇ ਕਈ ਵਾਰਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਧ ਇਕਸਾਰਤਾ ਦਿਖਾਈ।
Claude Opus 4.8: $27.8 ਮਿਲੀਅਨ ਪ੍ਰਾਪਤ ਕੀਤੇ, ਗਾਹਕਾਂ ਦੇ ਸਮੂਹਾਂ (customer cohorts) ਨੂੰ ਮਾਡਲ ਕਰਨ ਲਈ ਆਪਣਾ ਅੰਦਰੂਨੀ ਸਿਮੂਲੇਸ਼ਨ ਬਣਾ ਕੇ ਉੱਚ-ਪੱਧਰੀ ਸੂਝ-ਬੂਝ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ।
GPT-5.5: $21.3 ਮਿਲੀਅਨ ਤੱਕ ਪਹੁੰਚਿਆ, ਗਾਹਕਾਂ ਦੀਆਂ ਲੁਕੀਆਂ ਹੋਈਆਂ ਪਸੰਦਾਂ ਨੂੰ ਲੱਭਣ ਲਈ ਗੱਲਬਾਤ ਦੇ ਇਤਿਹਾਸ (negotiation histories) ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਕੇ ਸਫਲਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ।

ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ ਮਾਡਲਾਂ ਨੇ ਸਫਲਤਾ ਲਈ ਵੱਖ-ਵੱਖ ਰਸਤੇ ਅਪਣਾਏ। ਜਿੱਥੇ Opus 4.8 ਨੇ ਸ਼ੁਰੂਆਤੀ ਦੌਰ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਗਾਹਕਾਂ ਨੂੰ ਜੋੜਨ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ, ਉੱਥੇ GPT-5.5 ਨੇ ਇੱਕ ਸਥਿਰ ਗਾਹਕ ਅਧਾਰ ਬਣਾਈ ਰੱਖਣ ਨੂੰ ਤਰਜੀਹ ਦਿੱਤੀ। ਇਸ ਦੇ ਉਲਟ, Claude Opus 4.7 ਵਰਗੇ ਮਾਡਲਾਂ ਨੇ "ਸਰਵਾਈਵਲਿਸਟ" (survivalist) ਮਾਨਸਿਕਤਾ ਅਪਣਾਈ, ਜੋ ਕਿ ਵੱਡਾ ਮੁਨਾਫਾ ਕਮਾਉਣ ਦੀ ਬਜਾਏ ਸਿਰਫ ਦੀਵਾਲੀਆ ਹੋਣ ਤੋਂ ਬਚਣ ਲਈ ਖਰਚਿਆਂ ਵਿੱਚ ਕਟੌਤੀ ਕਰਦੇ ਰਹੇ।

ਇਹ AI ਦੇ ਭਵਿੱਖ ਲਈ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ

ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲੇ ਏਜੰਟਾਂ ($47.15M) ਅਤੇ ਸਿਮੂਲੇਸ਼ਨ ਦੀ ਸਿਧਾਂਤਕ ਉਪਰਲੀ ਸੀਮਾ ($2.2B) ਵਿਚਕਾਰ ਦਾ ਅੰਤਰ ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ AI "ਸਟੀਅਰਿੰਗ ਇੰਟੈਲੀਜੈਂਸ" ਅਜੇ ਵੀ ਆਪਣੇ ਸ਼ੁਰੂਆਤੀ ਪੜਾਅ ਵਿੱਚ ਹੈ। ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਸੰਸਥਾਪਕਾਂ (founders) ਲਈ, ਇਹ ਬੈਂਚਮਾਰਕ ਇਸ ਗੱਲ 'ਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਹੈ ਕਿ AI ਦੀ ਅਗਲੀ ਸੀਮਾ ਸਿਰਫ਼ ਬਿਹਤਰ ਤਰਕ (reasoning

500 ਦਿਨਾਂ ਦੇ ਸਟਾਰਟਅੱਪ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਸਿਰਫ਼ ਤਿੰਨ AI ਮਾਡਲ ਹੀ ਬਚ ਸਕੇ

ਸਿਰਫ਼ ਤਿੰਨ AI ਮਾਡਲ ਹੀ 500-ਦਿਨਾਂ ਦੇ ਸਟਾਰਟਅੱਪ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਬਚ ਸਕੇ

CEO-Bench ਦੀ ਜਾਣ-ਪਛਾਣ: ਰਣਨੀਤਕ ਬੁੱਧੀ ਦਾ ਅੰਤਿਮ ਟੈਸਟ

ਦੀਵਾਲੀਆ ਦਾ ਸੰਕਟ: ਜ਼ਿਆਦਾਤਰ ਮਾਡਲ ਕਿਉਂ ਅਸਫਲ ਹੁੰਦੇ ਹਨ

ਚੋਟੀ ਦੇ ਤਿੰਨ: Claude ਅਤੇ GPT ਸਭ ਤੋਂ ਅੱਗੇ

ਇਹ AI ਦੇ ਭਵਿੱਖ ਲਈ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ

Continue reading

ਨਵਾਂ AA Briefcase ਬੈਂਚਮਾਰਕ ਅਸਲ ਗਿਆਨ-ਅਧਾਰਤ ਕੰਮ ਵਿੱਚ AI ਦੇ ਸੰਘਰਸ਼ ਦਾ ਖੁਲਾਸਾ ਕਰਦਾ ਹੈ

Managed AI Agents Are The Real Opportunity

ਨਵੇਂ MirrorCode ਬੈਂਚਮਾਰਕ ਵਿੱਚ AI ਮਾਡਲ 19 ਦਿਨਾਂ ਤੱਕ ਲਗਾਤਾਰ ਚੱਲੇ

Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities