ਸਿਰਫ਼ ਤਿੰਨ AI ਮਾਡਲ ਹੀ 500-ਦਿਨਾਂ ਦੇ ਸਟਾਰਟਅੱਪ ਸਿਮੂਲੇਸ਼ਨ ਵਿੱਚ ਬਚ ਸਕੇ
ਮੌਜੂਦਾ AI ਏਜੰਟ ਵੱਖ-ਵੱਖ ਕੰਮਾਂ ਵਿੱਚ ਮਾਹਰ ਹਨ, ਪਰ ਉਹਨਾਂ ਨੂੰ ਇੱਕ ਕਾਰੋਬਾਰ ਚਲਾਉਣ ਲਈ ਲੋੜੀਂਦੀ ਗੁੰਝਲਦਾਰ ਅਤੇ ਲੰਬੇ ਸਮੇਂ ਦੀ ਰਣਨੀਤਕ ਸੋਚ (strategic thinking) ਵਿੱਚ ਮੁਸ਼ਕਲ ਆਉਂਦੀ ਹੈ। CEO-Bench ਨਾਮ ਦਾ ਇੱਕ ਨਵਾਂ ਬੈਂਚਮਾਰਕ ਦੱਸਦਾ ਹੈ ਕਿ ਜਿੱਥੇ ਜ਼ਿਆਦਾਤਰ ਲਾਰਜ ਲੈਂਗੂਏਜ ਮਾਡਲ (LLMs) 500 ਸਿਮੂਲੇਟਡ ਦਿਨਾਂ ਦੇ ਅੰਦਰ ਦੀਵਾਲੀਆ ਹੋ ਜਾਂਦੇ ਹਨ, ਉੱਥੇ ਹੀ ਕੁਝ ਚੁਣਵੇਂ ਮਾਡਲ "ਸਟੀਅਰਿੰਗ ਇੰਟੈਲੀਜੈਂਸ" (steering intelligence) ਦੇ ਸੰਕੇਤ ਦਿਖਾਉਣੇ ਸ਼ੁਰੂ ਕਰ ਰਹੇ ਹਨ।
CEO-Bench ਦੀ ਜਾਣ-ਪਛਾਣ: ਰਣਨੀਤਕ ਬੁੱਧੀ ਦਾ ਅੰਤਿਮ ਟੈਸਟ
ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸਧਾਰਨ ਪ੍ਰੋਂਪਟਿੰਗ ਟੈਸਟਾਂ ਤੋਂ ਅੱਗੇ ਵਧ ਕੇ CEO-Bench ਵਿਕਸਿਤ ਕੀਤਾ ਹੈ, ਜੋ ਇੱਕ ਸਖ਼ਤ ਸਿਮੂਲੇਸ਼ਨ ਹੈ। ਇਸ ਨੂੰ ਇੱਕ ਏਜੰਟ ਦੀ ਪੂਰੀ ਸੰਸਥਾ ਨੂੰ ਲੰਬੇ ਸਮੇਂ ਦੇ ਟੀਚਿਆਂ ਵੱਲ ਲੈ ਕੇ ਜਾਣ ਦੀ ਯੋਗਤਾ ਨੂੰ ਮਾਪਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸ ਬੈਂਚਮਾਰਕ ਵਿੱਚ, ਇੱਕ AI ਏਜੰਟ "$1 ਮਿਲੀਅਨ" ਦੀ ਪੂੰਜੀ ਅਤੇ ਜ਼ੀਰੋ ਗਾਹਕਾਂ ਨਾਲ ਸ਼ੁਰੂ ਹੋਣ ਵਾਲੀ ਇੱਕ ਕਾਲਪਨਿਕ ਸਬਸਕ੍ਰਿਪਸ਼ਨ ਸਾਫਟਵੇਅਰ ਕੰਪਨੀ "NovaMind" ਦਾ ਕੰਟਰੋਲ ਸੰਭਾਲਦਾ ਹੈ।
ਇਹ ਵਾਤਾਵਰਣ ਅਸਲ ਦੁਨੀਆ ਦੀ ਅਸਥਿਰਤਾ ਦੀ ਨਕਲ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਏਜੰਟ 34 ਟੂਲਸ ਅਤੇ 19-ਟੇਬਲ ਡੇਟਾਬੇਸ ਵਾਲੇ Python API ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਦੇ ਹਨ, ਜਿਸ ਲਈ ਉਹਨਾਂ ਨੂੰ ਫੈਸਲੇ ਲੈਣ ਲਈ ਕਸਟਮ ਕੋਡ ਅਤੇ SQL ਕੁਐਰੀਆਂ ਲਿਖਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸ ਵਿੱਚ ਜੋਖਮ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ: ਜੇਕਰ 500-ਦਿਨਾਂ ਦੀ ਮਿਆਦ ਦੌਰਾਨ ਕਿਸੇ ਵੀ ਸਮੇਂ ਕੰਪਨੀ ਦਾ ਨਕਦ ਬੈਲੇਂਸ ਜ਼ੀਰੋ ਤੋਂ ਹੇਠਾਂ ਡਿੱਗ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਸਿਮੂਲੇਸ਼ਨ ਦੀ ਸਮਾਪਤੀ ਦੀਵਾਲੀਆ ਹੋਣ ਨਾਲ ਹੁੰਦੀ ਹੈ।
ਗੁੰਝਲਦਾਰਤਾ ਦੇ ਮੁੱਖ ਕਾਰਨ ਦੇਰੀ ਨਾਲ ਮਿਲਣ ਵਾਲੇ ਫੀਡਬੈਕ ਲੂਪਸ ਹਨ। ਕੰਮ-ਮੁਖੀ (task-oriented) ਏਜੰਟਾਂ ਦੇ ਉਲਟ, ਇੱਕ CEO ਨੂੰ R&D ਟਾਈਮਲਾਈਨਾਂ, ਮਾਰਕੀਟ ਚੱਕਰਾਂ ਅਤੇ ਬਦਲਦੀਆਂ ਗਾਹਕਾਂ ਦੀਆਂ ਉਮੀਦਾਂ ਦੇ ਅਨੁਸਾਰ ਚੱਲਣਾ ਪੈਂਦਾ ਹੈ। 10ਵੇਂ ਦਿਨ ਲਏ ਗਏ ਫੈਸਲੇ—ਜਿਵੇਂ ਕਿ ਵਿਗਿਆਪਨ ਖਰਚ ਜਾਂ ਕੀਮਤਾਂ—ਸਬਸਕ੍ਰਾਈਬਰਾਂ ਦੀ ਵਾਧੇ ਜਾਂ ਕੈਸ਼ ਫਲੋ ਵਿੱਚ ਹਫ਼ਤਿਆਂ ਬਾਅਦ ਹੀ ਦਿਖਾਈ ਦੇ ਸਕਦੇ ਹਨ।
ਦੀਵਾਲੀਆ ਦਾ ਸੰਕਟ: ਜ਼ਿਆਦਾਤਰ ਮਾਡਲ ਕਿਉਂ ਅਸਫਲ ਹੁੰਦੇ ਹਨ
14-ਮਾਡਲ ਟੈਸਟ ਦੇ ਨਤੀਜੇ ਚਿੰਤਾਜਨਕ ਸਨ। ਹਾਲਾਂਕਿ ਜ਼ਿਆਦਾਤਰ ਮਾਡਲ ਬੁਨਿਆਦੀ ਹੁਕਮਾਂ ਨੂੰ ਲਾਗੂ ਕਰ ਸਕਦੇ ਸਨ, ਪਰ ਉਹਨਾਂ ਵਿੱਚ ਵਿੱਤੀ ਤੌਰ 'ਤੇ ਟਿਕੇ ਰਹਿਣ ਲਈ ਲੋੜੀਂਦੀ ਇਕਸਾਰ ਲੰਬੇ ਸਮੇਂ ਦੀ ਰਣਨੀਤੀ ਦੀ ਕਮੀ ਸੀ। ਜ਼ਿਆਦਾਤਰ ਏਜੰਟ ਮਾਰਕੀਟ ਦੀ ਅਨਿਸ਼ਚਿਤਤਾ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹੇ ਅਤੇ 500-ਦਿਨਾਂ ਦੀ ਮਿਆਦ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਦੀਵਾਲੀਆ ਹੋ ਗਏ।
ਇੱਕ ਹੈਰਾਨੀਜਨਕ ਤੁਲਨਾ ਵਿੱਚ, ਇੱਕ ਸਧਾਰਨ ਰੂਲ-ਅਧਾਰਤ ਹੀਯੂਰਿਸਟਿਕ (heuristic)—ਇੱਕ ਗੈਰ-AI ਪ੍ਰੋਗਰਾਮ ਜੋ ਨਿਸ਼ਚਿਤ ਕੀਮਤਾਂ ਅਤੇ ਬੁਨਿਆਦੀ ਸਮਰੱਥਾ ਵਿਵਸਥਾ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ—$15.76 ਮਿਲੀਅਨ ਤੱਕ ਪਹੁੰਚ ਗਿਆ। ਇਸ ਨੇ ਲਗਭਗ ਹਰ ਟੈਸਟ ਕੀਤੇ ਗਏ LLM ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ, ਜੋ ਇਹ ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ ਦਿਸ਼ਾ ਤੋਂ ਬਿਨਾਂ "ਬੁੱਧੀ" ਅਕਸਰ ਇੱਕ ਬੁਨਿਆਦੀ, ਅਨੁਸ਼ਾਸਿਤ ਕਾਰੋਬਾਰੀ ਯੋਜਨਾ ਨਾਲੋਂ ਘੱਟ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੁੰਦੀ ਹੈ।
ਚੋਟੀ ਦੇ ਤਿੰਨ: Claude ਅਤੇ GPT ਸਭ ਤੋਂ ਅੱਗੇ
ਸਿਰਫ਼ ਤਿੰਨ ਮਾਡਲ ਹੀ ਆਪਣੀ ਸ਼ੁਰੂਆਤੀ $1 ਮਿਲੀਅਨ ਦੀ ਪੂੰਜੀ ਤੋਂ ਵੱਧ ਨਾਲ ਆਪਣਾ ਸਫ਼ਰ ਖਤਮ ਕਰਨ ਵਿੱਚ ਸਫਲ ਰਹੇ। ਇਹਨਾਂ ਮਾਡਲਾਂ ਨੇ ਲੁਕੀ ਹੋਈ ਜਾਣਕਾਰੀ ਨੂੰ ਲੱਭਣ ਅਤੇ ਭਵਿੱਖ ਦੇ ਕੈਸ਼ ਫਲੋ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ:
- Claude Fable 5: ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਾ ਮਾਡਲ, ਜੋ ਕਿ $47.15 ਮਿਲੀਅਨ ਦੇ ਹੈਰਾਨੀਜਨਕ ਅੰਕੜੇ ਤੱਕ ਪਹੁੰਚਿਆ ਅਤੇ ਕਈ ਵਾਰਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਧ ਇਕਸਾਰਤਾ ਦਿਖਾਈ।
- Claude Opus 4.8: $27.8 ਮਿਲੀਅਨ ਪ੍ਰਾਪਤ ਕੀਤੇ, ਗਾਹਕਾਂ ਦੇ ਸਮੂਹਾਂ (customer cohorts) ਨੂੰ ਮਾਡਲ ਕਰਨ ਲਈ ਆਪਣਾ ਅੰਦਰੂਨੀ ਸਿਮੂਲੇਸ਼ਨ ਬਣਾ ਕੇ ਉੱਚ-ਪੱਧਰੀ ਸੂਝ-ਬੂਝ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ।
- GPT-5.5: $21.3 ਮਿਲੀਅਨ ਤੱਕ ਪਹੁੰਚਿਆ, ਗਾਹਕਾਂ ਦੀਆਂ ਲੁਕੀਆਂ ਹੋਈਆਂ ਪਸੰਦਾਂ ਨੂੰ ਲੱਭਣ ਲਈ ਗੱਲਬਾਤ ਦੇ ਇਤਿਹਾਸ (negotiation histories) ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਕੇ ਸਫਲਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ।
ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ ਮਾਡਲਾਂ ਨੇ ਸਫਲਤਾ ਲਈ ਵੱਖ-ਵੱਖ ਰਸਤੇ ਅਪਣਾਏ। ਜਿੱਥੇ Opus 4.8 ਨੇ ਸ਼ੁਰੂਆਤੀ ਦੌਰ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਗਾਹਕਾਂ ਨੂੰ ਜੋੜਨ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ, ਉੱਥੇ GPT-5.5 ਨੇ ਇੱਕ ਸਥਿਰ ਗਾਹਕ ਅਧਾਰ ਬਣਾਈ ਰੱਖਣ ਨੂੰ ਤਰਜੀਹ ਦਿੱਤੀ। ਇਸ ਦੇ ਉਲਟ, Claude Opus 4.7 ਵਰਗੇ ਮਾਡਲਾਂ ਨੇ "ਸਰਵਾਈਵਲਿਸਟ" (survivalist) ਮਾਨਸਿਕਤਾ ਅਪਣਾਈ, ਜੋ ਕਿ ਵੱਡਾ ਮੁਨਾਫਾ ਕਮਾਉਣ ਦੀ ਬਜਾਏ ਸਿਰਫ ਦੀਵਾਲੀਆ ਹੋਣ ਤੋਂ ਬਚਣ ਲਈ ਖਰਚਿਆਂ ਵਿੱਚ ਕਟੌਤੀ ਕਰਦੇ ਰਹੇ।
ਇਹ AI ਦੇ ਭਵਿੱਖ ਲਈ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ
ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲੇ ਏਜੰਟਾਂ ($47.15M) ਅਤੇ ਸਿਮੂਲੇਸ਼ਨ ਦੀ ਸਿਧਾਂਤਕ ਉਪਰਲੀ ਸੀਮਾ ($2.2B) ਵਿਚਕਾਰ ਦਾ ਅੰਤਰ ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ AI "ਸਟੀਅਰਿੰਗ ਇੰਟੈਲੀਜੈਂਸ" ਅਜੇ ਵੀ ਆਪਣੇ ਸ਼ੁਰੂਆਤੀ ਪੜਾਅ ਵਿੱਚ ਹੈ। ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਸੰਸਥਾਪਕਾਂ (founders) ਲਈ, ਇਹ ਬੈਂਚਮਾਰਕ ਇਸ ਗੱਲ 'ਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਹੈ ਕਿ AI ਦੀ ਅਗਲੀ ਸੀਮਾ ਸਿਰਫ਼ ਬਿਹਤਰ ਤਰਕ (reasoning
