OpenAI ਨੇ Claude Mythos ਨੂੰ ਚੁਣੌਤੀ ਦੇਣ ਲਈ GPT-5.6 Sol ਲਾਂਚ ਕੀਤਾ

OpenAI ਨੇ ਅਧਿਕਾਰਤ ਤੌਰ 'ਤੇ GPT-5.6 Sol ਦਾ अनावरण ਕੀਤਾ ਹੈ, ਜੋ ਕਿ agentic coding ਅਤੇ cybersecurity ਖੇਤਰਾਂ ਵਿੱਚ ਦਬਦਬਾ ਬਣਾਉਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਇੱਕ ਉੱਨਤ ਨਵਾਂ ਮਾਡਲ ਜਨਰੇਸ਼ਨ ਹੈ। ਹਾਲਾਂਕਿ ਇਹ ਰਿਲੀਜ਼ ਤਰਕ ਕਰਨ ਦੀਆਂ ਯੋਗਤਾਵਾਂ (reasoning capabilities) ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਛਾਲ ਹੈ, ਪਰ ਇਹ ਅਮਰੀਕੀ ਸਰਕਾਰ ਦੇ ਰੋਕਥਾਮ ਵਾਲੇ ਐਕਸੈਸ ਪ੍ਰੋਟੋਕੋਲ ਬਾਰੇ ਚੱਲ ਰਹੀ ਵਿਵਾਦ ਦੇ ਵਿਚਕਾਰ ਆਇਆ ਹੈ।

ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਪੈਮਾਨੇ ਲਈ ਇੱਕ ਨਵਾਂ ਟਾਇਰਡ ਆਰਕੀਟੈਕਚਰ (Tiered Architecture)

ਇਕੱਲੇ ਮਾਡਲ ਰਿਲੀਜ਼ ਕਰਨ ਦੀ ਬਜਾਏ, OpenAI ਨੇ ਵੱਖ-ਵੱਖ ਉੱਦਮਾਂ (enterprise) ਦੀਆਂ ਲੋੜਾਂ ਲਈ ਇੱਕ ਲੇਅਰਡ ਨਾਮਕਰਨ ਯੋਜਨਾ ਪੇਸ਼ ਕੀਤੀ ਹੈ। ਇਹ ਆਰਕੀਟੈਕਚਰ "Sol," "Terra," ਅਤੇ "Luna" ਨੂੰ ਸਥਾਈ ਪ੍ਰਦਰਸ਼ਨ ਟਾਇਰਾਂ ਵਜੋਂ ਵਰਤਦਾ ਹੈ, ਜੋ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਬਜਟ ਅਤੇ ਗੁੰਝਲਤਾ ਦੇ ਅਨੁਸਾਰ ਪੈਮਾਨਾ ਵਧਾਉਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।

ਇਸ ਲੜੀ ਵਿੱਚ ਸਭ ਤੋਂ ਉੱਪਰ Sol ਹੈ, ਜੋ ਕਿ ਫਲੈਗਸ਼ਿਪ ਮਾਡਲ ਹੈ। ਇਸ ਤੋਂ ਹੇਠਾਂ Terra ਹੈ, ਜੋ ਲਗਭਗ ਅੱਧੇ ਖਰਚੇ 'ਤੇ GPT-5.5 ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਬਰਾਬਰ ਹੈ, ਅਤੇ Luna, ਜੋ ਕਿ ਬਜਟ-ਅਨੁਕੂਲ ਟਾਇਰ ਹੈ। ਉੱਚ-ਤੀਬਰਤਾ ਵਾਲੇ ਕੰਮਾਂ (high-intensity workloads) ਲਈ, OpenAI ਨੇ ਡੂੰਘੇ ਤਰਕ ਲਈ "max" ਮੋਡ ਅਤੇ "ultra" ਮੋਡ ਪੇਸ਼ ਕੀਤਾ ਹੈ, ਜੋ ਕਿ ਬਹੁ-ਪੱਖੀ ਅਤੇ ਗੁੰਝਲਦਾਰ ਕੰਮਾਂ ਨੂੰ ਨਿਪਟਾਉਣ ਲਈ ਪੈਰਲਲ ਚੱਲਣ ਵਾਲੇ sub-agents ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।

ਕੋਡਿੰਗ ਅਤੇ ਜੀਵ ਵਿਗਿਆਨ (Biology) ਵਿੱਚ ਨਵੇਂ ਬੈਂਚਮਾਰਕ ਸੈੱਟ ਕਰਨਾ

GPT-5.6 Sol ਦਾ ਮੁੱਖ ਉਦੇਸ਼ Anthropic ਦੇ Claude Mythos ਕਲਾਸ ਨੂੰ ਪਛਾੜਨਾ ਹੈ। Agentic coding ਕੰਮਾਂ ਵਿੱਚ, ਅੰਕੜੇ OpenAI ਦੇ ਦਾਅਵਿਆਂ ਦੀ ਪੁਸ਼ਟੀ ਕਰਦੇ ਹਨ: Terminal-Bench 2.1 ਬੈਂਚਮਾਰਕ 'ਤੇ, Sol Ultra ਨੇ ਹੈਰਾਨੀਜਨਕ 91.9% ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜੋ ਕਿ Claude Mythos 5 (88.0%) ਅਤੇ Google ਦੇ Gemini 3.1 Pro Preview (70.7%) ਤੋਂ ਕਿਤੇ ਅੱਗੇ ਹੈ।

ਇਹ ਮਾਡਲ ਵਿਸ਼ੇਸ਼ ਵਿਗਿਆਨਾਂ ਵਿੱਚ ਵੀ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਾਪਤੀਆਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। GeneBench v1 ਜੈਨੋਮਿਕਸ ਬੈਂਚਮਾਰਕ 'ਤੇ, Sol ਨੇ 30% ਸਕੋਰ ਕੀਤਾ, ਜੋ ਕਿ GPT-5.5 ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਕੀਤੇ ਗਏ 22% ਦੇ ਮੁਕਾਬਲੇ ਕਾਫ਼ੀ ਵਧੇਰੇ ਹੈ, ਅਤੇ ਖਾਸ ਗੱਲ ਇਹ ਹੈ ਕਿ ਇਸ ਵਿੱਚ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਵੀ ਘੱਟ ਹੋਈ ਹੈ। ਇਹ ਕੁਸ਼ਲਤਾ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ OpenAI ਸਿਰਫ਼ "ਵੱਡੇ" ਕੰਪਿਊਟ ਦੀ ਬਜਾਏ "ਸਮਾਰਟ" ਕੰਪਿਊਟ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰ ਰਿਹਾ ਹੈ।

ਸਾਈਬਰ ਸੁਰੱਖਿਆ: ਰੱਖਿਅਕ ਬਨਾਮ ਹਮਲਾਵਰ

ਸਾਈਬਰ ਸੁਰੱਖਿਆ ਦੇ ਖੇਤਰ ਵਿੱਚ, Sol ਦਾ ਉਦੇਸ਼ ਇੱਕ ਪ੍ਰਮੁੱਖ ਰੱਖਿਆਤਮਕ (defensive) ਟੂਲ ਬਣਨਾ ਹੈ। ExploitBench 'ਤੇ—ਜੋ Google V8 JavaScript ਇੰਜਣ ਵਿੱਚ ਕਮੀਆਂ ਲੱਭਣ ਅਤੇ ਉਹਨਾਂ ਦਾ ਫਾਇਦਾ ਉਠਾਉਣ ਦੀ ਯੋਗਤਾ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ—Sol, Anthropic ਦੇ Mythos Preview ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਬਰਾਬਰ ਹੈ ਪਰ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਫਾਇਦੇ ਨਾਲ: ਇਹ ਲਗਭਗ ਇੱਕ ਤਿਹਾਈ ਆਊਟਪੁੱਟ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।

OpenAI, Sol ਨੂੰ ਇੱਕ ਖੁਦਮੁਖਤਿਆਰ ਹਮਲਾਵਰ ਦੀ ਬਜਾਏ ਇੱਕ ਰੱਖਿਅਕ ਵਜੋਂ ਪੇਸ਼ ਕਰ ਰਿਹਾ ਹੈ। Chromium ਅਤੇ Firefox ਨਾਲ ਸਬੰਧਤ ਟੈਸਟਾਂ ਵਿੱਚ, ਮਾਡਲ ਨੇ ਸਫਲਤਾਪੂਰਵਕ bugs ਅਤੇ exploitation primitives ਦੀ ਪਛਾਣ ਕੀਤੀ, ਪਰ ਇੱਕ ਖੁਦਮੁਖਤਿਆਰ, full-chain exploit ਬਣਾਉਣ ਤੋਂ ਰੁਕ ਗਿਆ। OpenAI ਦਾ ਕਹਿਣਾ ਹੈ ਕਿ Sol ਆਪਣੇ ਅੰਦਰੂਨੀ Preparedness Framework ਦੇ ਅੰਦਰ "Cyber Critical" ਸੀਮਾ ਤੋਂ ਹੇਠਾਂ ਰਹਿੰਦਾ ਹੈ।

ਸਰਕਾਰ ਦੁਆਰਾ ਨਿਯੰਤਰਿਤ ਐਕਸੈਸ ਬਾਰੇ ਵਿਵਾਦ

GPT-5.6 Sol ਦੀ ਰੋਲਆਊਟ ਪ੍ਰਕਿਰਿਆ ਟਕਰਾਅ ਤੋਂ ਬਿਨਾਂ ਨਹੀਂ ਹੈ। ਵਰਤਮਾਨ ਵਿੱਚ, API ਅਤੇ Codex ਰਾਹੀਂ ਕੁਝ ਚੁਣੇ ਹੋਏ ਭਾਈਵਾਲਾਂ ਤੱਕ ਹੀ ਐਕਸੈਸ ਸੀਮਤ ਹੈ, ਜੋ ਕਿ ਅਮਰੀਕੀ ਸਰਕਾਰ ਦੁਆਰਾ ਲਗਾਇਆ ਗਿਆ ਇੱਕ ਰੋਕ ਹੈ। ਇਹ ਸਰਕਾਰ ਦੇ Anthropic ਦੇ Fable 5 ਨੂੰ ਬਾਜ਼ਾਰ ਤੋਂ ਹਟਾਉਣ ਦੇ ਪਿਛਲੇ ਫੈਸਲੇ ਤੋਂ ਬਾਅਦ ਹੋਇਆ ਹੈ।

OpenAI ਨੇ ਇਹਨਾਂ ਸੀਮਾਵਾਂ ਦਾ ਸਖ਼ਤ ਵਿਰੋਧ ਕੀਤਾ ਹੈ, ਅਤੇ ਮੌਜੂਦਾ ਸਰਕਾਰੀ ਐਕਸੈਸ ਪ੍ਰਕਿਰਿਆ ਨੂੰ "unsustainable" ਦੱਸਿਆ ਹੈ। ਕੰਪਨੀ ਦਾ ਤਰਕ ਹੈ ਕਿ ਅਜਿਹੀਆਂ ਰੋਕਾਂ ਡਿਵੈਲਪਰਾਂ, ਉੱਦਮਾਂ ਅਤੇ ਸਾਈਬਰ ਰੱਖਿਅਕਾਂ ਨੂੰ ਉਹਨਾਂ ਸਾਧਨਾਂ ਤੱਕ ਪਹੁੰਚ ਕਰਨ ਤੋਂ ਰੋਕਦੀਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਦੀ ਉਹਨਾਂ ਨੂੰ ਵਿਸ਼ਵਵਿਆਪੀ ਡਿਜੀਟਲ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਨੂੰ ਸੁਰੱਖਿਅਤ ਕਰਨ ਲਈ ਲੋੜ ਹੈ।

ਮੁੱਖ ਗੱਲਾਂ

  • ਟਾਇਰਡ ਮਾਡਲ ਰਣਨੀਤੀ: OpenAI ਇੱਕ ਨਵੀਂ ਲੜੀ ਪੇਸ਼ ਕਰਦਾ ਹੈ—Sol (ਫਲੈਗਸ਼ਿਪ), Terra (ਮਿਡ-ਟਾਇਰ), ਅਤੇ Luna (ਬਜਟ)—ਸਾਥ ਹੀ ਪੈਰਲਲ sub-agent ਟਾਸਕ ਕਾਰਜਵਿਧੀਆਂ ਲਈ "Ultra" ਮੋਡ।
  • ਬੈਂਚਮਾਰਕ 'ਤੇ ਦਬਦਬਾ: GPT-5.6 Sol Ultra, Terminal-Bench 2.1 'ਤੇ 91.9% ਦੇ ਨਾਲ agentic coding ਵਿੱਚ ਉਦਯੋਗ ਦੀ ਅਗਵਾਈ ਕਰ ਰਿਹਾ ਹੈ, ਜੋ ਕਿ Claude Mythos ਅਤੇ Gemini ਤੋਂ ਕਾਫ਼ੀ ਬਿਹਤਰ ਹੈ।
  • ਕੁਸ਼ਲਤਾ-ਪਹਿਲਾਂ ਪਹੁੰਚ: Sol ਕਾਫ਼ੀ ਘੱਟ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਮੁਕਾਬਲੇਬਾਜ਼ ਸਾਈਬਰ ਸੁਰੱਖਿਆ ਅਤੇ ਜੈਨੋਮਿਕਸ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਸੰਭਾਵੀ ਤੌਰ 'ਤੇ ਡਿਵੈਲਪਰਾਂ ਲਈ ਪ੍ਰਤੀ ਕੰਮ ਲਾਗਤ ਨੂੰ ਘਟਾ ਸਕਦਾ ਹੈ।