Anthropic ਨੇ Claude Sonnet 5 ਲਾਂਚ ਕੀਤਾ: Agentic AI ਦੀ ਨਵੀਂ ਸਰਹੱਦ
Anthropic ਨੇ ਅਧਿਕਾਰਤ ਤੌਰ 'ਤੇ Claude Sonnet 5 ਰਿਲੀਜ਼ ਕੀਤਾ ਹੈ, ਜੋ ਕਿ ਮਿਡ-ਟੀਅਰ (mid-tier) ਅਤੇ ਫਲੈਗਸ਼ਿਪ (flagship) AI ਸੀਰੀਜ਼ ਦੇ ਵਿਚਕਾਰ ਕਾਰਗੁਜ਼ਾਰੀ ਦੇ ਪਾੜੇ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲ ਹੈ। Agentic ਸਮਰੱਥਾਵਾਂ—ਜਿਵੇਂ ਕਿ ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰਨ, ਬ੍ਰਾਊਜ਼ ਕਰਨ ਅਤੇ ਗੁੰਝਲਦਾਰ ਯੋਜਨਾਵਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਦੀ ਯੋਗਤਾ—ਨੂੰ ਤਰਜੀਹ ਦੇ ਕੇ, ਇਹ ਰਿਲੀਜ਼ ਖੁਦਮੁਖਤਿਆਰ (autonomous) AI ਵਰਕਫਲੋਜ਼ ਵੱਲ ਇੱਕ ਤਬਦੀਲੀ ਦਾ ਸੰਕੇਤ ਦਿੰਦੀ ਹੈ।
Opus ਸੀਰੀਜ਼ ਨਾਲ ਪਾੜੇ ਨੂੰ ਘੱਟ ਕਰਨਾ
Sonnet 5 ਦਾ ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪਹਿਲੂ ਇਹ ਹੈ ਕਿ ਇਹ ਕਿੰਨੀ ਨੇੜਿਓਂ ਬਹੁਤ ਵੱਡੇ ਅਤੇ ਮਹਿੰਗੇ Opus 4.8 ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦੇ ਨੇੜੇ ਪਹੁੰਚਦਾ ਹੈ। ਕ੍ਰਾਂਤੀਕਾਰੀ ਬੈਂਚਮਾਰਕਸ ਵਿੱਚ, Sonnet 5 ਨੇ ਸਾਬਤ ਕਰ ਦਿੱਤਾ ਹੈ ਕਿ "ਮਿਡ-ਸਾਈਜ਼ਡ" ਮਾਡਲ ਹੁਣ ਉਹਨਾਂ ਕੰਮਾਂ ਨੂੰ ਸੰਭਾਲ ਸਕਦੇ ਹਨ ਜੋ ਪਹਿਲਾਂ ਸਿਰਫ਼ ਫਰੰਟੀਅਰ-ਕਲਾਸ ਇੰਟੈਲੀਜੈਂਸ ਲਈ ਰਾਖਵੇਂ ਸਨ।
ਮਲਟੀਡਿਸਿਪਲਿਨਰੀ ਰੀਜ਼ਨਿੰਗ ਬੈਂਚਮਾਰਕ, Humanity's Last Exam 'ਤੇ, Sonnet 5 ਨੇ ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ 57.4% ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜੋ ਕਿ ਲਗਭਗ Opus 4.8 ਦੇ 57.9% ਸਕੋਰ ਦੇ ਬਰਾਬਰ ਹੈ। ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤੌਰ 'ਤੇ, ਅਸਲ-ਦੁਨੀਆ ਦੇ ਗਿਆਨ ਵਾਲੇ ਕੰਮ ਦੇ ਬੈਂਚਮਾਰਕ GDPval-AA v2 'ਤੇ, Sonnet 5 ਨੇ ਅਸਲ ਵਿੱਚ Opus 4.8 ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ, ਜਿਸ ਨੇ ਫਲੈਗਸ਼ਿਪ ਦੇ 1,615 ਦੇ ਮੁਕਾਬਲੇ 1,618 ਅੰਕ ਪ੍ਰਾਪਤ ਕੀਤੇ। ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਵਿਸ਼ੇਸ਼ ਗਿਆਨ-ਭਾਰੀ ਵਰਕਫਲੋਜ਼ ਲਈ, Sonnet 5 ਦੀ ਕੁਸ਼ਲਤਾ Opus ਸੀਰੀਜ਼ ਦੇ ਵਿਸ਼ਾਲ ਪੈਮਾਨੇ ਨਾਲੋਂ ਵਧੇਰੇ ਫਾਇਦੇਮੰਦ ਹੋ ਸਕਦੀ ਹੈ।
Agentic ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਛਾਲ
Anthropic ਨੇ Sonnet 5 ਨੂੰ ਖਾਸ ਤੌਰ 'ਤੇ ਆਪਣੇ ਹੁਣ ਤੱਕ ਦੇ ਸਭ ਤੋਂ "agentic" ਮਾਡਲ ਵਜੋਂ ਤਿਆਰ ਕੀਤਾ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਨੂੰ ਮਲਟੀ-ਸਟੈਪ ਟੀਚਿਆਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਵੈੱਬ ਬ੍ਰਾਊਜ਼ਰਾਂ ਅਤੇ ਟਰਮੀਨਲ ਵਰਗੇ ਵਾਤਾਵਰਣਾਂ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਨ ਲਈ ਆਪਟੀਮਾਈਜ਼ ਕੀਤਾ ਗਿਆ ਹੈ। ਡੇਟਾ ਇਸਦੇ ਪਿਛਲੇ ਮਾਡਲ, Sonnet 4.6 ਦੇ ਮੁਕਾਬਲੇ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਉਛਾਲ ਦਿਖਾਉਂਦਾ ਹੈ:
- SWE-bench Pro (Agentic Coding): Sonnet 5 63.2% ਤੱਕ ਪਹੁੰਚ ਗਿਆ, ਜੋ ਕਿ Sonnet 4.6 ਦੇ 58.1% ਤੋਂ ਵੱਧ ਹੈ (Opus 4.8 69.2% ਦੇ ਪਿੱਛੇ ਹੈ)।
- Terminal-Bench 2.1: Sonnet 4.6 ਦੇ 67.0% ਦੇ ਮੁਕਾਬਲੇ 80.4% ਤੱਕ ਇੱਕ ਵੱਡੀ ਛਾਲ।
- OSWorld-Verified (Computer Use): ਮਾਡਲ ਨੇ 81.2% ਸਕੋਰ ਕੀਤਾ, ਜੋ ਕਿ ਪਿਛਲੇ ਵਰਜ਼ਨ ਦੁਆਰਾ ਰਿਕਾਰਡ ਕੀਤੇ ਗਏ 78.5% ਤੋਂ ਵੱਧ ਹੈ।
ਸਾਈਬਰ ਸੁਰੱਖਿਆ ਅਤੇ ਸੁਰੱਖਿਆ ਪਾਬੰਦੀਆਂ ਨੂੰ ਸੰਭਾਲਣਾ
ਇਹ ਲਾਂਚ Anthropic ਲਈ ਇੱਕ ਸੰਵੇਦਨਸ਼ੀਲ ਸਮੇਂ 'ਤੇ ਆਇਆ ਹੈ, ਜੋ ਕਿ ਸਾਈਬਰ ਸੁਰੱਖਿਆ ਚਿੰਤਾਵਾਂ ਕਾਰਨ ਉਹਨਾਂ ਦੇ Mythos 5 ਅਤੇ Fable 5 ਮਾਡਲਾਂ 'ਤੇ ਅਮਰੀਕੀ ਸਰਕਾਰ ਦੀਆਂ ਪਾਬੰਦੀਆਂ ਤੋਂ ਬਾਅਦ ਹੋਇਆ ਹੈ। ਅਜਿਹੀਆਂ ਰੁਕਾਵਟਾਂ ਤੋਂ ਬਚਣ ਲਈ, Anthropic ਨੇ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਹੈ ਕਿ Sonnet 5 ਨੂੰ ਵਿਸ਼ੇਸ਼ ਸਾਈਬਰ ਸੁਰੱਖਿਆ ਕੰਮਾਂ 'ਤੇ ਟ੍ਰੇਨਿੰਗ ਨਹੀਂ ਦਿੱਤੀ ਗਈ ਸੀ।
ਹਾਲਾਂਕਿ Sonnet 5, Sonnet 4.6 ਦੇ ਮੁਕਾਬਲੇ ਐਕਸਪਲੋਇਟ (exploit) ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਥੋੜ੍ਹਾ ਉੱਚਾ ਅੰਸ਼ਕ ਕੰਟਰੋਲ ਰੇਟ (13.2%) ਦਿਖਾਉਂਦਾ ਹੈ, ਪਰ ਇਹ ਸਾਫਟਵੇਅਰ ਐਕਸਪਲੋਇਟ ਲਿਖਣ ਵਿੱਚ Opus 4.8 ਜਾਂ Mythos 5 ਦੇ ਮੁਕਾਬਲੇ ਕਾਫ਼ੀ ਘੱਟ ਸਮਰੱਥ ਹੈ। ਜੋਖਮ ਨੂੰ ਘਟਾਉਣ ਲਈ, Anthropic ਨੇ ਡਿਫੌਲਟ ਰੂਪ ਵਿੱਚ ਰੀਅਲ-ਟਾਈਮ ਸਾਈਬਰ ਸੁਰੱਖਿਆ ਉਪਾਅ ਲਾਗੂ ਕੀਤੇ ਹਨ, ਨਾਲ ਹੀ ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ (prompt injection) ਦੇ ਵਿਰੁੱਧ ਬਿਹਤਰ ਰੱਖਿਆ ਅਤੇ "sycophantic" ਵਿਵਹਾਰ (ਉਪਭੋਗਤਾ ਦੀਆਂ ਗਲਤੀਆਂ ਨਾਲ ਸਿਰਫ਼ ਸਹਿਮਤ ਹੋਣ ਦੀ ਪ੍ਰਵਿਰਤੀ) ਵਿੱਚ ਕਮੀ ਲਿਆਂਦੀ ਹੈ।
ਉਪਲਬਧਤਾ ਅਤੇ "Token Paradox"
Claude Sonnet 5 ਹੁਣ Claude Platform ਅਤੇ API (ਜਿਵੇਂ ਕਿ claude-sonnet-5) ਰਾਹੀਂ ਉਪਲਬਧ ਹੈ, ਜਿਸ ਵਿੱਚ ਇੱਕ ਮਿਲੀਅਨ-ਟੋਕਨ ਕੰਟੈਕਸਟ ਵਿੰਡੋ (context window) ਅਤੇ ਜਨਵਰੀ 2026 ਦੀ ਟ੍ਰੇਨਿੰਗ ਕੱਟ-ਆਫ ਹੈ।
ਹਾਲਾਂਕਿ Anthropic ਸ਼ੁਰੂਆਤੀ ਕੀਮਤਾਂ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰ ਰਿਹਾ ਹੈ—31 ਅਗਸਤ, 2026 ਤੱਕ ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਇਨਪੁਟ ਟੋਕਨ ਲਈ $2 ਅਤੇ ਪ੍ਰਤੀ ਮਿਲੀਅਨ ਆਉਟਪੁੱਟ ਟੋਕਨ ਲਈ $10—ਡਿਵੈਲਪਰਾਂ ਨੂੰ "token paradox" ਤੋਂ ਸੁਚੇਤ ਰਹਿਣਾ ਚਾਹੀਦਾ ਹੈ। ਕਿਉਂਕਿ ਮਾਡਲ ਵਧੇਰੇ agentic ਹੈ ਅਤੇ ਵਧੇਰੇ ਇਟਰੇਟਿਵ ਰੀਜ਼ਨਿੰਗ (iterative reasoning) ਵਿੱਚ ਲੱਗਦਾ ਹੈ, ਇਹ ਪਿਛਲੇ ਵਰਜ਼ਨਾਂ ਦੇ ਮੁਕਾਬਲੇ ਇੱਕ ਸਿੰਗਲ ਕੰਮ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਟੋਕਨ ਖਪਤ ਕਰ ਸਕਦਾ ਹੈ, ਜੋ ਸੰਭਵ ਤੌਰ 'ਤੇ ਪ੍ਰਤੀ-ਟੋਕਨ ਘੱਟ ਲਾਗਤ ਦੇ ਫਾਇਦੇ ਨੂੰ ਖਤਮ ਕਰ ਸਕਦਾ ਹੈ।
ਮੁੱਖ ਗੱਲਾਂ
- Performance Parity: Sonnet 5 ਵਿਸ਼ੇਸ਼ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਗਿਆਨ ਕੰਮ ਦੇ ਬੈਂਚਮਾਰਕਸ ਵਿੱਚ ਫਲੈਗਸ਼ਿਪ Opus 4.8 ਦੇ ਬਰਾਬਰ ਹੈ ਜਾਂ ਉਸਨੂੰ ਪਛਾੜ ਵੀ ਦਿੰਦਾ ਹੈ।
- Agentic Focus: ਮਾਡਲ ਕੋਡਿੰਗ (SWE-bench) ਅਤੇ ਟਰਮੀਨਲ ਇੰਟਰੈਕਸ਼ਨ ਵਿੱਚ ਭਾਰੀ ਸੁਧਾਰ ਦਿਖਾਉਂਦਾ ਹੈ, ਜੋ ਇਸਨੂੰ ਖੁਦਮੁਖਤਿਆਰ ਟੂਲ ਵਰਤੋਂ ਲਈ ਆਦਰਸ਼ ਬਣਾਉਂਦਾ ਹੈ।
- Strategic Safety: Anthropic ਨੇ ਇਸ ਮਾਡਲ ਨੂੰ ਵਧੇਰੇ ਵਿਵਾਦਪੂਰਨ, ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਫਰੰਟੀਅਰ ਮਾਡਲਾਂ ਤੋਂ ਵੱਖਰਾ ਕਰਨ ਲਈ ਬਿਲਟ-ਇਨ ਸਾਈਬਰ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਨੂੰ ਤਰਜੀਹ ਦਿੱਤੀ ਹੈ।
