Sakana AI ਨੇ Multi-LLM ਬੁੱਧੀ ਨੂੰ ਸੰਚਾਲਿਤ ਕਰਨ ਲਈ Fugu ਲਾਂਚ ਕੀਤਾ
ਟੋਕੀਓ-ਅਧਾਰਿਤ Sakana AI ਨੇ Fugu ਦਾ ਅਨාවਰਨ ਕੀਤਾ ਹੈ, ਜੋ ਇੱਕ ਉੱਨਤ multi-LLM orchestrator ਹੈ। ਇਸਨੂੰ ਗੁੰਝਲਦਾਰ ਕੰਮਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਵਿਸ਼ੇਸ਼ ਮਾਡਲਾਂ ਦੇ ਇੱਕ ਸਮੂਹ (pool) ਨੂੰ ਤਾਲਮੇਲ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇੱਕ ਸਿੰਗਲ ਇੰਟੈਲੀਜੈਂਟ ਲੇਅਰ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਹੋਏ, Fugu ਦਾ ਉਦੇਸ਼ Anthropic ਵਰਗੇ ਉਦਯੋਗ ਦੇ ਮੋਹਰੀਆਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਟੱਕਰ ਦੇਣਾ ਹੈ, ਅਤੇ ਨਾਲ ਹੀ vendor lock-in ਵਿਰੁੱਧ ਇੱਕ ਰਣਨੀਤਕ ਸੁਰੱਖਿਆ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ।
ਇੱਕ Swappable Agent Pool ਲਈ ਇੱਕ Unified Interface
Fugu ਸਿਰਫ਼ ਇੱਕ ਹੋਰ standalone large language model ਨਹੀਂ ਹੈ; ਇਹ ਇੱਕ ਅਜਿਹਾ language model ਹੈ ਜੋ ਖਾਸ ਤੌਰ 'ਤੇ ਇੱਕ "agent pool" ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਹੈ। ਅੰਤਮ-ਵਰਤੋਂਕਾਰ (end-user) ਲਈ, ਇਹ ਸਿਸਟਮ ਇੱਕ OpenAI-compatible API ਰਾਹੀਂ ਇੱਕ ਸਿੰਗਲ ਇਕਾਈ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ, Fugu ਚੋਣ, ਡੈਲੀਗੇਸ਼ਨ, ਕਾਰਜਕਾਰੀ (execution), ਜਾਂਚ ਅਤੇ ਸੰਸ਼ਲੇਸ਼ਣ (synthesis) ਦਾ ਇੱਕ ਗੁੰਝਲਦਾਰ ਚੱਕਰ ਪੂਰਾ ਕਰਦਾ ਹੈ। ਪ੍ਰੋਂਪਟ ਦੀ ਗੁੰਝਲਤਾ ਦੇ ਆਧਾਰ 'ਤੇ, Fugu ਸਮੱਸਿਆ ਨੂੰ ਇਕੱਲੇ ਹੱਲ ਕਰ ਸਕਦਾ ਹੈ ਜਾਂ ਕੰਮ ਦੇ ਬੋਝ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਵਿਸ਼ੇਸ਼ ਮਾਡਲਾਂ ਦੀ ਇੱਕ "ਟੀਮ"—ਜਿਸ ਵਿੱਚ ਇਸਦੀਆਂ ਆਪਣੀਆਂ ਕਾਪੀਆਂ ਵੀ ਸ਼ਾਮਲ ਹਨ—ਨੂੰ ਗਤੀਸ਼ੀਲ ਰੂਪ ਵਿੱਚ ਭਰਤੀ ਕਰ ਸਕਦਾ ਹੈ।
Sakana AI ਵੱਖ-ਵੱਖ ਪੇਸ਼ੇਵਰ ਲੋੜਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਦੋ ਵੱਖਰੇ ਵਰਜ਼ਨ ਪੇਸ਼ ਕਰ ਰਿਹਾ ਹੈ:
- Fugu Base: ਘੱਟ latency ਅਤੇ ਰੋਜ਼ਾਨਾ ਦੇ ਕੰਮਾਂ ਜਿਵੇਂ ਕਿ chatbot ਇੰਟਰੈਕਸ਼ਨ ਅਤੇ ਸਟੈਂਡਰਡ code reviews ਲਈ ਅਨੁਕੂਲਿਤ (optimized)।
- Fugu Ultra: ਵੱਧ ਤੋਂ ਵੱਧ reasoning quality ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ scientific paper reproduction, cybersecurity analysis, ਅਤੇ patent searches ਵਰਗੇ ਉੱਚ-ਅਹੁਦੇ ਵਾਲੇ (high-stakes) workflows ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦਾ ਹੈ।
Benchmarks ਵਿੱਚ Frontier Models ਤੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ
Fugu Ultra ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਮਾਪਦੰਡ (performance metrics) ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਹਨ, ਜੋ ਇਸਨੂੰ Anthropic ਦੇ ਬਹੁਤ ਉਡੀਕ ਕੀਤੇ ਜਾ ਰਹੇ Fable 5 ਅਤੇ Mythos Preview ਦੇ ਸਿੱਧੇ ਮੁਕਾਬਲੇ ਵਿੱਚ ਰੱਖਦੇ ਹਨ। ਖਾਸ ਤੌਰ 'ਤੇ, Fugu Ultra ਇਹ ਸਕੋਰ ਇੱਕ ਅਜਿਹੇ pool ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ ਜਿਸ ਵਿੱਚ Anthropic ਦੇ ਮਾਡਲ ਸ਼ਾਮਲ ਨਹੀਂ ਹਨ, ਜੋ ਇਹ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ ਕਿ ਜੇਕਰ ਉਹ agents ਨੂੰ ਜੋੜ ਦਿੱਤਾ ਜਾਵੇ ਤਾਂ ਇਹ ਹੋਰ ਵੀ ਉੱਚੇ ਪੱਧਰ ਤੱਕ ਪਹੁੰਚ ਸਕਦਾ ਹੈ।
ਸਖ਼ਤ ਟੈਸਟਿੰਗ ਵਿੱਚ, Fugu Ultra ਨੇ ਕਈ ਮੁੱਖ ਤਕਨੀਕੀ benchmarks ਵਿੱਚ ਉੱਤਮ ਯੋਗਤਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ:
- SWE Bench Pro: Fugu Ultra ਨੇ 73.7 ਸਕੋਰ ਕੀਤਾ, ਜੋ GPT 5.5 (58.6) ਅਤੇ Gemini 3.1 Pro (54.2) ਨਾਲੋਂ ਕਾਫ਼ੀ ਬਿਹਤਰ ਹੈ।
- LiveCodeBench: Fugu Ultra 93.2 ਤੱਕ ਪਹੁੰਚ ਗਿਆ, ਜੋ Opus 4.8 (87.8) ਅਤੇ GPT 5.5 (85.3) ਤੋਂ ਅੱਗੇ ਹੈ।
- Humanity's Last Exam: ਮਾਡਲ ਨੇ 50.0 ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜੋ Opus 4.8 (49.8) ਤੋਂ ਥੋੜ੍ਹਾ ਅੱਗੇ ਹੈ।
- GPQA-D: Fugu Ultra ਨੇ 95.5 ਦੇ ਉੱਚ ਮਿਆਰ ਨੂੰ ਮੈਚ ਕੀਤਾ।
ਸ਼ੁਰੂਆਤੀ ਬੀਟਾ ਟੈਸਟਰਾਂ ਨੇ ਵਿਸ਼ੇਸ਼ ਖੇਤਰਾਂ ਵਿੱਚ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਕੁਸ਼ਲਤਾ ਵਾਧੇ ਦੀ ਰਿਪੋਰਟ ਦਿੱਤੀ ਹੈ। ਇੱਕ ਡਿਵੈਲਪਰ ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ code reviews ਦੌਰਾਨ, Fugu Ultra ਨੇ 20 ਤੋਂ ਵੱਧ bugs ਦੀ ਪਛਾਣ ਕੀਤੀ, ਜਦੋਂ ਕਿ GPT-5.5 ਨੇ ਸਿਰਫ਼ ਲਗਭਗ ਤਿੰਨ ਹੀ ਫਲੈਗ ਕੀਤੇ ਸਨ।
AI Vendor Lock-in ਦੇ ਜੋਖਮਾਂ ਨੂੰ ਘਟਾਉਣਾ
ਸਿਰਫ਼ ਪ੍ਰਦਰਸ਼ਨ ਤੋਂ ਇਲਾਵਾ, Sakana AI Fugu ਨੂੰ ਡਿਜੀਟਲ ਪ੍ਰਭੂਸੱਤਾ (digital sovereignty) ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸਾਧਨ ਵਜੋਂ ਪੇਸ਼ ਕਰ ਰਿਹਾ ਹੈ। ਅਜਿਹੇ ਯੁੱਗ ਵਿੱਚ ਜਿੱਥੇ ਨਿਰਯਾਤ ਕੰਟਰੋਲ ਅਤੇ ਰੈਗੂਲੇਟਰੀ ਤਬਦੀਲੀਆਂ ਅਚਾਨਕ ਵਿਸ਼ੇਸ਼ ਮਾਡਲਾਂ ਤੱਕ ਪਹੁੰਚ ਨੂੰ ਸੀਮਤ ਕਰ ਸਕਦੀਆਂ ਹਨ (ਜਿਵੇਂ ਕਿ Anthropic ਦੀਆਂ ਹਾਲੀਆ ਪਾਬੰਦੀਆਂ), ਇੱਕ ਸਿੰਗਲ ਪ੍ਰਦਾਤਾ 'ਤੇ ਨਿਰਭਰ ਕਰਨਾ ਵਿੱਤ, ਸ਼ਾਸਨ ਅਤੇ ਮਹੱਤਵਪੂਰਨ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਲਈ ਇੱਕ ਵੱਡੀ ਕਮਜ਼ੋਰੀ ਹੈ।
ਕਿਉਂਕਿ Fugu ਇੱਕ swappable agent pool ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਸੰਸਥਾਵਾਂ ਆਪਣੇ workflows ਨੂੰ ਵੱਖ-ਵੱਖ ਪ੍ਰਦਾਤਾਵਾਂ ਵੱਲ ਮੋੜ ਸਕਦੀਆਂ ਹਨ ਜੇਕਰ ਇੱਕ API ਬੰਦ ਹੋ ਜਾਂਦੀ ਹੈ। ਹਾਲਾਂਕਿ ਇਹ "AI sovereignty" ਲਈ ਪੂਰਨ ਹੱਲ ਨਹੀਂ ਹੈ—ਕਿਉਂਕਿ ਪੂਰੇ ਉਦਯੋਗ ਵਿੱਚ ਲਾਗੂ ਹੋਣ ਵਾਲੀ ਪਾਬੰਦੀ ਅਜੇ ਵੀ pool ਨੂੰ ਸੀਮਤ ਕਰ ਸਕਦੀ ਹੈ—ਪਰ ਇਹ ਉਹਨਾਂ ਉਦਯੋਗਾਂ ਲਈ ਲਚਕੀਲੇਪਣ (resilience) ਦੀ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਲੇਅਰ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਜੋ ਆਪਣੀ AI ਨਿਰਭਰਤਾ ਨੂੰ ਵਿਭਿੰਨਤਾ ਪ੍ਰਦਾਨ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਨ।
ਮੁੱਖ ਗੱਲਾਂ (Key Takeaways)
- Dynamic Orchestration: Fugu ਇੱਕ ਸਿੰਗਲ API ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ ਜੋ ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ ਬਹੁ-ਪੜਾਅ ਵਾਲੀਆਂ, ਗੁੰਝਲਦਾਰ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਵਿਸ਼ੇਸ਼ ਮਾਡਲਾਂ ਦੀ ਇੱਕ ਟੀਮ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਦਾ ਹੈ।
- Benchmark Dominance: Fugu Ultra ਸਿੱਧੇ ਤੌਰ 'ਤੇ Anthropic ਦੇ Fable 5 ਅਤੇ Mythos ਨਾਲ ਮੁਕਾਬਲਾ ਕਰਦਾ ਹੈ, ਜੋ ਕੋਡਿੰਗ (SWE Bench Pro) ਅਤੇ reasoning benchmarks ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਲੀਡ ਦਿਖਾਉਂਦਾ ਹੈ।
- Strategic Resilience: Swappable ਮਾਡਲ pool ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ AI ਪ੍ਰਦਾਤਾਵਾਂ ਵਿੱਚ ਵਿਭਿੰਨਤਾ ਲਿਆ ਕੇ vendor lock-in ਅਤੇ ਰੈਗੂਲੇਟਰੀ ਵਿਘਨ ਦੇ ਜੋਖਮਾਂ ਨੂੰ ਘਟਾਉਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।