Sakana AI, Çoklu LLM Zekasını Koordine Etmek İçin Fugu'yu Tanıttı
Tokyo merkezli Sakana AI, karmaşık görevleri çözmek için özelleşmiş modellerden oluşan bir havuzu koordine etmek üzere tasarlanmış gelişmiş bir çoklu LLM orkestratörü olan Fugu'yu tanıttı. Fugu, tek bir akıllı katman olarak hareket ederek, Anthropic gibi sektör liderlerinin performansına rakip olmayı hedeflerken aynı zamanda tedarikçi bağımlılığına (vendor lock-in) karşı stratejik bir koruma sağlıyor.
Değiştirilebilir Bir Ajan Havuzu İçin Birleşik Bir Arayüz
Fugu sadece başka bir bağımsız büyük dil modeli değildir; özellikle bir "ajan havuzunu" yönetmek için eğitilmiş bir dil modelidir. Son kullanıcı için sistem, OpenAI uyumlu bir API aracılığıyla tek bir varlık olarak işlev görür. Ancak dahili olarak Fugu; seçim, delegasyon, yürütme, kontrol ve sentezden oluşan karmaşık bir döngü gerçekleştirir. Bir istemin (prompt) karmaşıklığına bağlı olarak Fugu, sorunu tek başına çözebilir veya iş yükünün üstesinden gelmek için kendi kopyaları da dahil olmak üzere özelleşmiş modellerden oluşan dinamik bir "ekip" kurabilir.
Sakana AI, farklı profesyonel ihtiyaçları karşılamak için iki farklı sürüm sunuyor:
- Fugu Base: Düşük gecikme süresi ve sohbet robotu etkileşimleri ile standart kod incelemeleri gibi günlük görevler için optimize edilmiştir.
- Fugu Ultra: Bilimsel makale yeniden üretimi, siber güvenlik analizi ve patent aramaları gibi yüksek riskli iş akışlarını hedefleyerek, maksimum muhakeme kalitesi için tasarlanmıştır.
Benchmark Testlerinde Öncü Modellerin Önüne Geçiyor
Fugu Ultra'nın performans metrikleri çarpıcıdır ve onu Anthropic'in merakla beklenen Fable 5 ve Mythos Preview modelleriyle doğrudan rekabete sokmaktadır. Özellikle Fugu Ultra, bu puanları Anthropic modellerini içermeyen bir havuz kullanarak elde etmektedir; bu da söz konusu ajanlar entegre edilirse çok daha yüksek performans seviyelerine ulaşılabileceğini göstermektedir.
Titiz testlerde Fugu Ultra, birkaç temel teknik benchmark genelinde üstün yetenekler sergiledi:
- SWE Bench Pro: Fugu Ultra 73.7 puan alarak GPT 5.5 (58.6) ve Gemini 3.1 Pro'yu (54.2) önemli ölçüde geride bıraktı.
- LiveCodeBench: Fugu Ultra 93.2 puana ulaşarak Opus 4.8'i (87.8) ve GPT 5.5'i (85.3) geride bıraktı.
- Humanity's Last Exam: Model 50.0 puan alarak Opus 4.8'i (49.8) kıl payı geçti.
- GPQA-D: Fugu Ultra 95.5 ile yüksek standartlara ulaştı.
İlk beta test kullanıcıları, uzmanlık gerektiren alanlarda devasa verimlilik artışları bildirdi. Bir geliştirici, kod incelemeleri sırasında Fugu Ultra'nın 20'den fazla hatayı tespit ettiğini, GPT-5.5'in ise yalnızca yaklaşık üç hata işaretlediğini belirtti.
Yapay Zeka Tedarikçi Bağımlılığı Risklerini Azaltmak
Saf performansın ötesinde Sakana AI, Fugu'yu dijital egemenlik için kritik bir araç olarak konumlandırıyor. İhracat kontrollerinin ve düzenleyici değişikliklerin belirli modellere erişimi aniden kısıtlayabildiği bir dönemde (Anthropic'in son kısıtlamaları gibi), tek bir sağlayıcıya güvenmek; finans, yönetişim ve kritik altyapılar için ciddi bir güvenlik açığı oluşturmaktadır.
Fugu değiştirilebilir bir ajan havuzu kullandığı için kuruluşlar, bir API devre dışı kaldığında iş akışlarını farklı sağlayıcılara yönlendirebilirler. Sektör genelinde yaygın bir kısıtlama hala havuzu sınırlayabileceği için "yapay zeka egemenliği" adına tam bir çözüm olmasa da, yapay zeka bağımlılıklarını çeşitlendirmek isteyen işletmeler için hayati bir dayanıklılık katmanı sağlar.
Önemli Çıkarımlar
- Dinamik Orkestrasyon: Fugu, çok adımlı ve karmaşık problemleri çözmek için dahili olarak özelleşmiş modellerden oluşan bir ekibi yöneten tek bir API olarak işlev görür.
- Benchmark Hakimiyeti: Fugu Ultra, Anthropic'in Fable 5 ve Mythos modelleriyle doğrudan rekabet ederek kodlama (SWE Bench Pro) ve muhakeme benchmarklarında önemli farklar ortaya koymaktadır.
- Stratejik Dayanıklılık: Değiştirilebilir model havuzu, kullanıcıların yapay zeka sağlayıcılarını çeşitlendirerek tedarikçi bağımlılığı ve düzenleyici kesintilerin risklerini azaltmalarına olanak tanır.