AGI: Henüz Orada mıyız?
Henüz AGI'ye ulaşmış değiliz.
Bir yıl önce, Yapay Genel Zekaya (AGI) ulaşıp ulaşmadığımızı sormuştum. O dönemde, OpenAI'ın o3 modeli ARC-AGI-1 kıyaslamasında önemli bir dönüm noktasına ulaşmıştı. Akıl yürütme konusunda gerçek bir sıçrama göstermişti.
Ancak o zaman bunun bir varış noktası değil, sadece bir mola yeri olduğunu savunmuştum.
Haklıydım.
Bugünün hikayesi AGI'nin gelişiyle ilgili değil. Hikaye daha ilginç. Basit sohbet robotlarının ötesine geçtik. Artık ileri düzey akıl yürütme ve ajan sistemleri çağındayız.
Alanın mevcut durumu şöyle:
• Modeller akıl yürütme ve kodlama konusunda çok daha iyi. • Araçları kullanıyorlar ve uzun bağlamları (context) daha etkili bir şekilde işliyorlar. • Görsel ve ses gibi çok modlu (multimodal) girdileri işleyebiliyorlar. • Hiç olmadığı kadar ekonomik açıdan kullanışlılar.
Ancak hala insan benzeri bir genelliğe sahip değiller.
Kıyaslamalar gerçek hikayeyi anlatıyor. MMLU gibi eski testler doyuma ulaşmışken, yeni testler boşlukları gösteriyor.
• ARC-AGI-1, akıl yürütme için bir atılımdı. • ARC-AGI-2, yenilikçilik ve bileşimin (composition) hala çok zor olduğunu gösteriyor. • ARC-AGI-3, modellerin uyum sağlamakta zorlandığı etkileşimli ortamlara geçiş yapıyor.
Modellerin nasıl ölçeklendiğine dair bir değişim de görüyoruz. Artık mesele sadece daha fazla veri değil. Ölçekleme artık şunlar aracılığıyla gerçekleşiyor:
- Ön eğitim (pretraining) ölçeği.
- Eğitim sonrası (post-training) ve pekiştirmeli öğrenme (reinforcement learning).
- Çıkarım anı (inference-time) akıl yürütme ve araç kullanımı.
Duraklayabilen, kod çalıştırabilen ve bir planı revize edebilen bir model, sadece bir sonraki kelimeyi tahmin eden bir modelden farklıdır. Bu, ajan tabanlı (agentic) sistemlerin yükselişidir.
Ancak büyük bir boşluk hala duruyor: güvenilirlik.
METR araştırması, güvenilir görev tamamlama zaman ufkunun büyüdüğünü gösteriyor. Her birkaç ayda bir iki katına çıkıyor. Ancak 50 dakikalık bir görev ufku, tam bir iş günü demek değildir. Bir haftalık otonom araştırma demek değildir.
"Cevap veren modellerden", "araçlarla akıl yürüten modellere" geçtik.
Yüksek yetenekli sistemler inşa ediyoruz. Ancak bu sistemler genellikle geniş kapsamlı fakat kırılgandır. Lisansüstü düzeyde matematik problemlerini çözebilirler ancak basit ve yeni bulmacalarda başarısız olurlar.
Dürüstçe söylemek gerekirse durum şudur:
AGI'ye ulaşmış değiliz. Ancak çoğu insanın beklediğinden çok daha yakın, ekonomik olarak yıkıcı bir şeye yaklaşıyoruz.
Genel amaçlı akıl yürütme sistemleri inşa ediyoruz. Şaşırtıcı derecede zeki görünüyorlar, ancak hala gerçek insan uyum yeteneğinden yoksun olduklarını kanıtlayan şekillerde başarısız oluyorlar.
Dönüm noktası gerçekti. Abartı (hype) çok fazlaydı. Asıl iş artık sağlamlık (robustness) ve otonomi inşa etmekle ilgili.
Kaynak: https://dev.to/ernestohs/agi-are-we-there-yet-a-follow-up-1471
İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi
