Standart Yapay Zeka Kıyaslamaları Ajan Yeteneklerini Neden Sistematik Olarak Düşük Gösteriyor
Mevcut yapay zeka değerlendirme yöntemleri, sınır modellerin (frontier models) gerçek potansiyelini yakalamakta yetersiz kalıyor ve genellikle hesaplama bütçesi eksikliğini zeka eksikliğiyle karıştırıyor. Birleşik Krallık Yapay Zeka Güvenlik Enstitüsü (AISI), yapay zeka ajan performansının sabit bir puan değil, test süresi hesaplaması (test-time compute) arttıkça keskin bir şekilde yükselen bir ölçekleme eğrisi olduğunu ortaya koydu.
Hesaplama-Yetenek Eğrisi
AISI araştırmasından elde edilen temel bulgu, bir yapay zeka ajanının başarı oranının, ajanın bir görev üzerinde çalışırken kullanmasına izin verilen işlem gücü ve token miktarı olan "test süresi hesaplaması" (test-time compute) ile ayrılmaz bir şekilde bağlantılı olduğudur. Araştırmacılar değerlendirmelere sabit bütçe sınırları uyguladıklarında, bir modelin maksimum potansiyelini değil, minimum yeteneğini ölçmüş oluyorlar.
Bu fenomen, birçok yüksek riskli alanda gözlemlenebilir. TerminalBench 2.0 ve SWE-Bench Pro gibi kıyaslama araçlarının kullanıldığı yazılım mühendisliği görevlerinde, token bütçesi bir milyondan on milyona çıkarıldığında başarı oranları yaklaşık %25 oranında arttı. Benzer şekilde, "Humanity's Last Exam" kapsamındaki matematiksel ve akademik görevlerde, bütçe beş milyon tokene ulaştığında %22'lik bir artış görüldü.
İnsan ve Yapay Zeka Görev Süresi Arasındaki Güç Yasası
Çalışma, bir insan uzmanın bir görev için ihtiyaç duyduğu süre ile bir yapay zeka ajanının ihtiyaç duyduğu token tüketimi arasında doğrudan bir korelasyon kurdu. Bu ilişki bir güç yasasını (power law) takip ediyor: Bir insanın bir dakikasını alan bir görev bir ajana binlerce tokene mal olurken, bir saatlik bir görev milyonlarca tokene mal oluyor.
Bu durum, mevcut testlerde devasa bir kör nokta yaratıyor. Örneğin, AISI siber güvenlik görevi olan "The Last Ones", yaklaşık 20 saatlik insan uzmanlığı gerektiriyor. Enstitü tarafından test edilen hiçbir model, bu görevi 30 milyon tokenden daha azıyla çözemedi. Araştırmacılar, standart ve düşük bütçeli değerlendirmeler kullanarak, en karmaşık ve kritik görevleri ölçüm sürecinden fiilen dışlamış oluyorlar.
Hızlanan İlerleme ve Üç İyileşme Ekseni
AISI, sınır modellerin "zaman ufkunun" (time horizon) —yani üstesinden gelebildikleri görevlerin karmaşıklığının— daha önce düşünüldüğünden çok daha hızlı genişlediğini belirtiyor. Daha önceki tahminler, sabit 2,5 milyon tokenlik bir bütçede siber görevler için zaman ufkunun her 4,7 ayda bir ikiye katlandığını öngörürken, bu oran daha yüksek bütçelerde önemli ölçüde hızlanıyor. 50 milyon tokenlik bir bütçede, ikiye katlanma hızı her 40 ila 50 günde bir gerçekleşecek şekilde artıyor.
Yeni modeller (test edilen GPT ve Claude serileri gibi), üç spesifik boyutta iyileşme gösteriyor:
- Erişim (Reach): Giderek zorlaşan görevlerin üstesinden gelme yeteneği.
- Güvenilirlik (Reliability): Aynı görevi daha tutarlı bir şekilde çözme yeteneği
