Standart Yapay Zeka Benchmarkları Neden Ajan Yeteneklerini Sistematik Olarak Hafife Alıyor?

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial22 saat önce3min read

Standart Yapay Zeka Benchmarkları Neden Ajan Yeteneklerini Sistematik Olarak Hafife Alıyor?

In this article

Standart Yapay Zeka Kıyaslamaları Ajan Yeteneklerini Neden Sistematik Olarak Düşük Gösteriyor

Mevcut yapay zeka değerlendirme yöntemleri, sınır modellerin (frontier models) gerçek potansiyelini yakalamakta yetersiz kalıyor ve genellikle hesaplama bütçesi eksikliğini zeka eksikliğiyle karıştırıyor. Birleşik Krallık Yapay Zeka Güvenlik Enstitüsü (AISI), yapay zeka ajan performansının sabit bir puan değil, test süresi hesaplaması (test-time compute) arttıkça keskin bir şekilde yükselen bir ölçekleme eğrisi olduğunu ortaya koydu.

Hesaplama-Yetenek Eğrisi

AISI araştırmasından elde edilen temel bulgu, bir yapay zeka ajanının başarı oranının, ajanın bir görev üzerinde çalışırken kullanmasına izin verilen işlem gücü ve token miktarı olan "test süresi hesaplaması" (test-time compute) ile ayrılmaz bir şekilde bağlantılı olduğudur. Araştırmacılar değerlendirmelere sabit bütçe sınırları uyguladıklarında, bir modelin maksimum potansiyelini değil, minimum yeteneğini ölçmüş oluyorlar.

Bu fenomen, birçok yüksek riskli alanda gözlemlenebilir. TerminalBench 2.0 ve SWE-Bench Pro gibi kıyaslama araçlarının kullanıldığı yazılım mühendisliği görevlerinde, token bütçesi bir milyondan on milyona çıkarıldığında başarı oranları yaklaşık %25 oranında arttı. Benzer şekilde, "Humanity's Last Exam" kapsamındaki matematiksel ve akademik görevlerde, bütçe beş milyon tokene ulaştığında %22'lik bir artış görüldü.

İnsan ve Yapay Zeka Görev Süresi Arasındaki Güç Yasası

Çalışma, bir insan uzmanın bir görev için ihtiyaç duyduğu süre ile bir yapay zeka ajanının ihtiyaç duyduğu token tüketimi arasında doğrudan bir korelasyon kurdu. Bu ilişki bir güç yasasını (power law) takip ediyor: Bir insanın bir dakikasını alan bir görev bir ajana binlerce tokene mal olurken, bir saatlik bir görev milyonlarca tokene mal oluyor.

Bu durum, mevcut testlerde devasa bir kör nokta yaratıyor. Örneğin, AISI siber güvenlik görevi olan "The Last Ones", yaklaşık 20 saatlik insan uzmanlığı gerektiriyor. Enstitü tarafından test edilen hiçbir model, bu görevi 30 milyon tokenden daha azıyla çözemedi. Araştırmacılar, standart ve düşük bütçeli değerlendirmeler kullanarak, en karmaşık ve kritik görevleri ölçüm sürecinden fiilen dışlamış oluyorlar.

Hızlanan İlerleme ve Üç İyileşme Ekseni

AISI, sınır modellerin "zaman ufkunun" (time horizon) —yani üstesinden gelebildikleri görevlerin karmaşıklığının— daha önce düşünüldüğünden çok daha hızlı genişlediğini belirtiyor. Daha önceki tahminler, sabit 2,5 milyon tokenlik bir bütçede siber görevler için zaman ufkunun her 4,7 ayda bir ikiye katlandığını öngörürken, bu oran daha yüksek bütçelerde önemli ölçüde hızlanıyor. 50 milyon tokenlik bir bütçede, ikiye katlanma hızı her 40 ila 50 günde bir gerçekleşecek şekilde artıyor.

Yeni modeller (test edilen GPT ve Claude serileri gibi), üç spesifik boyutta iyileşme gösteriyor:

Erişim (Reach): Giderek zorlaşan görevlerin üstesinden gelme yeteneği.
Güvenilirlik (Reliability): Aynı görevi daha tutarlı bir şekilde çözme yeteneği

Standart Yapay Zeka Benchmarkları Neden Ajan Yeteneklerini Sistematik Olarak Hafife Alıyor?

Standart Yapay Zeka Kıyaslamaları Ajan Yeteneklerini Neden Sistematik Olarak Düşük Gösteriyor

Hesaplama-Yetenek Eğrisi

İnsan ve Yapay Zeka Görev Süresi Arasındaki Güç Yasası

Hızlanan İlerleme ve Üç İyileşme Ekseni

Continue reading

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

Yapay Zeka Ajanı Değerlendirmesi Çok Erken Sona Eriyor

Agentic AI'nın Yükselişi: Teknoloji Ekipleri Otomasyonun Öncüsü Olmaya Neden Liderlik Ediyor?

Öncü Yapay Zeka Modelleri Neden Finansal Triyaj Testlerinde Başarısız Oluyor?