LLM Benchmark'ları Çağında Agentic AI'ı Değerlendirmek

Çoğu yapay zeka testi basit bir düzeni takip eder. Modele bir istem (prompt) verirsiniz. Yanıtı bir referansla karşılaştırırsınız. Sonucu puanlarsınız.

Bu yöntem özetlemeler için işe yarar. Sınıflandırma için işe yarar. Ancak bir modelin değişen bir ortamda hareket etmesi gerektiğinde başarısız olur.

"The Age of LLM" makalesi daha iyi bir yöntem sunuyor. Bu, bir ızgara üzerinde oynanan 1v1 bir oyundur. İki model, "savaş sisi" (fog of war) altında yarışır. Her şeyi göremezler. Düşman birimlerini bulmak için keşif yapmalı veya tahmin yürütmelidirler. Anlaşmalar veya ültimatomlar önermek için diplomasi kullanmalıdırlar.

Her hamle katı bir JSON şemasına uymalıdır. Eğer bir hamle geçersizse, sistem onu reddeder.

Bu test belirli becerileri ölçer:

  • Durum takibi (State tracking): Model ne gördüğünü ve neyi kaybettiğini hatırlıyor mu?
  • İnanç yönetimi (Belief management): Eksik bilgilerle mantıklı hareket ediyor mu?
  • Eylem geçerliliği (Action validity): Ortamın kurallarına uyuyor mu?
  • Uzun vadeli strateji (Long-horizon strategy): Bir hedefe ulaştıran hamleler dizisi seçebilir mi?

Bir model akıcı görünebilir ancak pratikte başarısız olabilir. Durumunu unutabilir veya geçersiz araç çağrıları (tool calls) yapabilir.

Sonuçlar bir örüntü gösteriyor. Birçok model belirsizlik altında basit tuzaklara düşüyor. Çoğu agresif askeri hamleleri seçti. Diplomasi yapıldı ancak anlaşmalar nadiren tamamlandı. Birçok hata, zayıf durum takibinden kaynaklandı.

Standart benchmark'lar bu hataları gözden kaçırıyor. Bir model harika bir açıklama yazabilir ancak gizli bir birimi takip etmede başarısız olabilir. Bunu ancak ortam modeli hareket etmeye zorladığında görebilirsiniz.

Güncel yapay zeka çalışmaları genellikle araç kullanımına (tool use) odaklanıyor. Araç kullanımı gereklidir ancak yeterli değildir. Gerçek bir ajan, bağlamı korumalı ve işler değiştiğinde kendini toparlayabilmelidir.

Endüstri, sohbet kalitesinden sonuçlara doğru kayıyor. Faydalı sistemler, ne kadar cilalı bir metin ürettikleriyle değil, işi tamamlayıp tamamlamadıklarıyla ölçülür.

Eğer bir ajan bir inanç durumunu (belief state) koruyamıyorsa, stratejik değildir. Eğer bir şemaya uyamıyorsa, araç kullanımı kırılgandır.

Gerçek ajan yeteneği iki şey gerektirir:

  1. Plan yapabilme yeteneği.
  2. Belirsizlik altında uygulama yapabilme yeteneği.

Yazılımda kötü çıktı bir hatadır (bug). Yapay zeka ajanlarında ise kötü çıktı genellikle sessiz bir başarısızlıktır. Bir araç çağrısı hiçbir şey yapmaz. Gizli bir varsayım yanlıştır. Eğer sadece nihai yanıtı puanlarsanız, sorunu kaçırırsınız.

Şunları test etmeliyiz:

  • Kısmi gözlemlenebilirlik (Partial observability)
  • Gizli durum (Hidden state)
  • Uzun vadeli koordinasyon (Long-horizon coordination)
  • Eylem geçerliliği (Action validity)
  • Hatalardan kurtulma (Recovery from mistakes)

Değerlendirme, bu sistemlerin gerçek dünyada nasıl çalıştığına daha yakın olmalıdır.

Kaynak: https://dev.to/prabhakar_chaudhary_7afe4/what-the-age-of-llm-benchmark-says-about-evaluating-agentic-ai-2hfc

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi