Bulut Görevleri İçin Yeni Bir Benchmark
Yapay zeka performansı dengesizdir. Bir model kodlama benchmarklarında zirveye oynayabilir ancak bulut işlerinde başarısız olabilir. Genellikle var olmayan kaynaklar uydurur.
Mevcut benchmarklar kodlama ve muhakemeyi kapsıyor. Bulut yönetimi görevleri için henüz bir benchmark bulunmuyor.
Biz bu benchmark'ı inşa ediyoruz.
Codex ve Claude Code gibi araçları test ediyoruz. İlk testimiz AWS üzerinde çalışıyor. Daha sonra Azure ve GCP için de çalışacak bir şablon kullanacağız.
Metodolojimiz
Cevap anahtarı olarak Infrastructure as Code (IaC) kullanıyoruz. Kaynakları Terraform oluşturuyor. Çıktısı ise gerçek veriyi sağlıyor. Hangi kaynak ID'lerinin mevcut olması gerektiğini tam olarak biliyoruz. Bu, insan hatasını ortadan kaldırıyor. Herkes aynı sonucu almak için aynı yığını (stack) çalıştırabilir.
İki değişkeni test ediyoruz:
• Boyut: Küçük hesaplar, orta ölçekli hesaplar ve binlerce bağımlılığı olan büyük hesaplar. • Geçmiş: Saf IaC kullanan yeni hesaplar ve karmaşık etiketlere (tags) ve manuel değişikliklere sahip eski hesaplar.
Sadece küçük ve temiz hesaplarda çalışan bir araç, gerçek üretim (production) ortamlarında başarısız olur.
Ajanı kısıtlı bir alanda tutuyoruz. Salt okunur (read-only) kimlik bilgileriyle tek bir konteyner içinde çalışıyor. Her eylemi takip etmek için CloudTrail kullanıyoruz. Ağ hatalarını elemek için her testi üç kez tekrarlıyoruz.
Her yanlış cevabı sınıflandırıyoruz:
- Bulundu: Ajan kaynağı gördü.
- Kaçırıldı: Ajan kaynağı görmeyi başaramadı.
- İşaretlendi: Ajan, aslında kullanımda olan bir kaynağı raporladı.
- Uyduruldu: Ajan, var olmayan bir kaynak ID'si uydurdu.
İlk görevimiz AWS kaynak israfının tespitine odaklanıyor. Bağlı olmayan birimler (unattached volumes) ve kullanılmayan IP'ler yerleştirmek için Terraform kullanıyoruz. Ayrıca ajanın hata yapıp yapmadığını görmek için aktif kaynaklar da ekliyoruz.
Kaynak israfı tespiti ilk testimiz; çünkü hem tasarruf sağlıyor hem de net puanlara sahip. Gelecekteki testler güvenlik denetimlerini ve mimari yeniden yapılandırmayı kapsayacak.
Ham loglar ve istemler (prompts) dahil olmak üzere tüm sürecimizi yayınlayacağız. Sonuçlar kötü olsa bile paylaşacağız.
Geri bildiriminize ihtiyacımız var.
Bu yöntemin zayıf yönleri nelerdir? Bir testi gerçek bir hesap gibi hissettiren nedir? Bir sonraki adımda hangi görevi test etmeliyiz?
Kaynak: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1
İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi
