Yapay Zeka Ajanı Değerlendirmesi Çok Erken Bitiyor
Çoğu insan yapay zeka ajanı değerlendirmesinin lansmanla birlikte bittiğini düşünür. Bir benchmark testinde yüksek bir puan görürler ve ajanın hazır olduğunu varsayarlar. Bu bir hatadır.
Yüksek bir puan genellikle ajanın yalnızca birkaç belirli vakayı geçtiği anlamına gelir. Bu, ajanın gerçek dünya için hazır olduğu anlamına gelmez.
Mevcut benchmark'larda devasa boşluklar var. 15 büyük benchmark'ın incelenmesi şunları gösterdi:
- Hiçbir benchmark puanlarına güvenlik veya emniyeti dahil etmedi.
- Hiçbir benchmark maliyet verimliliğini dahil etmedi.
- 15 benchmark'tan 13'ü yalnızca ikili (binary) başarı veya başarısızlığa dayalıydı.
- Hiçbiri %50 yayına alınma hazırlığına ulaşamadı.
Sadece nihai çıktıyı test etmek tehlikelidir. Eğer bir ajan doğru bir cevap verirse, bu bir başarı gibi görünür. Ancak izlediği yol bozuk olabilir.
Bir ajan şunları yapabilir:
- Doğru cevabı almak için yanlış araçları kullanabilir.
- Doğrulama adımlarını tamamen atlayabilir.
- Gerçekleri uydurabilir (hallucinate) ancak doğru bir sonuca varabilir.
- Sürekli yeniden denemelerle bütçenizi tüketebilir.
Eğer bir müşteri destek ajanı yanlış hesap için bir iade işlemi gerçekleştirirse, çıktı düzgün görünür. Ancak ajan başarısız olmuştur.
Sadece cevabı değil, izlenen yolu (trajectory) da puanlamalısınız.
Gerçek değerlendirme şu boyutları kapsamalıdır:
- Araç ve parametre doğruluğu.
- Temellendirme (grounding) ve doğruluk.
- Maliyet ve gecikme (latency).
- Politika ve güvenlik.
- Hatalardan kurtarma.
Değerlendirmeyi bir lansman raporu gibi görmeyi bırakın. Onu sürekli bir döngü olarak ele alın.
Daha iyi bir çalışma yöntemi:
- Yetenekler için halka açık benchmark'lar oluşturun.
- Yayınlamadan önce çevrimdışı (offline) testler yapın.
- Canlı ortam izlerini (production traces) gerçek zamanlı olarak izleyin.
- Araç çağrılarını, argümanları ve ara kararları yakalayın.
- Çevrimdışı veri setlerinizi iyileştirmek için başarısız canlı ortam izlerini kullanın.
Değerlendirme bir gözlemlenebilirlik (observability) problemidir. Bir ajan, ancak davranışı iş hedeflerinizle, araçlarınızla ve kullanıcı niyetinizle tutarlı kaldığı sürece başarılıdır. Bu unsurlar her gün değişir.
İzleri sadece saklamayın. Onları değerlendirin. Değerlendirme olmaksızın iz saklamak sadece bir arama problemidir. Canlı ortam verisi olmadan yapılan çevrimdışı değerlendirme ise sadece bir tiyatrodur.
Değerlendirmenin son adımı bir puan olmamalıdır. Son adım, bir sonraki iz olmalıdır.
Source: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa
Optional learning community: https://t.me/GyaanSetuAi
