CI Testleriniz Geçti. Ancak Agent'ınız Operatöre Hazır Değil

Geçen çeyrekte bir kurumsal müşteriye bir doküman agent'ı teslim ettik.

Test paketimiz %94 başarı oranı gösterdi.

Pilot uygulamanın üçüncü haftasında, agent okuyamadığı faturalar için iade işlemleri başlatmaya başladı. Bunu sessizce yaptı. Hiçbir hata veya log oluşmadı. Agent sadece doğru görünen yanlış cevaplar verdi.

CI sürecimiz tüm süre boyunca yeşil kaldı.

Sorun model veya prompt değildi. Sorun, test etmediğimiz %6'lık veriydi. Bu %6'lık kısım, operatörden gelen ilk gerçek verilerdi.

Bu bir uç durum (edge case) değildir. Bu, operatöre hazır olmanın tanımıdır.

Production-ready (üretime hazır olma) altyapı ile ilgilidir. Servisinizin ayakta kalması ve yükü yönetmesi anlamına gelir.

Operator-ready (operatöre hazır olma) ise farklıdır. Agent'ınızın onu inşa etmeyen biri için çalışması demektir. Tasarlamadığınız veriler üzerinde çalışması demektir. Gerçek sonuçları olan kararlar vermesi demektir.

Çoğu test hattı (pipeline), sizin oluşturduğunuz bir set üzerindeki başarı oranlarını ölçer. Gerçek veriler test setinizden farklılaştığında ne olacağını ölçmezler.

%97 doğrulama başarısına sahip bir model kulağa hoş geliyor. Ancak başarısız olan %3'e bakın.

Eğer agent'ınız bir yeniden deneme (retry) sırasında eksik alanları varsayılan değerlerle dolduruyorsa, sessiz bir hata makinesi inşa etmişsiniz demektir. Şema geçer, ancak veri yanlıştır.

Bunu düzeltmek için şema geçerliliğini içerik güveninden (content confidence) ayırın.

Her yanıta bir güven skoru (confidence score) ekledik. Düşük güven artık bir yeniden deneme yerine insan incelemesini tetikliyor. Bu değişiklik, ilk 18 olayımızın 14'ünü yakaladı.

Test setiniz düşündüğünüz şeyleri kapsar. Bir operatörün verisi ise gözden kaçırdıklarınızı kapsar.

Bizim durumumuzda, tek sayfalık faturaları test etmiştik. Operatör ise taranmış PDF'lerden oluşan çok sayfalı faturalar kullandı. Agent yeni formatta başarısız oldu.

Sadece parser'ı (ayrıştırıcıyı) düzeltmeyin. Canlıya geçmeden önce gerçek operatör verileriyle test edin.

Herhangi bir devir teslimden önce, artık operatörün kendi verilerinden 50 doküman talep ediyoruz. Sentetik veri kullanmıyoruz. Onların verisini kullanıyoruz.

Ayrıca eksiksiz bir denetim izine (audit trail) ihtiyacınız var. Sadece modelin ne döndürdüğünü loglamayın. Modelin neyi yapmamaya karar verdiğini de loglayın.

Minimum bir denetim izi şunları gerektirir:

  • Alan düzeyinde güven skorları içeren çıktı
  • Agent'ın yeniden deneme yapıp yapmadığını gösteren bir fallback göstergesi
  • Aynı dokümanı tekrar oynatmak için bir girdi özeti (input hash)
  • Kullanılan spesifik model ve prompt versiyonu

Bir agent'ı bir operatöre teslim etmeden önce şu beş şeyi kontrol edin:

  • Operatörün gerçek verilerinden 50'den fazla örnek çalıştırın.
  • Loglarda, şema kontrollerinden geçen ancak sonraki aşamalarda hatalara yol açan çıktıları arayın.
  • Agent'ın güvenli bir şekilde hata vermesini sağlamak için bozuk (malformed) girdiler verin.
  • Belirli bir dokümana ne olduğunu 5 dakikadan kısa sürede yanıtlayabildiğinizden emin olun.
  • Agent'ın mümkün olan en düşük izinlere sahip olduğunu kontrol edin.

Test başarı oranımız %94'tü. İlk aydaki hata oranımız %8'di.

Güven skorları, gerçek dünya testleri ve daha iyi loglar ekledikten sonra hata oranı %1,4'e düştü.

Sorun test puanı değildi. Sorun test kapsamıydı.

Kaynak: https://dev.to/ethanwritesai/our-ci-passed-your-agent-isnt-operator-ready-2mfn

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi