Üretim Ajanımı Bozan Null Girdisi

Demo üç hafta boyunca kusursuz çalıştı. Her test girdisi işe yaradı. Her çıktı doğru yere gitti. Sistemin güvenilir olduğunu düşünmüştüm.

Sonra bir tedarikçi, konu satırı boş olan bir e-posta gönderdi.

Ajan, bir sipariş referansı çıkarmak için bir metin (string) bekliyordu. Bunun yerine null bir değer aldı. Çökmedi. Çökmesi daha iyi olurdu. Gerçek gibi görünen sahte bir sipariş referansı oluşturdu. Sonraki sistem bunu işledi. Dört saat boyunca kimse fark etmedi.

Demolar beklediğiniz girdileri kullanır. Üretim ortamı ise beklemediğiniz girdileri kullanır.

Ajan operasyonunu aienterprise.dk adresinde yürütüyorum. Tüm izlemeyi (trace) gördüm. Prompt, ajana sipariş referansını konu satırından çıkarmasını söylüyordu. Eğer konu satırı mevcutsa bu işe yarıyor.

Eğer konu satırı eksikse, büyük bir dil modeli boşluğu dolduruyor. Doğru görünen bir şey uyduruyor. Bu rastgele bir gürültü değil. Yapılandırılmış bir gürültü. Tehlikeli çünkü doğru görünüyor. Bir hatayı yakalayabilirsiniz. Ancak kendinden emin, yanlış bir cevabı kolayca yakalayamazsınız.

Modeli yeniden eğitmedim. Prompt'u değiştirmedim. Model çağrısından önce bir koruma (guard) ekledim.

Artık önce basit bir kontrol çalışıyor. Şunu soruyor: konu alanı mevcut mu ve boş değil mi? Cevap hayırsa, mesaj bir insanın incelemesi için bekletme kuyruğuna (hold queue) gidiyor. Ajan hatalı girdiyi asla görmüyor.

Bu koruma sadece on iki satır koddan oluşuyor. Bu yıl inşa ettiğim en önemli şey bu.

Desen basit. Eğer bir ajan bir yapı varsayıyorsa, üretim ortamı eninde sonunda yapılandırılmamış veri gönderecektir. Çözüm daha akıllı bir model değil. Çözüm bir sınırdır. Hatalı girdiyi modelin tahmin etmesine izin vermek yerine bir insana yönlendiren bir kontrole ihtiyacınız var.

Güvenilirlik tek özelliktir. Bir demo, bir ajanın bir görevi yapabildiğini gösterir. Üretim ortamı ise bir ajanın gece saat 03:00'te hatalı bir girdiyle o görevi yapıp yapamadığını gösterir. Müşterileriniz için sadece ikinci kısım önemlidir.

Ajanım artık günde 200 işlemi sorunsuz bir şekilde işliyor. Bekletme kuyruğu haftada iki kez tetikleniyor. Bir insan tuhaf verileri inceliyor. Böylece üretim ortamının nasıl göründüğünü öğreniyorum.

Eğer AB Yapay Zeka Yasası (EU AI Act) kapsamında yüksek riskli kategoriler için ajanlar geliştiriyorsanız, son tarih 2 Aralık 2027. Buna istihdam, biyometri ve eğitim dahildir. Hatalı girdiler üzerinde tahmin yürüten bir sistem denetimden geçemeyecektir. Bu koruma, uyumluluk için asgari bir gerekliliktir.

Güvenilirlik, sonradan eklenen bir özellik değildir.

Source: https://dev.to/kimlike/the-null-input-that-broke-my-production-agent-and-what-fixed-it-1e77

Optional learning community: https://t.me/GyaanSetuAi