Agent Demonuz Çalışıyor. İşte Tuzak Bu.

Şirketler için yapay zeka agent'ları geliştiriyorum. Sık sık aynı örüntüyle karşılaşıyorum. Model bir demoda çalışıyor. Ürünü piyasaya sürüyorsunuz. Sonra üretim ortamında (production) her üç seferden birinde başarısız oluyor. Kimse nedenini bilmiyor.

Demo ile üretim ortamı arasındaki fark matematiktir. Matematiği anladığınızda, farklı bir şekilde inşa edersiniz.

Agent'ınızdaki her bir adım %95 güvenilir olsa kulağa hoş geliyor. Ancak agent'lar adım zincirleri kullanır. Eğer on adımı birbirine bağlarsanız, başarı oranınız %60'a düşer. Eğer yirmi adım kullanırsanız, başarı oranınız %36'ya düşer.

Gerçek iş akışlarında, adımların hata oranları genellikle %10 ile %20 arasındadır. Eğer bir agent, %85 güvenilirliğe sahip sekiz adımdan oluşuyorsa, vaktin %75'inde başarısız olur.

Sorun model değil. Sorun, birikimli olasılıktır (compounding probability).

Bir demo, tek bir "mutlu yolu" (happy path) gösterir. Temiz girdiler ve kısa zincirler kullanır. Üretim ortamı ise yüzlerce kullanıcıdan gelen karmaşık verileri kullanır. Gizli adımlar içeren uzun zincirler kullanır.

Agent'lardaki başarısızlık bir çökme gibi görünmez. Sessiz bir hata gibi görünür.

  1. Adım bir alanı yanlış okur. Çıktı hala geçerli bir JSON gibi görünür. 4. Adım, akıl yürütmek için bu hatalı veriyi kullanır. 5'ten 8'e kadar olan adımlar bu hatanın üzerine inşa edilir. Nihai cevap yanlıştır ancak makul görünür. Nerede hata yapıldığını gösteren bir hata günlüğü (error log) yoktur.

Modelin halüsinasyon gördüğünü söylemeyi bırakın. Model sadece aldığı hatalı veriyi iletti. Sisteminizde 3. adımdaki hatayı yakalayacak bir kontrol noktası (checkpoint) eksikti.

Agent'a bir prompt gibi davranmayı bırakın. Ona bir sistem gibi davranmaya başlayın.

Güvenilir agent'lar inşa etmek için bu kuralları izleyin:

  • Durumu (state) agent'ın dışında kaydedin. Durumu konuşmada değil, bir veritabanında tutun. Eğer bir süreç 6. adımda başarısız olursa, 6. adımdan devam edebilirsiniz. Tüm zinciri baştan başlatmak zorunda kalmazsınız.

  • Sınır noktalarında doğrulama yapın. Her girdiyi ve çıktıyı bir şemaya (schema) göre kontrol edin. Hatayı, gerçekleştiği adımda yakalayın. Bu, gizemli bir durumu kurtarılabilir bir hataya dönüştürür.

  • Yan etkileri (side effects) idempotent yapın. Adımlar başarısız olduğunda onları yeniden denemelisiniz. Eğer bir adım e-posta gönderiyor veya bir karttan ödeme alıyorsa, bir idempotency anahtarı (idempotency key) kullanın. Bu, yeniden deneme sırasında mükerrer işlemleri önler.

  • CI süreçlerinizde evals (değerlendirmeler) kullanın. Agent davranışı her ince ayarda değişir. Bir prompt değişikliği bir durumu düzeltebilir ancak beş başka durumu bozabilir. Bu regresyonları otomatik olarak yakalamak için bir test seti kullanın.

Demodan gerçek bir ürüne geçmek mühendislikle ilgilidir. Hata yönetimi, durum yönetimi ve gözlemlenebilirlik (observability) ile ilgilidir. Daha iyi prompt'larla ilgili değildir.

Eğer agent'ınız üretim ortamında tutarsızlık gösteriyorsa, daha büyük bir model aramayın. Zincirin rotadan saptığı adımı arayın. Sisteminizin hatayı neden orada yakalamadığını sorgulayın.

Kaynak: https://dev.to/sagar_jain4010/your-agent-demo-works-thats-the-trap-4joc

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi