Sandbox'ların Ötesinde: Dayanıklı Yapay Zeka Ajanları İnşa Etmek

Sandbox'lar, üretim aşamasındaki yapay zeka ajanları için yeterli değildir.

Çoğu geliştirici, ajanları bellekte çalışan basit bir döngü olarak inşa eder. LLM gözlemler, karar verir, eyleme geçer ve bunu tekrarlar. Bu, laboratuvar ortamında işe yarar; ancak gerçek dünyada başarısız olur.

Bellek döngüsü neden başarısız olur?

  • Uzun görevler: Eğer bir ajanın görevi tamamlaması günler sürüyorsa veya bir insanın onayını beklemesi gerekiyorsa, bir süreci sürekli çalışır durumda tutmak CPU ve bellek israfına yol açar.
  • Çökme kurtarma özelliği yok: Sistem çökerse veya ağ bağlantısı kesilirse, tüm durumu (state) kaybedersiniz. Kaldığınız yerden devam edemezsiniz.
  • Karmaşıklık: Birden fazla ajanın, devasa miktarda ek kod olmadan birbirleriyle iletişim kurması zordur.

Orkes CTO'su Virein Baraiya daha iyi bir yol öneriyor: Sorumluluklarınızı ayırın.

Sandbox'ı yalnızca eylemler için kullanın. Riskli araç kodlarını güvenli bir şekilde çalıştırmak için bir sandbox kullanın.

Muhakeme (reasoning) için dayanıklı bir çalışma zamanı (runtime) kullanın. Planı LLM sağlar; çalışma zamanı sistemi ise yürütme ve durumu (state) yönetir.

Bunu çözmek için iki araç sunuyor:

  1. Netflix Conductor Bu bir iş akışı motorudur. Bir defter (ledger) görevi görür. Her LLM çağrısını ve her araç kullanımını bir veri tabanına kaydeder.
  • Talep üzerine askıya almayı destekler. Eğer bir ajan bir insanı bekliyorsa, sistem iş akışını duraklatır ve tüm belleği serbest bırakır.
  • Görevi tamamlamak için aylar sonra tekrar uyanabilir.
  1. Agent Span Bu, Conductor üzerine inşa edilmiş bir çalışma zamanıdır (runtime). Bir çevirmen görevi görür.
  • LangGraph veya OpenAI SDK gibi mevcut araçları kullanabilirsiniz.
  • Agent Span, iş mantığınızı (business logic) yeniden yazmanıza gerek kalmadan ajan kodunuzu dayanıklı iş akışlarına dönüştürür.

Bu mimari üç büyük avantaj sağlar:

  • Koruyucu Bariyerler (Guardrails): Kuralları LLM değil, çerçeve (framework) kontrol eder. Bu, halüsinasyonların zarar vermesini engeller.
  • Tam Denetim: Bir ajanın aylar sonra bile bir kararı tam olarak neden verdiğini görebilirsiniz. Hatta süreci yeniden oynatabilirsiniz.
  • Daha İyi Test: Tek bir LLM çıktısını değiştirebilir ve sistemin geri kalanının buna nasıl tepki verdiğini görebilirsiniz.

Geliştiriciler için son bir ipucu: İş bağlamına (business context) odaklanın. Modeller değişir. Çerçeveler değişir. Ancak işletmenizin görevleri yürütme biçimi sizin gerçek hendek (moat) avantajınızdır.

Kaynak: https://dev.to/cognitalk/chao-yue-sha-xiang-wei-ai-agent-gou-jian-chi-jiu-hua-yun-xing-shi-2i9i

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi