6 Bugs Only a Live Model Could Teach Us

Translated for your language. Read the original.

AI-assisted draft.

Sadece Canlı Bir Modelin Bize Öğretebileceği 6 Hata

Çevrimdışı testler gereklidir. Ancak yeterli değildir.

Peru'daki çevresel uyumluluğu takip etmek için AgentOps Debugger'ı geliştirdim. Kayıtları bulmak ve raporlar yazmak için Qwen Cloud üzerindeki Qwen-plus'ı kullanıyor.

Sistemi öncelikle çevrimdışı (offline-first) olacak şekilde tasarladım. 315 testim hiçbir ağ çağrısı yapmadan çalıştı. Tüm testler geçti. Ancak Alibaba Cloud üzerindeki canlı modele geçtiğimde sistem çöktü.

Kod sorunsuzdu. Sorun modelin çıktısındaydı.

İşte gerçek dünyadaki model hatalarından çıkarılan altı ders:

• Etiket Uyuşmazlığı Şema "completed" veya "failed" bekliyordu. Model ise "success" veya "done" gönderdi. Ayrıştırıcı (parser), tek bir kelime yüzünden yararlı cevapları reddetti. Çözüm: Eş anlamlıları normalize etmek için toleranslı ön işlemciler (preprocessors) kullanın.

• Geçersiz Planlar Planlayıcı bazen hiçbir şey döndürmüyordu. Uygulama, bu sessizliği normal bir yanıta dönüştürmeye çalıştı. Bu da sahte cevaplar oluşturdu. Çözüm: Bir plan yorumlayıcısı ekleyin. Plan boşsa, yalan söylemek yerine kullanıcıya sistemin planlama yapamadığını söyleyin.

• Şema Kayması Model, "documentTitle" gibi alan adlarını "title" olarak değiştirdi. Ayrıca İngilizce ve İspanyolca etiketleri birbirine karıştırdı. Çözüm: Takma ad eşlemesi (alias mapping) kullanın ve geçerli kısımları kurtarın. Eğer bir atıf hatalıysa, diğer dördünü tutun.

• Eşleşmemiş Görevler Model, henüz bir taslak oluşturmadan raporu kaydetmeyi istedi. Mantık güvenliydi ancak kullanıcı deneyimi bozulmuştu. Çözüm: Kod, eksik adımları tespit etmeli ve bunları otomatik olarak eklemelidir.

• Döngü Hataları Model, kullanıcı cevap verdikten sonra bile aynı açıklama sorularını sormaya devam etti. Çözüm: Varlık çözümlemeyi (entity resolution) modelden koda taşıyın. Kullanıcı veriyi sağladıktan sonra sistem geri kalanını deterministik bir şekilde halletmelidir.

• Yalancı Belirsizlik Model, bir şirket adının belirsiz olduğunu iddia etti ancak öyle değildi. Bu durum iş akışını durdurdu. Çözüm: Belirsizliği modelin önermesine izin verin, ancak bunun gerçek olup olmadığına verinin karar vermesini sağlayın.

Temel ilke: LLM'in anlatmasına izin verin, ancak yapılandırılmış sonuçların kontrolünü ona bırakmayın.

Model niyet, planlama ve dil ile ilgilenmelidir. Kod ise varlık çözümleme, grafik verileri ve rapor birleştirme işlemlerini yönetmelidir.

Her bir sonucu bir kayda kadar takip edebildiğinizde, sistem güvenilir hale gelir. Hikaye için modeli, gerçek için ise kodunuzu kullanın.

Kaynak: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi

6 Bugs Only a Live Model Could Teach Us

Continue reading

AI Ajanlarının Bir Güvenilirlik Sorunu Var

FailureDNA İnşa Etmek: Kendine Ne Zaman Güvenmemesi Gerektiğini Bilen Bir Ajan Hafızası

I Built An AI Security Scanner — Then Found A Bug In My Own Detector

Bir Yapay Zeka Güvenlik Tarayıcısı Oluşturdum — Sonra Kendi Dedektörümde Bir Hata Buldum