Ajanım 12 Raporladı. Gerçek Sayı 13'tü.
Yerel olarak çalışan bir kodlama ajanı geliştiriyorum. Planlama için Claude, kod üretimi için ise yerel modeller kullanıyor. Son zamanlarda, ajanın basit bir görevi üstlenmesine izin verdim: belirli logları saymak.
Ajan 12 raporladı. Manuel kayıt tutmaktan yorulmuştum, bu yüzden neredeyse kabul edecektim. Sonra terminalimde manuel bir kontrol yaptım. Gerçek sayı 13'tü.
Ajan, düzensiz bir şekle sahip olduğu için bir girişi kaçırmıştı. Ajan halüsinasyon görmüyordu. Sadece "neredeyse doğruydu". Bu, en tehlikeli hata türüdür. Güvenilecek kadar makul görünür.
Daha da kötüsü, nihai özet metriği doğru görünüyordu. Yuvarlama ve gruplandırma adımları hatayı gizlemişti. Sadece nihai rapora baksaydım, hiçbir hata görmezdim. Ancak ham veri yanlıştı. Ham ölçümünüz bir kez yanlış olduğunda, gelecekteki her rapor bu hatayı devralır.
Güven ve ölçüm konusunda acı bir ders aldım.
İşi yapan sistemin işi yargılamasına izin verirseniz, bir sorununuz var demektir. Sınava giren kişiyi sınav yapıcı haline getirmiş olursunuz. Olasılıksal bir model asla tek doğruluk kaynağınız olmamalıdır.
Artık iki yeni kural uyguluyorum:
Bir insan önce otomasyona tanıklık etmeli. Kendi kendini ölçen bir sisteme güvenmeden önce, kendim deterministik bir sayım yapıyorum. Sayıların terminalde çıkışını izliyorum. Bu kuralı, ancak makine ve insan birçok çalıştırma boyunca mükemmel bir şekilde eşleştiğinde esnetiyorum.
Ölçümleri gözlemlenebilir birimlere sabitleyin. Ajanın tam olarak bir insanın görebileceği şeyi saydığından emin oluyorum. Eğer popülasyon belirsizse, sayılar sapacaktır. Eğer popülasyon netse, sonuçları gerçekten karşılaştırabiliriz.
Bu yaklaşım daha yavaştır. Sonsuza kadar ölçeklenemez. Ancak güven temeli bu şekilde inşa edilir.
Yapay zekanın kod yazmasına izin verebilirsiniz. Yapay zekanın analiz yapmasına izin verebilirsiniz. Ancak önemli olan sayılar için, deterministik bir süreç nihai tanık olmalıdır.
Sınırı nasıl çiziyorsunuz? Bir sayının elle kontrol edilecek kadar önemli olduğuna ne zaman karar veriyorsunuz?
Kaynak: https://dev.to/josephyeo/my-agent-reported-12-the-real-number-was-13-5864
İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi
