A Quorum Costume: Why Agent Verification Needs Fault Injection

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 hafta önce2min read

A Quorum Costume: Why Agent Verification Needs Fault Injection

Bir Korum Kostümü: Ajan Doğrulaması Neden Hata Enjeksiyonuna İhtiyaç Duyar

Yapay zeka ajanınız size kendi doğruluğu hakkında yalan söylüyor olabilir.

Geçenlerde bir yapay zeka ortağının üst üste üç kez başarısız oluşunu izledim. Farklı yüzeylerde aynı doğruluk sorununu kaçırdı. Yanlış bir üslupla yazdı. Bir inceleyici (reviewer) modeli, aynı hatayı her okuduğunda ona daha yüksek puan verdi. Hatta gerçek sapması (fact drift) hakkındaki gerçekleri bile yanlış saydı.

Bu hataları ancak döngünün dışında kaldığım için yakalayabildim.

Bu durum, ajan yığınında (agent stack) devasa bir sorunu ortaya koyuyor. Çoğu doğrulama sistemi bağımsızlık varsayar. Çoklu ajan oylaması, yapıcı/denetleyici (maker/checker) modelleri veya topluluk (ensemble) istemleri kullanırlar. Farklı yolların farklı şeyler göreceğini varsayarlar.

Ancak çoğu zaman, bu yollar aynı kaynağı paylaşır.

Bir inceleyici, yazıcı ile aynı kaynaktan okuduğunda, iki farklı bakış açısına sahip olmazsınız. İki farklı şapka takmış tek bir bakış açısına sahip olursunuz. Bu, korum kostümü giymiş tek bir hata noktasıdır (single point of failure).

Eğer yollar bir üst akış (upstream) paylaşıyorsa, aynı yanlış gerçek veya aynı halüsinasyon üzerinde hemfikir olacaklardır. Çıktılar çeşitli göründüğü için sistem sağlıklı görünür, ancak kaynak yalan söylediğinde sistem her seferinde başarısız olur.

Bunu düzeltmek için hata enjeksiyonu (fault injection) kullanmalısınız.

Sadece ajanların anlaşmazlık gösterip göstermediğini ölçmeyin. Sistemin bir parçasını bozarak onları anlaşmazlığa zorlayıp zorlayamayacağınızı ölçün.

Yığınınızı şu şekilde test edebilirsiniz:

Kötü bir bellek enjekte edin: Bir geri çağırma (retrieval) yoluna sahte bir gerçek yerleştirin. Eğer her iki yol da sahte gerçeği döndürüyorsa, yollarınız birbirine bağlıdır (coupled).
Bir kuralı mutasyona uğratın: Bir kuralı çevrimdışı olarak değiştirin. Eğer yapıcı ve denetleyici, bir uyumsuzluk belirtmeden yeni kuralı takip ediyorsa, bir önbelleği (cache) paylaşıyorlar demektir.
Yanlış telemetri yerleştirin: Sahte bir model kimliği (ID) günlüğe kaydedin. Eğer kontrol başarılı olursa, doğrulayıcı yazıcı ile aynı kaydı okuyor demektir.

Dağıtık sistemler bunu yıllar önce çözdü. Kaos mühendisliği (chaos engineering) ve bölümleme testleri (partition tests) kullanırlar. Sistemin iyi çalıştığını izleyerek ona güvenmezler. Başarısızlığı tetikleyerek ona güvenirler.

Ajan mimarileri bu disiplini benimsemelidir.

Bağımsızlık, bir kez kurduğunuz bir özellik değildir. Sürekli olarak yeniden doğrulamanız gereken bir özelliktir. Paylaşılan bir önbellek veya bir model güncellemesi, bağımsızlığınızı bir gecede çökertebilir.

Oy birliğine güvenmeyi bırakın. Hata enjekte etmeye başlayın.

Source: https://dev.to/jugeni/a-quorum-costume-why-agent-verification-needs-fault-injection-kbh

Optional learning community: https://t.me/GyaanSetuAi

A Quorum Costume: Why Agent Verification Needs Fault Injection

Continue reading

AI Ajanlarının Bir Güvenilirlik Sorunu Var

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗗𝗼𝗻’𝘁 𝗝𝘂𝘀𝘁 𝗛𝗮𝗰𝗸. 𝗧𝗵𝗲𝘆 𝗖𝗵𝗲𝗮𝘁 𝗧𝗵𝗲𝗺𝘀𝗲𝗹𝘃𝗲𝘀

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗜𝘀𝗻'𝘁 𝗕𝗿𝗼𝗸𝗲𝗻. 𝗬𝗼𝘂𝗿 𝗖𝗼𝗺𝗽𝗮𝗻𝘆'𝘀 𝗧𝗿𝘂𝘁𝗵 𝗜𝘀.

𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁 𝗖𝗵𝗲𝗰𝗸𝗲𝗱 𝗘𝘃𝗲𝗿𝘆𝘁𝗵𝗶𝗻𝗴. 𝗜𝘁 𝗪𝗮𝘀 𝗦𝘁𝗶𝗹𝗹 𝗪𝗿𝗼𝗻𝗴.

Building An AI Agent Playground Before Production