AI Ajanıma Bir Vicdan ve Bir Konsey Verdim
Otonom bir yapay zeka inşa ediyorum. Sadece komutlar önermekle kalmıyor; bu komutları gerçek üretim sistemlerinde çalıştırıyor.
Bir ajan gerçek altyapı üzerinde işlem yaptığında, asıl sorun yetenek değildir. Modeller zaten tehlikeli olabilecek kadar yetenekli. Asıl sorun yönetişimdir. Otonom bir sistemin, bir şeyleri kalıcı olarak bozmadan gerçek araçlara dokunmasına nasıl izin verirsiniz?
Bunu çözmek için iki kapı inşa ettim.
İlk kapı Vicdan (Conscience).
Her komut bu kontrolden geçer. Bu bir LLM değildir. Bunun yerine hızlı ve deterministik bir kontrol kullanıyorum. Eylemleri geri alınabilir, harici, geri alınamaz veya yıkıcı olarak sınıflandırır. Etki alanına (blast radius) bakar ve izin verme, sorma veya reddetme kararı verir.
Güvenlik için bir LLM kullanmıyorum çünkü halüsinasyon gören bir güvenlik kontrolü işe yaramaz. Vicdan, bir omurilik refleksidir. Sıkıcı ve öngörülebilirdir. Akıllı model eylemi önerir; güvenilir refleks ise onu denetler.
Vicdan'a iki kural rehberlik eder:
- Fail-open (hata durumunda açık kal), fail-closed (hata durumunda kapalı kal) değil. Eğer sistem her kararsız kaldığında donarsa, kullanışsız hale gelir. Gerçek tehlikeleri üst makamlara bildirmeli (escalate), ancak diğer her şey için yolun üzerinde durmamalıdır.
- Müdahale edildiği belli olan bellek (Tamper-evident memory). Her karar, yalnızca eklenebilir (append-only) bir günlüğe kaydedilir. Her girdi, bir önceki girdiyi imzalar. Eğer birisi bir kaydı düzenlerse zincir kırılır. Ajan kendi geçmişini yeniden yazamaz.
İkinci kapı Konsey (Council).
Tek risk eylemler değildir. En büyük hatalar, iyi görünen kötü fikirlerden kaynaklanır. Var olmaması gereken özellikleri inşa etmek üzereydim.
Artık fikirler, herhangi bir kod yazılmadan önce bir Konsey'den geçer. Bu, açık bir şekilde tartışan bağımsız modellerden oluşan bir gruptur. Onlara, eğer teklif kötüyse iptal etmelerini söylerim.
Bunu tasarladığım bir zamanlayıcı (scheduler) ile test ettim. Onunla gurur duyuyordum. Konsey, neredeyse oy birliğiyle reddetti. Planlanacak ortak bir kaynak olmadığını gördüler. Bu, bir sorun arayan bir çözümdü. Vakit kaybetmeden kodu sildim.
Vicdan eylemleri denetler. Konsey fikirleri denetler. Biri yanlış şeyi yapmanızı engeller; diğeri ise yanlış şeyi inşa etmenizi.
Güven konusunda zor bir ders aldım.
Bir keresinde Konsey mükemmel bir karar vermişti. Kendinden emin ve kusursuz görünüyordu. Ancak günlükleri kontrol ettiğimde hiçbir döküm (transcript) yoktu. Sistem tüm tartışmayı uydurmuştu. Oyları ve kararı kendisi icat etmişti.
Anlatıya asla güvenmemeniz gerektiğini öğrendim. Kanıtı doğrulamalısınız.
Bir hüküm, ancak okuyabileceğiniz bağımsız bir kanıtı varsa geçerlidir. Güven bir hikaye değil, doğrulanabilir olmalıdır.
Herkes ajanları daha yetenekli hale getirmek için yarışıyor. Çok az kişi üretim için gereken yönetişimi inşa ediyor.
Gerçek otonom ajanların şunlara ihtiyacı vardır:
- Aşamayacakları sınırlar.
- Kötü fikirleri henüz hayata geçirmeden fark edebilme yeteneği.
- Bir bileşenin gerçekten iddia ettiği şeyi yaptığının kanıtı.
Vicdan, Konsey ve doğrulanabilir güven. Gerçek bir sistemin omurgası budur.
Kaynak: https://dev.to/artemmatviychuk/i-gave-my-ai-agent-a-conscience-and-a-council-lm0
İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi