𝗗𝗮𝗹𝗲𝗺 𝗺𝗼𝗷𝗲𝗺𝘂 𝗮𝗴𝗲𝗻𝘁𝗼𝘄𝗶 𝗔𝗜 𝘀𝘂𝗺𝗶𝗲𝗻𝗶𝗲 𝗶 𝗿𝗮𝗱ę

Buduję autonomiczne AI. Nie tylko sugeruje komendy. Wykonuje je na rzeczywistych systemach produkcyjnych.

Gdy agent działa na rzeczywistej infrastrukturze, możliwości nie są głównym problemem. Modele są już na tyle sprawne, by stać się niebezpiecznymi. Prawdziwym problemem jest zarządzanie. Jak pozwolić autonomicznemu systemowi korzystać z rzeczywistych narzędzi, nie ryzykując nieodwracalnego zniszczenia czegoś?

Aby to rozwiązać, zbudowałem dwie bramki.

Pierwszą bramką jest Sumienie.

Każda komenda przechodzi przez tę weryfikację. To nie jest LLM. Zamiast tego używam szybkiego, deterministycznego sprawdzenia. Klasyfikuje ono działania jako odwracalne, zewnętrzne, nieodwracalne lub destrukcyjne. Analizuje promień rażenia (blast radius) i decyduje: zezwolić, zapytać lub odmówić.

Nie używam LLM do kwestii bezpieczeństwa, ponieważ weryfikacja bezpieczeństwa, która halucynuje, jest bezużyteczna. Sumienie jest jak odruch rdzeniowy. Jest nudne i przewidywalne. Inteligentny model proponuje działanie, a niezawodny odruch je kontroluje.

Sumienie kierują się dwiema zasadami:

  • Fail-open, a nie fail-closed. Jeśli system będzie zamarzał za każdym razem, gdy nie będzie pewny, stanie się bezużyteczny. Musi eskalować realne zagrożenia, ale nie przeszkadzać w innych sprawach.
  • Pamięć z mechanizmem wykrywania manipulacji (tamper-evident). Każda decyzja trafia do logu typu append-only. Każdy wpis podpisuje poprzedni. Jeśli ktokolwiek edytuje rekord, łańcuch zostaje przerwany. Agent nie może przepisać swojej historii.

Drugą bramką jest Rada.

Działania to nie jedyne ryzyko. Największe błędy wynikają ze złych pomysłów, które wyglądają na dobre. Byłem bliski zbudowania funkcji, które w ogóle nie powinny istnieć.

Teraz pomysły przechodzą przez Radę, zanim zostanie napisany jakikolwiek kod. Jest to grupa niezależnych modeli debatujących jawnie. Mówię im, aby odrzuciły propozycję, jeśli jest zła.

Przetestowałem to na schedulerze, który zaprojektowałem. Byłem z niego dumny. Rada odrzuciła go niemal jednogłośnie. Zauważyła, że nie było żadnego współdzielonego zasobu

Dowiedziałem się, że nigdy nie wolno ufać samej narracji. Należy zweryfikować potwierdzenie.

Werdykt jest ważny tylko wtedy, gdy posiada niezależny artefakt, który można odczytać. Zaufanie musi być weryfikowalne, a nie być tylko opowieścią.

Wszyscy ścigają się, aby czynić agentów coraz bardziej zdolnymi. Niewielu buduje mechanizmy nadzoru niezbędne do pracy produkcyjnej.

Prawdziwe autonomiczne agenty potrzebują:

  • Granic, których nie mogą przekroczyć.
  • Umiejętności wyłapywania złych pomysłów, zanim zostaną zrealizowane.
  • Dowodu na to, że komponent faktycznie zrobił to, co deklarował.

Sumienie, Rada i weryfikowalne zaufanie. To jest kręgosłup prawdziwego systemu.

Źródło: https://dev.to/artemmatviychuk/i-gave-my-ai-agent-a-conscience-and-a-council-lm0

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi