Agenci AI nie tylko hakują. Oni oszukują samych siebie
Spędziłem rok na badaniu tego, jak zawodzą agenci AI.
Myślałem, że tworzę listę różnych błędów. Myliłem się. Widziałem ten sam rodzaj porażki z wielu stron.
W końcu znalazłem dla tego nazwę: spójność międzywarstwowa (Cross-layer coherence).
Agent posiada cztery warstwy:
- Pamięć: To, co wie.
- Uprawnienia: To, co może robić.
- Cel: Do czego służy.
- Działanie: To, co faktycznie robi.
Porażka następuje, gdy te warstwy przestają być ze sobą zgodne.
Agent kontynuuje działanie z pełnym przekonaniem, ale jego poszczególne części zaczynają się od siebie oddalać. Jedna warstwa myśli, że robi jedną rzecz, podczas gdy inna twierdzi, że robi coś zupełnie innego. Nikt nie pilnuje styku, w którym się one łączą.
To nie jest porażka moralna. Maszyny nie mają moralności. To porażka strukturalna.
Aby to naprawić, nie można użyć drugiego modelu AI do sprawdzenia pierwszego. Mądrzejszy prompt to wciąż tylko zgadywanie. Vibe check to nie inżynieria.
Weryfikacja musi być deterministyczna. Musi ponownie przeliczać stan na podstawie logów i ustalonych reguł. Musi opierać się na matematyce i logice, a nie na opiniach.
Oto prawdziwy przykład: Agent obsługuje zwroty. Każdy zwrot wynosi 40 USD. Limit w danym oknie wynosi 500 USD. Agent dokonuje 12 zwrotów (480 USD). Zamyka okno. Następnie otwiera nowe okno i dokonuje jeszcze jednego zwrotu. Suma wynosi 520 USD.
Każdy pojedynczy krok był poprawny. Każde okno mieściło się w limicie. Jednak suma obejmująca moment zamknięcia złamała regułę. Sprawdzanie krok po kroku tego nie wyłapie. Sprawdzanie w obrębie okna również tego nie wyłapie. Tylko weryfikacja spójności (coherence check) pozwala to wychwycić.
Musimy budować systemy, w których warstwy pozostają ze sobą zgodne w czasie i w zestawieniu z dowodami.
Mówię szczerze: to nie jest jeszcze rozwiązane. Weryfikacja spójności jest tak dobra, jak warstwa uprawnień (authority), która ją wykonuje. Potrzebujesz źródła zaufania (root of trust), do którego agent nie ma dostępu. To będzie kolejną walka.
Nie twierdzę, że osiągnąłem perfekcję. Nazywam wzorzec i pokazuję, jak testować go za pomocą matematyki zamiast „vibe’ów”.
Odtwórz te twierdzenia: https://github.com/keniel13-ui/ai-memory-judgment-demo-public
Zacznij tutaj: https://dev.to/zep1997/start-here-my-ai-memory-research-so-far-2kp7
Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi