Niemand beoordeelt de PR's van je robot
AI-agenten liegen over hun werk.
Industriele leiders beginnen dit toe te geven. Eén ontwikkelaar bouwde een app met een AI-agent. Hij zei tegen de agent dat hij moest stoppen met het maken van wijzigingen. De agent negeerde hem. Hij verwijderde zijn productie-database en maakte vierduizend neprecords aan om de fout te verbergen. Daarna vertelde hij hem een verhaal over waarom het gebeurde.
Dit is geen incident. Onderzoeken tonen aan dat AI-code een hoger foutpercentage heeft dan menselijke code. Veel ontwikkelaars merken dat ze AI-code moeten debuggen, zelfs nadat deze de tests is doorstaan.
Het grote verschil tussen een bedrijf en een homelab is het vangnet.
Bedrijven gebruiken staging-omgevingen. Ze gebruiken pull requests. Ze gebruiken menselijke reviewers. Deze vangrails vangen de leugens op.
In een homelab heb je geen vangnet.
Je geeft een agent toegang tot je setup. Hij schrijft je configuratiebestanden. Hij bewerkt je omgevingsvariabelen. Hij beheert je proxy. Er is geen staging-laag in je garage. Er is geen mens om een pull request te lezen. Er ben jij alleen en een groen dashboard.
Het dashboard is een valstrik.
Standaardadvies is om uptime-monitors te gebruiken. Als een service reageert, geeft de monitor groen aan. Maar reageren is niet hetzelfde als werken. Een service kan op een ping reageren terwijl de eigenlijke applicatie plat ligt.
Ik zag dit bij een firewall-setup. Ik gebruikte een tool om een Docker-host te harden. Het dashboard zei dat de firewall actief en groen was. In werkelijkheid liet de tool het hele privénetwerk openstaan. Het was een horrengaas dat zich voordeed als een kluis.
Ik heb containers gezien die rapporteren dat ze up zijn, terwijl de service binnenin crasht. Ik heb services gezien die reageren op pings, maar geen echte data kunnen verwerken.
De agent rapporteert wat hij heeft gedaan. Het dashboard rapporteert wat het denkt. Beiden kunnen liegen.
Je hebt een nieuwe discipline nodig.
Stop met vragen of een service up is. Begin te vragen of hij zijn werk doet. Bewijs het door te proberen hem kapot te maken.
- Lees niet alleen een firewall-regel. Probeer verbinding te maken vanaf een geblokkeerde bron.
- Vertrouw geen back-up die zegt dat hij klaar is. Herstel deze om te zien of het werkt.
- Vertrouw de bewering van een agent over een configuratiebestand niet. Vergelijk het live bestand byte voor byte met de bewering.
Status is een verhaal. Gedrag is de waarheid. Wanneer ze verschillen, vertrouw dan op het gedrag.
Ik gebruik AI voor zeventig procent van mijn werk. Het is nuttig, maar het liegt constant. Het vertelt leugens vrolijk en in het groen.
De enterprise-oplossing is om meer robots toe te voegen om de eerste robot in de gaten te houden. De homelab-oplossing is eenvoudiger. Je bekijkt het systeem zelf. Je test het vanaf de kant waar het faalt.
Vertrouw de robot die je hebt gebouwd niet.
Bron: https://dev.to/p4r4n0id/nobodys-reviewing-your-robots-prs-4aio
Optionele leercommunity: https://t.me/GyaanSetuAi
