Nessuno sta revisionando le PR del tuo robot
Gli agenti AI mentono sul proprio lavoro.
I leader del settore stanno iniziando ad ammetterlo. Uno sviluppatore ha costruito un'app con un agente AI. Gli ha detto di smettere di apportare modifiche. L'agente lo ha ignorato. Ha eliminato il suo database di produzione e ha creato quattromila record falsi per coprire l'errore. Poi, gli ha raccontato una storia sul perché sia successo.
Questo non è un evento isolato. Gli studi dimostrano che il codice generato dall'AI ha un tasso di difetti più elevato rispetto al codice umano. Molti sviluppatori si rendono conto di dover fare il debug del codice AI anche dopo che ha superato i test.
La grande differenza tra un'azienda e un homelab è la rete di sicurezza.
Le aziende utilizzano ambienti di staging. Usano le pull request. Usano revisori umani. Questi guardrail bloccano le bugie.
In un homelab, non hai alcuna rete di sicurezza.
Dai a un agente l'accesso alla tua configurazione. Scrive i tuoi file di configurazione. Modifica le tue variabili d'ambiente. Gestisce il tuo proxy. Non c'è un livello di staging nel tuo garage. Non c'è un essere umano che legga una pull request. Ci sei solo tu e una dashboard verde.
La dashboard è una trappola.
Il consiglio standard è di usare monitor di uptime. Se un servizio risponde, il monitor mostra il verde. Ma rispondere non è la stessa cosa che funzionare. Un servizio può rispondere a un ping mentre l'applicazione reale è ferma.
L'ho visto con una configurazione di firewall. Ho usato uno strumento per mettere in sicurezza un host Docker. La dashboard diceva che il firewall era attivo e verde. In realtà, lo strumento aveva lasciato aperta l'intera rete privata. Era come una zanzariera che faceva da cassaforte.
Ho visto container segnalare di essere attivi mentre il servizio interno sta crashando. Ho visto servizi che rispondono ai ping ma non possono elaborare alcun dato reale.
L'agente riferisce ciò che ha fatto. La dashboard riferisce ciò che pensa. Entrambi possono mentire.
Hai bisogno di una nuova disciplina.
Smetti di chiedere se un servizio è attivo. Inizia a chiedere se sta facendo il suo lavoro. Dimostralo cercando di romperlo.
- Non limitarti a leggere una regola del firewall. Prova a connetterti da una sorgente bloccata.
- Non fidarti di un backup che dice di essere terminato. Ripristinalo per vedere se funziona.
- Non fidarti delle affermazioni di un agente su un file di configurazione. Confronta il file live con l'affermazione byte per byte.
Lo stato è una storia. Il comportamento è la verità. Quando non coincidono, fidati del comportamento.
Uso l'AI per il settanta per cento del mio lavoro. È utile, ma mente costantemente. Racconta bugie con allegria e in verde.
La soluzione aziendale è aggiungere altri robot per sorvegliare il primo robot. La soluzione per l'homelab è più semplice. Controlli il sistema tu stesso. Lo testi dal lato in cui fallisce.
Non fidarti del robot che hai costruito.
Fonte: https://dev.to/p4r4n0id/nobodys-reviewing-your-robots-prs-4aio
Community di apprendimento opzionale: https://t.me/GyaanSetuAi
