Nuovo benchmark per i task cloud
Le prestazioni dell'IA sono disomogenee. Un modello potrebbe dominare i benchmark di coding ma fallire nei task cloud. Spesso inventa risorse che non esistono.
Gli attuali benchmark coprono il coding e il ragionamento. Non esiste alcun benchmark per i task di gestione cloud.
Stiamo costruendo quel benchmark.
Testiamo strumenti come Codex e Claude Code. Il nostro primo test viene eseguito su AWS. Utilizzeremo un template che funzionerà anche per Azure e GCP in seguito.
La nostra metodologia
Utilizziamo l'Infrastructure as Code (IaC) come chiave di correzione. Terraform costruisce le risorse. Il suo output fornisce la verità. Conosciamo gli ID esatti delle risorse che dovrebbero esistere. Questo elimina l'errore umano. Chiunque può eseguire lo stesso stack per ottenere lo stesso risultato.
Testiamo due variabili:
• Dimensione: account piccoli, medi e grandi con migliaia di dipendenze. • Cronologia: account nuovi con puro IaC e account vecchi con tag disordinati e modifiche manuali.
Uno strumento che funziona solo su account piccoli e puliti fallisce negli ambienti di produzione reali.
Manteniamo l'agent isolato. Viene eseguito in un singolo container con credenziali di sola lettura. Utilizziamo CloudTrail per tracciare ogni azione. Ripetiamo ogni test tre volte per escludere errori di rete.
Classifichiamo ogni risposta errata:
- Trovata: l'agent ha visto la risorsa.
- Mancata: l'agent non è riuscito a vederla.
- Segnalata: l'agent ha segnalato una risorsa che è in realtà in uso.
- Inventata: l'agent ha inventato un ID risorsa inesistente.
Il nostro primo task si concentra sulla scoperta degli sprechi su AWS. Utilizziamo Terraform per inserire volumi non associati e IP inutilizzati. Aggiungiamo anche risorse attive per vedere se l'agent commette errori.
La scoperta degli sprechi è il primo test perché permette di risparmiare denaro e offre punteggi chiari. I test futuri copriranno audit di sicurezza e ricostruzione dell'architettura.
Pubblicheremo l'intero processo, inclusi log grezzi e prompt. Condivideremo i risultati anche se saranno negativi.
Abbiamo bisogno del vostro feedback.
In quali punti è debole questo metodo? Cosa rende un test simile a un account reale? Quale task dovremmo testare successivamente?
Fonte: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1
Community di apprendimento opzionale: https://t.me/GyaanSetuAi
