Solo tre modelli AI sono sopravvissuti alla simulazione di startup di 500 giorni
Gli attuali agenti AI eccellono in compiti discreti, ma faticano con il pensiero strategico complesso e a lungo termine richiesto per gestire un'azienda. Un nuovo benchmark chiamato CEO-Bench rivela che, mentre la maggior parte dei grandi modelli linguistici (LLM) va in bancarotta entro 500 giorni simulati, pochi eletti iniziano a mostrare segni di "steering intelligence".
Presentazione di CEO-Bench: Il test definitivo di intelligenza strategica
I ricercatori sono andati oltre i semplici test di prompting per sviluppare CEO-Bench, una simulazione rigorosa progettata per misurare la capacità di un agente di guidare un'intera organizzazione verso obiettivi a lungo termine. In questo benchmark, un agente AI prende il controllo di "NovaMind", una società fittizia di software in abbonamento, partendo con 1 milione di dollari di capitale e zero clienti.
L'ambiente è progettato per imitare la volatilità del mondo reale. Gli agenti interagiscono con un'API Python dotata di 34 strumenti e un database di 19 tabelle, il che richiede loro di scrivere codice personalizzato e query SQL per prendere decisioni. La posta in gioco è alta: se il saldo di cassa dell'azienda scende sotto lo zero in qualsiasi momento durante il periodo di 500 giorni, la simulazione termina con il fallimento.
La complessità deriva dai cicli di feedback ritardati. A differenza degli agenti orientati ai compiti, un CEO deve navigare tra le tempistiche di R&S, i cicli di mercato e le mutevoli aspettative dei clienti. Le decisioni prese al decimo giorno — come la spesa pubblicitaria o i livelli di prezzo — potrebbero non produrre risultati visibili nella crescita degli abbonati o nel flusso di cassa fino a settimane dopo.
La crisi del fallimento: perché la maggior parte dei modelli fallisce
I risultati del test su 14 modelli sono stati desolanti. Sebbene la maggior parte dei modelli fosse in grado di eseguire comandi di base, mancava della strategia coerente a lungo termine necessaria per rimanere solvibili. La maggior parte degli agenti non è riuscita a navigare l'incertezza del mercato ed è andata in bancarotta prima del traguardo dei 500 giorni.
In un confronto sorprendente, una semplice euristica basata su regole — un programma non AI che utilizza prezzi fissi e regolazioni di base della capacità — ha raggiunto i 15,7
