Google integra il controllo del computer in Gemini 3.5 Flash

Google ha raggiunto un traguardo significativo nell'IA agentica integrando le capacità di "Computer Use" direttamente nel modello Gemini 3.5 Flash. Questo aggiornamento consente al modello di percepire, interpretare e interagire con schermi di computer, browser web e dispositivi mobili in tempo reale, passando dalla chat basata sul testo all'esecuzione digitale attiva.

Da chatbot ad agente autonomo

In precedenza, la capacità di operare un'interfaccia computerizzata era limitata a un modello Gemini 2.5 separato, creando un ostacolo per un'integrazione fluida. Integrando questa funzionalità direttamente in Gemini 3.5 Flash, Google consente agli sviluppatori di costruire agenti multimodali altamente efficienti. Se combinati con capacità esistenti come il function calling, Google Search e Maps, questi agenti possono navigare in flussi di lavoro complessi su ambienti desktop, mobile e browser. Ciò rende il modello un motore ideale per compiti di automazione su larga scala, come il testing software automatizzato, l'amministrazione d'ufficio complessa e l'inserimento dati cross-platform.

Benchmark delle prestazioni: Gemini contro la concorrenza

L'impatto di questa integrazione è più evidente nel benchmark OSWorld, che misura la capacità di un'IA di operare un sistema informatico. Gemini 3.5 Flash ha ottenuto un punteggio impressionante di 78,4, dimostrando un ragionamento e un'esecuzione superiori rispetto a molti concorrenti del settore.

Per contesto, Gemini 3.5 Flash ha superato Gemini 3 Flash (65,1) e GPT-5.4 mini (72,1). Sebbene si collochi leggermente dietro al leader del settore Anthropic Opus 4.8 (83,4) e per il margine minimo di GPT-5.5 (78,7), rimane altamente competitivo, eguagliando le prestazioni di Sonnet 4.6 (78,4) e superando Gemini 3.1 Pro (76,2). Questo posizionamento competitivo evidenzia Gemini 3.5 Flash come una scelta di alto livello per gli sviluppatori che cercano un equilibrio tra velocità e interazione computerizzata sofisticata.

Sicurezza e protezione nel controllo autonomo

Dare a un LLM il controllo dell'interfaccia di un utente introduce rischi di sicurezza significativi, in particolare per quanto riguarda gli attacchi di prompt injection. Per mitigare queste minacce, Google ha implementato un rigoroso addestramento avversariale e offre due distinti sistemi di protezione di livello enterprise.

La prima protezione richiede la conferma esplicita dell'utente prima che il modello possa eseguire azioni sensibili o irreversibili, come l'eliminazione di file o transazioni finanziarie. La seconda protezione interrompe automaticamente qualsiasi attività se il sistema rileva un tentativo di prompt injection indiretto. Oltre a questi strumenti integrati, Google consiglia vivamente agli sviluppatori di adottare una strategia di "difesa in profondità" (defense-in-depth), che include il sandboxing dell'ambiente dell'agente, il mantenimento della supervisione umana e l'implementazione di rigorosi controlli di accesso.

Disponibilità e implementazione

Gli sviluppatori che desiderano sfruttare queste capacità possono accedervi immediatamente tramite la Gemini API e la Gemini Enterprise Agent Platform. Per accelerare il processo di sviluppo, Google ha fornito un'implementazione di riferimento su GitHub e una demo di Browserbase, offrendo una roadmap chiara per integrare il controllo autonomo del computer negli ecosistemi software esistenti.

Punti chiave

  • Integrazione diretta: Il controllo del computer è ora integrato nativamente in Gemini 3.5 Flash, consentendo un'interazione multimodale fluida con schermi e browser.
  • Benchmark elevati: Con un punteggio OSWorld di 78,4, Gemini 3.5 Flash è un modello ad alte prestazioni per i compiti informatici autonomi, superando GPT-5.4 mini.
  • Sicurezza enterprise: Google affronta i rischi degli agenti autonomi attraverso l'addestramento avversariale e protezioni opzionali, come la conferma obbligatoria dell'utente per le azioni sensibili.