Google integreert computerbesturing in Gemini 3.5 Flash

Google heeft een belangrijke mijlpaal bereikt in agentic AI door "Computer Use"-mogelijkheden rechtstreeks te integreren in het Gemini 3.5 Flash-model. Deze update stelt het model in staat om computerschermen, webbrowsers en mobiele apparaten in realtime waar te nemen, te interpreteren en ermee te communiceren, waardoor het verder gaat dan tekstgebaseerde chat en overgaat naar actieve digitale uitvoering.

Van chatbot naar autonome agent

Voorheen was de mogelijkheid om een computerinterface te bedienen beperkt tot een apart Gemini 2.5-model, wat een barrière vormde voor naadloze integratie. Door deze functionaliteit rechtstreeks in Gemini 3.5 Flash in te bouwen, stelt Google ontwikkelaars in staat om zeer efficiënte, multimodale agenten te bouwen. In combinatie met bestaande mogelijkheden zoals function calling, Google Search en Maps kunnen deze agenten complexe workflows navigeren in desktop-, mobiele- en browseromgevingen. Dit maakt het model een ideale motor voor grootschalige automatiseringstaken, zoals geautomatiseerd softwaretesten, complexe kantooradministratie en cross-platform gegevensinvoer.

Prestaties benchmarken: Gemini versus de concurrentie

De impact van deze integratie is het meest duidelijk in de OSWorld-benchmark, die het vermogen van een AI meet om een computersysteem te bedienen. Gemini 3.5 Flash behaalde een indrukwekkende score van 78,4, waarmee het superieure redenering en uitvoering laat zien in vergelijking met veel concurrenten in de sector.

Ter context: Gemini 3.5 Flash presteerde beter dan Gemini 3 Flash (65,1) en GPT-5.4 mini (72,1). Hoewel het iets achterblijft bij de marktleider Anthropic Opus 4.8 (83,4) en het minimale verschil met GPT-5.5 (78,7), blijft het zeer competitief. Het evenaart de prestaties van Sonnet 4.6 (78,4) en verslaat Gemini 3.1 Pro (76,2). Deze concurrentiepositie positioneert Gemini 3.5 Flash als een topkeuze voor ontwikkelaars die op zoek zijn naar een balans tussen snelheid en geavanceerde computerinteractie.

Beveiliging en veiligheid bij autonome besturing

Het geven van controle over de interface van een gebruiker aan een LLM brengt aanzienlijke beveiligingsrisico's met zich mee, met name wat betreft prompt injection-aanvallen. Om deze dreigingen te beperken, heeft Google strikte adversarial training geïmplementeerd en biedt het twee verschillende beveiligingsmaatregelen van enterprise-niveau.

De eerste beveiligingsmaatregel vereist expliciete bevestiging door de gebruiker voordat het model gevoelige of onomkeerbare acties kan uitvoeren, zoals het verwijderen van bestanden of het doen van financiële transacties. De tweede maatregel stopt automatisch elke taak als het systeem een poging tot indirecte prompt injection detecteert. Naast deze ingebouwde tools adviseert Google ontwikkelaars dringend om een "defense-in-depth"-strategie te hanteren, die onder meer het sandboxing van de omgeving van de agent, menselijk toezicht en het implementeren van strikte toegangscontroles omvat.

Beschikbaarheid en implementatie

Ontwikkelaars die deze mogelijkheden willen benutten, hebben er onmiddellijk toegang toe via de Gemini API en het Gemini Enterprise Agent Platform. Om het ontwikkelproces te versnellen, heeft Google een GitHub-referentie-implementatie en een Browserbase-demo beschikbaar gesteld, wat een duidelijk stappenplan biedt voor het integreren van autonome computerbesturing in bestaande software-ecosystemen.

Belangrijkste punten

  • Directe integratie: Computerbesturing is nu standaard ingebed in Gemini 3.5 Flash, wat naadloze multimodale interactie met schermen en browsers mogelijk maakt.
  • Hoge benchmarks: Met een OSWorld-score van 78,4 is Gemini 3.5 Flash een model met topresultaten voor autonome computertaken, waarmee het GPT-5.4 mini verslaat.
  • Enterprise-beveiliging: Google pakt de risico's van autonome agenten aan via adversarial training en optionele beveiligingsmaatregelen, zoals verplichte gebruikersbevestiging voor gevoelige acties.