Google integreert computerbesturing in Gemini 3.5 Flash

Translated for your language. Read the original.

AI-assisted draft.

In this article

Google integreert computerbesturing in Gemini 3.5 Flash

Google heeft een belangrijke mijlpaal bereikt in agentic AI door "Computer Use"-mogelijkheden rechtstreeks te integreren in het Gemini 3.5 Flash-model. Deze update stelt het model in staat om computerschermen, webbrowsers en mobiele apparaten in realtime waar te nemen, te interpreteren en ermee te communiceren, waardoor het verder gaat dan tekstgebaseerde chat en overgaat naar actieve digitale uitvoering.

Van chatbot naar autonome agent

Voorheen was de mogelijkheid om een computerinterface te bedienen beperkt tot een apart Gemini 2.5-model, wat een barrière vormde voor naadloze integratie. Door deze functionaliteit rechtstreeks in Gemini 3.5 Flash in te bouwen, stelt Google ontwikkelaars in staat om zeer efficiënte, multimodale agenten te bouwen. In combinatie met bestaande mogelijkheden zoals function calling, Google Search en Maps kunnen deze agenten complexe workflows navigeren in desktop-, mobiele- en browseromgevingen. Dit maakt het model een ideale motor voor grootschalige automatiseringstaken, zoals geautomatiseerd softwaretesten, complexe kantooradministratie en cross-platform gegevensinvoer.

Prestaties benchmarken: Gemini versus de concurrentie

De impact van deze integratie is het meest duidelijk in de OSWorld-benchmark, die het vermogen van een AI meet om een computersysteem te bedienen. Gemini 3.5 Flash behaalde een indrukwekkende score van 78,4, waarmee het superieure redenering en uitvoering laat zien in vergelijking met veel concurrenten in de sector.

Ter context: Gemini 3.5 Flash presteerde beter dan Gemini 3 Flash (65,1) en GPT-5.4 mini (72,1). Hoewel het iets achterblijft bij de marktleider Anthropic Opus 4.8 (83,4) en het minimale verschil met GPT-5.5 (78,7), blijft het zeer competitief. Het evenaart de prestaties van Sonnet 4.6 (78,4) en verslaat Gemini 3.1 Pro (76,2). Deze concurrentiepositie positioneert Gemini 3.5 Flash als een topkeuze voor ontwikkelaars die op zoek zijn naar een balans tussen snelheid en geavanceerde computerinteractie.

Beveiliging en veiligheid bij autonome besturing

Het geven van controle over de interface van een gebruiker aan een LLM brengt aanzienlijke beveiligingsrisico's met zich mee, met name wat betreft prompt injection-aanvallen. Om deze dreigingen te beperken, heeft Google strikte adversarial training geïmplementeerd en biedt het twee verschillende beveiligingsmaatregelen van enterprise-niveau.

De eerste beveiligingsmaatregel vereist expliciete bevestiging door de gebruiker voordat het model gevoelige of onomkeerbare acties kan uitvoeren, zoals het verwijderen van bestanden of het doen van financiële transacties. De tweede maatregel stopt automatisch elke taak als het systeem een poging tot indirecte prompt injection detecteert. Naast deze ingebouwde tools adviseert Google ontwikkelaars dringend om een "defense-in-depth"-strategie te hanteren, die onder meer het sandboxing van de omgeving van de agent, menselijk toezicht en het implementeren van strikte toegangscontroles omvat.

Beschikbaarheid en implementatie

Ontwikkelaars die deze mogelijkheden willen benutten, hebben er onmiddellijk toegang toe via de Gemini API en het Gemini Enterprise Agent Platform. Om het ontwikkelproces te versnellen, heeft Google een GitHub-referentie-implementatie en een Browserbase-demo beschikbaar gesteld, wat een duidelijk stappenplan biedt voor het integreren van autonome computerbesturing in bestaande software-ecosystemen.

Belangrijkste punten

Directe integratie: Computerbesturing is nu standaard ingebed in Gemini 3.5 Flash, wat naadloze multimodale interactie met schermen en browsers mogelijk maakt.
Hoge benchmarks: Met een OSWorld-score van 78,4 is Gemini 3.5 Flash een model met topresultaten voor autonome computertaken, waarmee het GPT-5.4 mini verslaat.
Enterprise-beveiliging: Google pakt de risico's van autonome agenten aan via adversarial training en optionele beveiligingsmaatregelen, zoals verplichte gebruikersbevestiging voor gevoelige acties.

Google integreert computerbesturing in Gemini 3.5 Flash

Google integreert computerbesturing in Gemini 3.5 Flash

Van chatbot naar autonome agent

Prestaties benchmarken: Gemini versus de concurrentie

Beveiliging en veiligheid bij autonome besturing

Beschikbaarheid en implementatie

Belangrijkste punten

Continue reading

Google DeepMind's nieuwe AI-control roadmap: Agents behandelen als interne dreigingen

Google verplaatst Gemini naar de Interactions API om het nieuwe tijdperk van agents aan te drijven

Google maakt de Interactions API de standaardmethode voor het bouwen met Gemini Agents

Gemini Interactions API: De ultieme migratiehandleiding

Gemini 3.5 Flash beschikt nu over native computergebruik