Google intègre le contrôle d'ordinateur dans Gemini 3.5 Flash
Google a franchi une étape importante dans l'IA agentique en intégrant les capacités de « Computer Use » directement dans le modèle Gemini 3.5 Flash. Cette mise à jour permet au modèle de percevoir, d'interpréter et d'interagir avec des écrans d'ordinateur, des navigateurs web et des appareils mobiles en temps réel, passant ainsi du simple chat textuel à une exécution numérique active.
Du chatbot à l'agent autonome
Auparavant, la capacité d'opérer une interface informatique était limitée à un modèle Gemini 2.5 distinct, ce qui créait un obstacle à une intégration fluide. En intégrant directement cette fonctionnalité dans Gemini 3.5 Flash, Google permet aux développeurs de créer des agents multimodaux hautement efficaces. Combinés à des capacités existantes telles que le function calling, Google Search et Maps, ces agents peuvent naviguer dans des flux de travail complexes sur les environnements de bureau, mobiles et de navigation. Cela fait du modèle un moteur idéal pour les tâches d'automatisation à grande échelle, telles que les tests logiciels automatisés, l'administration de bureau complexe et la saisie de données multiplateformes.
Benchmarking des performances : Gemini face à la concurrence
L'impact de cette intégration est particulièrement évident dans le benchmark OSWorld, qui mesure la capacité d'une IA à utiliser un système informatique. Gemini 3.5 Flash a obtenu un score impressionnant de 78,4, démontrant un raisonnement et une exécution supérieurs par rapport à de nombreux pairs du secteur.
À titre de comparaison, Gemini 3.5 Flash a surpassé Gemini 3 Flash (65,1) et GPT-5.4 mini (72,1). Bien qu'il se situe légèrement derrière le leader du secteur Anthropic Opus 4.8 (83,4) et la marge infime de GPT-5.5 (78,7), il reste extrêmement compétitif, égalant la performance de Sonnet 4.6 (78,4) et battant Gemini 3.1 Pro (76,2). Ce positionnement concurrentiel fait de Gemini 3.5 Flash un choix de premier plan pour les développeurs recherchant un équilibre entre vitesse et interaction informatique sophistiquée.
Sécurité et sûreté dans le contrôle autonome
Donner le contrôle de l'interface d'un utilisateur à un LLM introduit des risques de sécurité importants, notamment en ce qui concerne les attaques par injection de prompt. Pour atténuer ces menaces, Google a mis en œuvre un entraînement contradictoire rigoureux et propose deux mesures de protection distinctes de classe entreprise.
La première protection exige une confirmation explicite de l'utilisateur avant que le modèle ne puisse effectuer des actions sensibles ou irréversibles, comme la suppression de fichiers ou la réalisation de transactions financières. La seconde protection interrompt automatiquement toute tâche si le système détecte une tentative d'injection de prompt indirecte. Au-delà de ces outils intégrés, Google conseille vivement aux développeurs d'adopter une stratégie de « défense en profondeur », qui inclut le sandboxing de l'environnement de l'agent, le maintien d'une supervision humaine et la mise en œuvre de contrôles d'accès stricts.
Disponibilité et mise en œuvre
Les développeurs souhaitant exploiter ces capacités peuvent y accéder immédiatement via l'API Gemini et la plateforme Gemini Enterprise Agent. Pour accélérer le processus de développement, Google a fourni une implémentation de référence sur GitHub ainsi qu'une démo Browserbase, offrant une feuille de route claire pour l'intégration du contrôle informatique autonome dans les écosystèmes logiciels existants.
Points clés à retenir
- Intégration directe : Le contrôle de l'ordinateur est désormais nativement intégré dans Gemini 3.5 Flash, permettant une interaction multimodale fluide avec les écrans et les navigateurs.
- Benchmarks élevés : Avec un score OSWorld de 78,4, Gemini 3.5 Flash est un modèle de haute performance pour les tâches informatiques autonomes, surpassant GPT-5.4 mini.
- Sécurité d'entreprise : Google traite les risques liés aux agents autonomes grâce à l'entraînement contradictoire et à des mesures de protection optionnelles, telles que la confirmation obligatoire de l'utilisateur pour les actions sensibles.
