Google integra el control de la computadora en Gemini 3.5 Flash

Google ha alcanzado un hito significativo en la IA de agentes al integrar capacidades de "Computer Use" directamente en el modelo Gemini 3.5 Flash. Esta actualización permite que el modelo perciba, interprete e interactúe con pantallas de computadora, navegadores web y dispositivos móviles en tiempo real, pasando de un chat basado en texto a una ejecución digital activa.

De chatbot a agente autónomo

Anteriormente, la capacidad de operar una interfaz de computadora estaba restringida a un modelo Gemini 2.5 independiente, lo que creaba una barrera para una integración fluida. Al integrar esta funcionalidad directamente en Gemini 3.5 Flash, Google está permitiendo que los desarrolladores construyan agentes multimodales altamente eficientes. Al combinarse con capacidades existentes como function calling, Google Search y Maps, estos agentes pueden navegar por flujos de trabajo complejos en entornos de escritorio, móviles y de navegador. Esto convierte al modelo en un motor ideal para tareas de automatización a gran escala, como pruebas de software automatizadas, administración de oficinas compleja y entrada de datos multiplataforma.

Evaluación de rendimiento: Gemini frente a la competencia

El impacto de esta integración es más evidente en el benchmark OSWorld, que mide la capacidad de una IA para operar un sistema informático. Gemini 3.5 Flash logró una impresionante puntuación de 78.4, demostrando un razonamiento y una ejecución superiores en comparación con muchos de sus pares en la industria.

Para ponerlo en contexto, Gemini 3.5 Flash superó a Gemini 3 Flash (65.1) y a GPT-5.4 mini (72.1). Aunque se sitúa ligeramente por detrás del líder de la industria, Anthropic Opus 4.8 (83.4), y por un margen mínimo de GPT-5.5 (78.7), sigue siendo altamente competitivo, igualando el rendimiento de Sonnet 4.6 (78.4) y superando a Gemini 3.1 Pro (76.2). Este posicionamiento competitivo destaca a Gemini 3.5 Flash como una opción de primer nivel para los desarrolladores que buscan un equilibrio entre velocidad e interacción sofisticada con la computadora.

Seguridad y protección en el control autónomo

Darle a un LLM el control sobre la interfaz de un usuario introduce riesgos de seguridad significativos, particularmente en relación con los ataques de inyección de prompts (prompt injection). Para mitigar estas amenazas, Google ha implementado un riguroso entrenamiento adversarial y ofrece dos salvaguardas distintas de nivel empresarial.

La primera salvaguarda requiere la confirmación explícita del usuario antes de que el modelo pueda realizar acciones sensibles o irreversibles, como eliminar archivos o realizar transacciones financieras. La segunda salvaguarda detiene automáticamente cualquier tarea si el sistema detecta un intento de inyección de prompt indirecta. Más allá de estas herramientas integradas, Google recomienda encarecidamente a los desarrolladores adoptar una estrategia de "defensa en profundidad", que incluye el sandboxing (aislamiento) del entorno del agente, el mantenimiento de la supervisión humana y la implementación de controles de acceso estrictos.

Disponibilidad e implementación

Los desarrolladores que deseen aprovechar estas capacidades pueden acceder a ellas de inmediato a través de la Gemini API y la Gemini Enterprise Agent Platform. Para acelerar el proceso de desarrollo, Google ha proporcionado una implementación de referencia en GitHub y una demo de Browserbase, ofreciendo una hoja de ruta clara para integrar el control autónomo de la computadora en los ecosistemas de software existentes.

Conclusiones clave

  • Integración directa: El control de la computadora ahora está integrado de forma nativa en Gemini 3.5 Flash, lo que permite una interacción multimodal fluida con pantallas y navegadores.
  • Benchmarks elevados: Con una puntuación de OSWorld de 78.4, Gemini 3.5 Flash es un modelo de alto rendimiento para tareas informáticas autónomas, superando a GPT-5.4 mini.
  • Seguridad empresarial: Google aborda los riesgos de los agentes autónomos mediante el entrenamiento adversarial y salvaguardas opcionales, como la confirmación obligatoria del usuario para acciones sensibles.