Google traslada Gemini a la Interactions API para impulsar la nueva era de los agentes
Google DeepMind ha designado oficialmente la Interactions API como la interfaz predeterminada para todos los modelos y agentes de Gemini, marcando un cambio fundamental en la forma en que los desarrolladores construyen con la IA de Google. Al reemplazar la interfaz heredada generateContent, Google está pivotando de interacciones simples de entrada/salida de texto hacia un marco de trabajo complejo y de múltiples pasos diseñado específicamente para la autonomía de agentes.
Más allá del chat simple: hacia los agentes autónomos
Durante gran parte de la era de la IA generativa, los desarrolladores dependieron del método generateContent, el cual estaba optimizado para respuestas de un solo turno y sin estado (stateless). La transición a la Interactions API significa el compromiso de Google con la "IA agéntica" (Agentic AI): sistemas que no solo hablan, sino que actúan.
Según Logan Kilpatrick, responsable de relaciones con desarrolladores de Google, esta API "prepara el escenario para la nueva era de los Agentes". El cambio permite funciones que antes eran difíciles de implementar, como los Managed Agents equipados con sus propios entornos de ejecución (sandboxes) de Linux. Esto permite que los modelos ejecuten código en entornos seguros y aislados, lo que los hace capaces de realizar tareas computacionales complejas en lugar de simplemente predecir el siguiente token.
Capacidades avanzadas: encadenamiento de herramientas y ejecución en segundo plano
La Interactions API introduce un conjunto de capacidades de alto nivel que transforman a Gemini de un chatbot en un asistente funcional. Las mejoras técnicas clave incluyen:
- Tool Chaining (Encadenamiento de herramientas): La integración fluida con Google Search y Google Maps permite que los agentes fundamenten sus acciones en datos del mundo real.
- Long-running Tasks (Tareas de larga duración): La API admite la ejecución en segundo plano, lo que permite a los agentes trabajar en flujos de trabajo complejos sin requerir una conexión constante y activa por parte del cliente.
- Multimodal Generation (Generación multimodal): Los desarrolladores ahora pueden orquestar la generación de imágenes, música y voz directamente a través del flujo de trabajo agéntico.
- State Management (Gestión de estado): La API maneja la complejidad del razonamiento de múltiples pasos, permitiendo que los agentes mantengan el contexto a través de diversos usos de herramientas y llamadas externas.
Un esquema simplificado y modos de ejecución optimizados
Google también ha simplificado la arquitectura técnica de la API para que sea más intuitiva para los desarrolladores. La estructura tradicional basada en roles (que utiliza etiquetas como "user" y "model") ha sido reemplazada por un sistema de "steps" (pasos) tipificados. En este nuevo esquema, cada acción discreta —desde un prompt de usuario hasta una llamada a una función y la respuesta posterior de una herramienta— se trata como un paso definido en una secuencia.
Para abordar las necesidades económicas y de rendimiento de diferentes aplicaciones, Google ha introducido dos modos de ejecución distintos:
- Flex Mode: Optimizado para la eficiencia de costos, ofreciendo una reducción del 50 por ciento en los gastos para los desarrolladores que ejecutan tareas a gran escala o no urgentes.
- Priority Mode: Optimizado para baja latencia, asegurando que las aplicaciones que requieren velocidad reciban la inferencia más rápida posible.
Por qué esto es importante para el ecosistema de la IA
Este movimiento señala que la industria está dejando atrás la fase de "chatbot" para entrar en la fase de "agente". Al estandarizar una API construida para el uso de herramientas, la ejecución en entornos aislados (sandboxed) y los procesos de larga duración, Google está proporcionando la infraestructura necesaria para el software autónomo que puede navegar por la web, gestionar archivos y ejecutar código. Para los desarrolladores, esto significa pasar menos tiempo gestionando el estado y más tiempo construyendo flujos de trabajo de IA complejos y fiables.
Conclusiones clave
- Transición de la API: La Interactions API reemplaza a
generateContentcomo el estándar para Gemini, permitiendo funciones agénticas avanzadas como el sandboxing de Linux y el encadenamiento de herramientas. - Nuevos modos de ejecución: Los desarrolladores ahora pueden elegir entre el modo Flex (50% de ahorro en costos) y el modo Priority (optimizado para la velocidad).
- Cambio estructural: La API pasa de una estructura de roles "user/model" a un esquema de "typed steps" (pasos tipificados), lo que refleja mejor la naturaleza de múltiples pasos de los agentes autónomos.
