Google migra o Gemini para a Interactions API para impulsionar a nova era dos Agentes
O Google DeepMind designou oficialmente a Interactions API como a interface padrão para todos os modelos e agentes Gemini, marcando uma mudança fundamental na forma como os desenvolvedores constroem com a IA do Google. Ao substituir a interface legada generateContent, o Google está pivotando de interações simples de "texto de entrada/texto de saída" para um framework complexo de múltiplas etapas, projetado especificamente para agência autônoma.
Indo além do chat simples para Agentes Autônomos
Durante grande parte da era da IA generativa, os desenvolvedores dependiam do método generateContent, que era otimizado para respostas sem estado (stateless) e de turno único. A transição para a Interactions API significa o compromisso do Google com a "IA Agêntica" — sistemas que não apenas conversam, mas agem.
De acordo com Logan Kilpatrick, líder de relações com desenvolvedores do Google, esta API "prepara o terreno para a nova era dos Agentes". A mudança permite recursos que antes eram difíceis de implementar, como Agentes Gerenciados equipados com seus próprios sandboxes Linux. Isso permite que os modelos executem código em ambientes seguros e isolados, tornando-os capazes de realizar tarefas computacionais complexas em vez de apenas prever o próximo token.
Recursos Avançados: Tool Chaining e Execução em Segundo Plano
A Interactions API introduz um conjunto de capacidades de alto nível que transformam o Gemini de um chatbot em um assistente funcional. Os principais aprimoramentos técnicos incluem:
- Tool Chaining: A integração perfeita com o Google Search e o Google Maps permite que os agentes fundamentem suas ações em dados do mundo real.
- Tarefas de longa duração: A API suporta execução em segundo plano, permitindo que os agentes trabalhem em fluxos de trabalho complexos sem exigir uma conexão constante e ativa do cliente.
- Geração Multimodal: Os desenvolvedores agora podem orquestrar a geração de imagens, música e fala diretamente através do fluxo de trabalho agêntico.
- Gerenciamento de Estado: A API lida com a complexidade do raciocínio de múltiplas etapas, permitindo que os agentes mantenham o contexto entre diversos usos de ferramentas e chamadas externas.
Um Esquema Simplificado e Modos de Execução Otimizados
O Google também simplificou a arquitetura técnica da API para torná-la mais intuitiva para os desenvolvedores. A estrutura tradicional baseada em funções (usando rótulos como "user" e "model") foi substituída por um sistema de "steps" (etapas) tipados. Neste novo esquema, cada ação discreta — desde um prompt de usuário até uma chamada de função e uma resposta subsequente de ferramenta — é tratada como uma etapa definida em uma sequência.
Para atender às necessidades econômicas e de desempenho de diferentes aplicações, o Google introduziu dois modos de execução distintos:
- Flex Mode: Otimizado para eficiência de custos, oferecendo uma redução de 50% nas despesas para desenvolvedores que executam tarefas de larga escala ou não urgentes.
- Priority Mode: Otimizado para baixa latência, garantindo que aplicações críticas em termos de velocidade recebam a inferência mais rápida possível.
Por que Isso é Importante para o Ecossistema de IA
Este movimento sinaliza que a indústria está passando da fase de "chatbot" para a fase de "agente". Ao padronizar uma API construída para uso de ferramentas, execução em sandbox e processos de longa duração, o Google está fornecendo a infraestrutura necessária para softwares autônomos que podem navegar na web, gerenciar arquivos e executar código. Para os desenvolvedores, isso significa menos tempo gasto gerenciando o estado e mais tempo construindo fluxos de trabalho de IA complexos e confiáveis.
Principais Conclusões
- Transição de API: A Interactions API substitui o
generateContentcomo padrão para o Gemini, permitindo recursos agênticos avançados, como sandboxing Linux e tool chaining. - Novos Modos de Execução: Os desenvolvedores agora podem escolher entre o Flex mode (50% de economia de custo) e o Priority mode (otimizado para velocidade).
- Mudança Estrutural: A API muda de uma estrutura de funções "user/model" para um esquema de "typed steps", refletindo melhor a natureza de múltiplas etapas dos agentes autônomos.
