Gemini 3.5 Flash agora possui uso de computador nativo
O Google atualizou o Gemini 3.5 Flash em 24 de junho de 2026. Agora ele inclui o uso de computador nativo. Isso significa que o modelo pode interagir diretamente com telas.
Antes desta atualização, os desenvolvedores enfrentavam uma escolha. Era necessário usar um modelo separado para o controle de tela ou construir pipelines complexos entre diferentes modelos. Isso aumentava o custo e o trabalho de engenharia.
Agora, o uso de computador é uma ferramenta padrão. Você pode chamá-lo junto com o Search e o Maps em uma única etapa.
O que muda para você:
- Passagem de inferência única: Um único agente pode navegar na web, usar aplicativos corporativos e consultar o Maps sem trocar de modelo.
- Contexto maior: A janela cresceu de 128K para 1 milhão de tokens. Isso ajuda em tarefas longas.
- Melhor raciocínio: Cada ação agora inclui um campo de intenção (intent). Ele explica por que o modelo clicou ou digitou. Isso cria uma trilha de auditoria para conformidade.
- Custos mais baixos: O Gemini 3.5 Flash custa US$ 1,50 por milhão de tokens de entrada. O GPT-5.5 custa US$ 5,00. O Gemini é muito mais barato para escala.
Como funciona:
- Seu aplicativo tira um screenshot.
- A API recebe a imagem e o seu objetivo.
- O modelo escolhe um elemento de UI e retorna um comando, como um clique ou uma rolagem.
- Seu aplicativo executa o comando e repete o processo.
A segurança é uma preocupação importante. Um agente pode realizar ações irreversíveis, como enviar e-mails ou fazer pagamentos. O Google adicionou camadas para gerenciar isso:
- Treinamento adversarial para impedir injeção de prompt (prompt injection).
- Confirmação humana para ações sensíveis.
- Sete categorias de segurança para bloquear tarefas específicas, como movimentações financeiras.
O modelo suporta mais de 20 tipos de ação. Isso inclui cliques, digitação, rolagem e arrastar para navegadores, dispositivos móveis e desktop.
A lacuna entre benchmarks e o uso no mundo real permanece. Os aplicativos mudam com frequência e os fluxos de autenticação são complicados. Comece com tarefas de apenas leitura. Assim que confiar nos logs, passe para fluxos de trabalho que exijam aprovação humana.
O uso de computador está deixando de ser um complemento premium para se tornar uma ferramenta padrão.
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
