Google verlegt Gemini naar de Interactions API om het nieuwe tijdperk van agents aan te drijven

Google DeepMind heeft de Interactions API officieel aangewezen als de standaardinterface voor alle Gemini-modellen en agents, wat een fundamentele verschuiving betekent in de manier waarop ontwikkelaars met de AI van Google bouwen. Door de verouderde generateContent-interface te vervangen, stapt Google over van eenvoudige tekst-in/tekst-uit-interacties naar een complex, meerstaps raamwerk dat specifiek is ontworpen voor autonome agency.

Van eenvoudige chat naar autonome agents

Gedurende een groot deel van het tijdperk van generatieve AI vertrouwden ontwikkelaars op de generateContent-methode, die was geoptimaliseerd voor stateless, single-turn reacties. De overstap naar de Interactions API onderstreept de toewijding van Google aan "Agentic AI" — systemen die niet alleen praten, maar ook handelen.

Volgens Logan Kilpatrick, Google's lead voor developer relations, "legt deze API de basis voor het nieuwe tijdperk van Agents." De verschuiving maakt functies mogelijk die voorheen moeilijk te implementeren waren, zoals Managed Agents die zijn uitgerust met hun eigen Linux sandboxes. Dit stelt modellen in staat om code uit te voeren in beveiligde, geïsoleerde omgevingen, waardoor ze in staat zijn om complexe computationele taken uit te voeren in plaats van alleen het volgende token te voorspellen.

Geavanceerde mogelijkheden: Tool Chaining en achtergronduitvoering

De Interactions API introduceert een reeks geavanceerde mogelijkheden die Gemini transformeren van een chatbot naar een functionele assistent. Belangrijke technische verbeteringen zijn onder meer:

  • Tool Chaining: Naadloze integratie met Google Search en Google Maps stelt agents in staat om hun acties te baseren op gegevens uit de echte wereld.
  • Long-running Tasks: De API ondersteunt achtergronduitvoering, waardoor agents aan complexe workflows kunnen werken zonder dat daar een constante, actieve verbinding vanuit de client voor nodig is.
  • Multimodal Generation: Ontwikkelaars kunnen nu de generatie van afbeeldingen, muziek en spraak direct orkestreren via de agentic workflow.
  • State Management: De API beheert de complexiteit van meerstapsredeneringen, waardoor agents de context kunnen behouden bij het gebruik van verschillende tools en externe aanroepen.

Een vereenvoudigd schema en geoptimaliseerde uitvoeringsmodi

Google heeft ook de technische architectuur van de API gestroomlijnd om deze intuïtiever te maken voor ontwikkelaars. De traditionele rolgebaseerde structuur (met labels als "user" en "model") is vervangen door een systeem van getypeerde "steps". In dit nieuwe schema wordt elke afzonderlijke actie — van een gebruikersprompt tot een functieaanroep en een daaropvolgende tool-respons — behandeld als een gedefinieerde stap in een reeks.

Om te voldoen aan de economische en prestatiebehoeften van verschillende applicaties, heeft Google twee verschillende uitvoeringsmodi geïntroduceerd:

  • Flex Mode: Geoptimaliseerd voor kostenefficiëntie, met een kostenbesparing van 50 procent voor ontwikkelaars die grootschalige of niet-dringende taken uitvoeren.
  • Priority Mode: Geoptimaliseerd voor lage latentie, zodat snelheidskritische applicaties de snelst mogelijke inferentie ontvangen.

Waarom dit belangrijk is voor het AI-ecosysteem

Deze stap geeft aan dat de industrie de "chatbot"-fase ontgroeit en de "agent"-fase ingaat. Door te standaardiseren op een API die is gebouwd voor toolgebruik, sandboxed uitvoering en langlopende processen, biedt Google de infrastructuur die nodig is voor autonome software die het web kan navigeren, bestanden kan beheren en code kan uitvoeren. Voor ontwikkelaars betekent dit minder tijd besteden aan het beheren van de status en meer tijd aan het bouwen van complexe, betrouwbare AI-workflows.

Belangrijkste punten

  • API-transitie: De Interactions API vervangt generateContent als de standaard voor Gemini, wat geavanceerde agentic functies mogelijk maakt zoals Linux sandboxing en tool chaining.
  • Nieuwe uitvoeringsmodi: Ontwikkelaars kunnen nu kiezen tussen de Flex-modus (50% kostenbesparing) en de Priority-modus (geoptimaliseerd voor snelheid).
  • Structurele verschuiving: De API beweegt van een "user/model" rolstructuur naar een "typed steps"-schema, wat de meerstapsnatuur van autonome agents beter weerspiegelt.