Google stellt Gemini auf die Interactions API um, um die neue Ära der Agenten voranzutreiben

Google DeepMind hat die Interactions API offiziell als Standardschnittstelle für alle Gemini-Modelle und -Agenten festgelegt, was einen grundlegenden Wandel in der Art und Weise markiert, wie Entwickler mit Googles KI arbeiten. Durch die Ablösung der bisherigen generateContent-Schnittstelle bewegt sich Google weg von einfachen Text-zu-Text-Interaktionen hin zu einem komplexen, mehrstufigen Framework, das speziell für autonome Agenten entwickelt wurde.

Von einfachem Chat hin zu autonomen Agenten

Während eines Großteils der Ära der generativen KI verließen sich Entwickler auf die generateContent-Methode, die für zustandslose Antworten in einem einzigen Durchgang (single-turn) optimiert war. Der Übergang zur Interactions API unterstreicht Googles Engagement für „Agentic AI“ – Systeme, die nicht nur sprechen, sondern handeln.

Laut Logan Kilpatrick, Googles Leiter für Developer Relations, „ebnet diese API den Weg für die neue Ära der Agenten“. Der Wechsel ermöglicht Funktionen, die zuvor schwer zu implementieren waren, wie etwa Managed Agents, die über eigene Linux-Sandboxes verfügen. Dies ermöglicht es Modellen, Code in sicheren, isolierten Umgebungen auszuführen, wodurch sie in der Lage sind, komplexe Rechenaufgaben zu bewältigen, anstatt nur das nächste Token vorherzusagen.

Erweiterte Funktionen: Tool Chaining und Hintergrundausführung

Die Interactions API führt eine Reihe von High-Level-Funktionen ein, die Gemini von einem Chatbot in einen funktionalen Assistenten verwandeln. Zu den wichtigsten technischen Verbesserungen gehören:

  • Tool Chaining: Die nahtlose Integration von Google Search und Google Maps ermöglicht es Agenten, ihre Handlungen auf realen Daten zu basieren.
  • Lang laufende Aufgaben: Die API unterstützt die Hintergrundausführung, sodass Agenten an komplexen Workflows arbeiten können, ohne dass eine ständige, aktive Verbindung vom Client erforderlich ist.
  • Multimodale Generierung: Entwickler können nun die Generierung von Bildern, Musik und Sprache direkt über den agentischen Workflow orchestrieren.
  • Zustandsverwaltung (State Management): Die API bewältigt die Komplexität mehrstufiger Schlussfolgerungen (Reasoning), sodass Agenten den Kontext über verschiedene Werkzeugeinsätze und externe Aufrufe hinweg beibehalten können.

Ein vereinfachtes Schema und optimierte Ausführungsmodi

Google hat auch die technische Architektur der API gestrafft, um sie für Entwickler intuitiver zu gestalten. Die traditionelle rollenbasierte Struktur (mit Labels wie „user“ und „model“) wurde durch ein System von typisierten „Steps“ ersetzt. In diesem neuen Schema wird jede einzelne Aktion – vom Benutzer-Prompt über einen Funktionsaufruf bis hin zur anschließenden Antwort eines Tools – als definierter Schritt in einer Sequenz behandelt.

Um den wirtschaftlichen und leistungsbezogenen Anforderungen verschiedener Anwendungen gerecht zu werden, hat Google zwei unterschiedliche Ausführungsmodi eingeführt:

  • Flex Mode: Optimiert auf Kosteneffizienz und bietet Entwicklern, die groß angelegte oder nicht dringende Aufgaben ausführen, eine Reduzierung der Kosten um 50 Prozent.
  • Priority Mode: Optimiert auf niedrige Latenz, um sicherzustellen, dass geschwindigkeitskritische Anwendungen die schnellstmögliche Inferenz erhalten.

Warum dies für das KI-Ökosystem wichtig ist

Dieser Schritt signalisiert, dass sich die Branche von der „Chatbot“-Phase hin zur „Agent“-Phase bewegt. Durch die Standardisierung auf eine API, die für die Nutzung von Tools, die Ausführung in Sandboxes und lang laufende Prozesse konzipiert ist, stellt Google die notwendige Infrastruktur für autonome Software bereit, die im Web navigieren, Dateien verwalten und Code ausführen kann. Für Entwickler bedeutet dies weniger Zeitaufwand für die Zustandsverwaltung und mehr Zeit für den Aufbau komplexer, zuverlässiger KI-Workflows.

Die wichtigsten Erkenntnisse

  • API-Übergang: Die Interactions API ersetzt generateContent als Standard für Gemini und ermöglicht fortschrittliche agentische Funktionen wie Linux-Sandboxing und Tool Chaining.
  • Neue Ausführungsmodi: Entwickler können nun zwischen dem Flex Mode (50 % Kostenersparnis) und dem Priority Mode (optimiert auf Geschwindigkeit) wählen.
  • Struktureller Wandel: Die API wechselt von einer „user/model“-Rollenstruktur zu einem „typed steps“-Schema, das die mehrstufige Natur autonomer Agenten besser widerspiegelt.