Google veröffentlicht Nano Banana 2 Lite und die Gemini Omni Flash API

Google hat sein Ökosystem für generative KI mit der Veröffentlichung zweier leistungsstarker neuer Modelle erweitert, die darauf ausgelegt sind, Latenzzeiten drastisch zu reduzieren und filmische Kreativität freizusetzen. Durch die Einführung von Nano Banana 2 Lite für die Hochgeschwindigkeits-Bildgenerierung und Gemini Omni Flash für die Videosynthese bietet Google Entwicklern eine optimierte Pipeline, um von statischen Konzepten zu bewegten Medien überzugehen.

Nano Banana 2 Lite: Bildgenerierung mit hohem Durchsatz

Mit der Einführung von Nano Banana 2 Lite (technisch in der API als gemini-3.1-flash-lite-image identifiziert) bedient Google die Nachfrage der Entwickler nach Geschwindigkeit und Kosteneffizienz. Dieses Modell wurde speziell für die schnelle Ideenfindung und Produktions-Pipelines mit hohem Volumen entwickelt und ist in der Lage, Bilder in 1K-Auflösung in nur vier Sekunden zu generieren.

Mit einem Preis von 0,034 $ pro Bild bietet Nano Banana 2 Lite einen erheblichen wirtschaftlichen Vorteil für Unternehmen, die massive Workflows zur Bildgenerierung betreiben. Trotz der optimierten Geschwindigkeit behauptet Google, dass das Modell hohe Standards bei der Befolgung von Prompts, der Charakterkonsistenz und der Textlesbarkeit einhält. Dieses Modell vervollständigt eine dreistufige Hierarchie:

  • Nano Banana 2 Lite: Fokus auf extreme Geschwindigkeit und niedrige Kosten.
  • Nano Banana 2 (Gemini 3.1 Flash Image): Das vielseitige „Allround-Talent“.
  • Nano Banana Pro (Gemini 3.1 Pro Image): Entwickelt für Reasoning auf professionellem Niveau und komplexe Steuerung.

Das Modell ist nicht nur für Entwickler gedacht; es wird in das gesamte Google-Ökosystem integriert, einschließlich Google Search (KI-Modus), NotebookLM, Google Photos und Google Ads.

Gemini Omni Flash: Video kommt in die API

Nach der Vorschau auf der Google I/O ist Gemini Omni Flash nun offiziell über die Gemini API und das Google AI Studio verfügbar. Dieses Modell stellt einen Sprung im multimodalen Reasoning dar und ermöglicht es Entwicklern, Videos mithilfe von natürlicher Sprache (Prompts) zu generieren und zu bearbeiten. Mit einem Preis von 0,10 $ pro Sekunde Videoausgabe ist es wettbewerbsfähig neben Veo 3.1 Fast positioniert.

Gemini Omni Flash glänzt durch „konversationelles Videobearbeiten“, bei dem Benutzer Clips mithilfe von Text, Bildern oder vorhandenem Videomaterial als Input verfeinern können. Während aktuelle Einschränkungen eine maximale Clip-Länge von 10 Sekunden und eine begrenzte Charakterkonsistenz bei komplexen Kamerabewegungen umfassen, markiert die Fähigkeit des Modells, Text und Grafiken mit Videoaktionen zu synchronisieren, einen bedeutenden Fortschritt für die KI-gestützte Content-Erstellung.

Die Stärke von Model Chaining und der Interactions API

Der wahre strategische Wert dieser Veröffentlichung liegt in der Synergie zwischen den beiden Modellen. Google fördert einen „Chaining“-Workflow: Entwickler können Nano Banana 2 Lite nutzen, um sofort ein hochwertiges Referenzbild zu generieren, und dieses Bild anschließend in Gemini Omni Flash einspeisen, um es in ein Video zu animieren.

Um dies zu erleichtern, bewirbt Google seine Interactions API, die als Standard für diese Workflows dient. Die API bewahrt den Sitzungsverlauf und den Kontext und ermöglicht bis zu drei aufeinanderfolgende Bearbeitungen, wodurch sich der kreative Prozess eher wie ein kontinuierlicher Dialog mit der KI anfühlt. Um diese Fähigkeiten zu demonstrieren, hat Google drei Demo-Apps veröffentlicht: „Anywhere“ für Reiseanimationen, „Space Lift“ für Innendesign und „Omni Product Studio“ für die Videogenerierung im E-Commerce.

Wie bei allen generativen Modellen von Google nutzen sowohl Nano Banana 2 Lite als auch Gemini Omni Flash die SynthID-Wasserzeichenung, um sicherzustellen, dass KI-generierte Inhalte auf Google-Plattformen verifiziert werden können.

Wichtigste Erkenntnisse

  • Effizienz im großen Maßstab: Nano Banana 2 Lite liefert 1K-Bilder in vier Sekunden für nur 0,034 $, was Workflows für hohen Durchsatz optimiert.
  • Multimodale Videobearbeitung: Gemini Omni Flash führt die Videogenerierung und -bearbeitung mittels natürlicher Sprache in der Gemini API zu einem Preis von 0,10 $ pro Sekunde ein.
  • Integrierte kreative Pipeline: Entwickler können Bild- und Videomodelle über die Interactions API verketten, um statische Assets nahtlos in animierte Inhalte zu verwandeln.