Google wprowadza Nano Banana 2 Lite oraz Gemini Omni Flash API

Google rozszerzył swój ekosystem generatywnej sztucznej inteligencji o dwa potężne nowe modele, zaprojektowane w celu drastycznego zmniejszenia opóźnień i odblokowania filmowej kreatywności. Wprowadzając Nano Banana 2 Lite do szybkiego generowania obrazów oraz Gemini Omni Flash do syntezy wideo, Google zapewnia programistom usprawniony proces przechodzenia od statycznych koncepcji do ruchomych mediów.

Nano Banana 2 Lite: Generowanie obrazów o wysokiej przepustowości

Google odpowiada na zapotrzebowanie programistów na szybkość i efektywność kosztową, wprowadzając Nano Banana 2 Lite (technicznie identyfikowany w API jako gemini-3.1-flash-lite-image). Model ten został stworzony z myślą o błyskawicznym tworzeniu pomysłów i procesach produkcyjnych o dużej skali, będąc zdolnym do generowania obrazów w rozdzielczości 1K w zaledwie cztery sekundy.

Przy cenie 0,034 USD za obraz, Nano Banana 2 Lite oferuje znaczącą przewagę ekonomiczną firmom realizującym masowe procesy generowania obrazów. Mimo zoptymalizowanej prędkości, Google twierdzi, że model zachowuje wysokie standardy w zakresie przestrzegania promptów, spójności postaci oraz czytelności tekstu. Model ten dopełnia trójstopniową hierarchię:

  • Nano Banana 2 Lite: Skupiony na ekstremalnej szybkości i niskich kosztach.
  • Nano Banana 2 (Gemini 3.1 Flash Image): Wszechstronny model typu „all-rounder”.
  • Nano Banana Pro (Gemini 3.1 Pro Image): Zaprojektowany do rozumowania na poziomie profesjonalnym i złożonego sterowania.

Model nie jest przeznaczony wyłącznie dla programistów; jest on integrowany z całym ekosystemem Google, w tym z Google Search (tryb AI), NotebookLM, Google Photos oraz Google Ads.

Gemini Omni Flash: Wprowadzenie wideo do API

Po zapowiedzi podczas Google I/O, Gemini Omni Flash jest już oficjalnie dostępne za pośrednictwem Gemini API oraz Google AI Studio. Model ten stanowi przełom w rozumowaniu multimodalnym, umożliwiając programistom generowanie i edycję wideo za pomocą promptów w języku naturalnym. W cenie 0,10 USD za sekundę wygenerowanego wideo, model ten stanowi konkurencyjną alternatywę dla Veo 3.1 Fast.

Gemini Omni Flash wyróżnia się funkcją „konwersacyjnej edycji wideo”, dzięki której użytkownicy mogą dopracowywać klipy, używając tekstu, obrazów lub istniejącego wideo jako danych wejściowych. Choć obecne ograniczenia obejmują maksymalną długość klipu wynoszącą 10 sekund oraz ograniczoną spójność postaci przy złożonych ruchach kamery, zdolność modelu do synchronizacji tekstu i grafiki z akcją wideo stanowi znaczący krok naprzód w tworzeniu treści napędzanych przez AI.

Potęga łączenia modeli i Interactions API

Prawdziwa strategiczna wartość tego wydania tkwi w synergii między oboma modelami. Google zachęca do przepływu pracy opartego na „łączeniu” (chaining): programiści mogą użyć Nano Banana 2 Lite do natychmiastowego wygenerowania wysokiej jakości obrazu referencyjnego, a następnie wprowadzić ten obraz do Gemini Omni Flash, aby przekształcić go w animowane wideo.

Aby to ułatwić, Google promuje swoje Interactions API, które służy jako domyślne narzędzie dla takich procesów. API zachowuje historię sesji i kontekst, umożliwiając wykonanie do trzech kolejnych edycji, dzięki czemu proces twórczy przypomina ciągły dialog ze sztuczną inteligencją. Aby zaprezentować te możliwości, Google uruchomiło trzy aplikacje demonstracyjne: „Anywhere” do animacji podróżniczych, „Space Lift” do projektowania wnętrz oraz „Omni Product Studio” do generowania wideo dla e-commerce.

Podobnie jak we wszystkich generatywnych modelach Google, zarówno Nano Banana 2 Lite, jak i Gemini Omni Flash wykorzystują znakowanie wodne SynthID, aby zapewnić możliwość weryfikacji treści generowanych przez AI na platformach Google.

Kluczowe wnioski

  • Efektywność w dużej skali: Nano Banana 2 Lite generuje obrazy 1K w cztery sekundy za jedyne 0,034 USD, optymalizując procesy o wysokiej przepustowości.
  • Multimodalna edycja wideo: Gemini Omni Flash wprowadza generowanie i edycję wideo za pomocą języka naturalnego do Gemini API w cenie 0,10 USD za sekundę.
  • Zintegrowany proces twórczy: Programiści mogą łączyć modele obrazu i wideo za pomocą Interactions API, aby płynnie przekształcać statyczne zasoby w animowane treści.