Google lance Nano Banana 2 Lite et l'API Gemini Omni Flash
Google a élargi son écosystème d'IA générative avec la sortie de deux nouveaux modèles puissants conçus pour réduire la latence et libérer la créativité cinématographique. En introduisant Nano Banana 2 Lite pour la génération d'images à haute vitesse et Gemini Omni Flash pour la synthèse vidéo, Google offre aux développeurs un pipeline optimisé pour passer de concepts statiques à des médias animés.
Nano Banana 2 Lite : Génération d'images à haut débit
Google répond à la demande des développeurs en matière de vitesse et de rentabilité avec le lancement de Nano Banana 2 Lite (identifié techniquement dans l'API sous le nom gemini-3.1-flash-lite-image). Ce modèle est spécifiquement conçu pour l'idéation rapide et les pipelines de production à haut volume, capable de générer des images en résolution 1K en seulement quatre secondes.
Avec un prix de 0,034 $ par image, Nano Banana 2 Lite offre un avantage économique significatif pour les entreprises gérant des flux de travail de génération d'images massifs. Malgré sa vitesse optimisée, Google affirme que le modèle maintient des standards élevés en matière de respect des instructions (prompt following), de cohérence des personnages et de lisibilité du texte. Ce modèle complète une hiérarchie à trois niveaux :
- Nano Banana 2 Lite : Axé sur une vitesse extrême et un coût réduit.
- Nano Banana 2 (Gemini 3.1 Flash Image) : Le modèle polyvalent « tout-terrain ».
- Nano Banana Pro (Gemini 3.1 Pro Image) : Conçu pour un raisonnement de niveau professionnel et un contrôle complexe.
Le modèle ne s'adresse pas qu'aux développeurs ; il est intégré à l'ensemble de l'écosystème Google, notamment Google Search (AI Mode), NotebookLM, Google Photos et Google Ads.
Gemini Omni Flash : L'arrivée de la vidéo dans l'API
Suite à sa présentation lors de Google I/O, Gemini Omni Flash est désormais officiellement disponible via la Gemini API et Google AI Studio. Ce modèle représente une avancée majeure dans le raisonnement multimodal, permettant aux développeurs de générer et de modifier des vidéos à l'aide de commandes en langage naturel. Proposé au prix de 0,10 $ par seconde de vidéo produite, il se positionne de manière compétitive aux côtés de Veo 3.1 Fast.
Gemini Omni Flash excelle dans l'« édition vidéo conversationnelle », où les utilisateurs peuvent affiner des clips en utilisant du texte, des images ou une vidéo existante comme entrée. Bien que les limitations actuelles incluent une durée maximale de clip de 10 secondes et une cohérence limitée des personnages lors de mouvements de caméra complexes, la capacité du modèle à synchroniser le texte et les graphismes avec les actions vidéo marque une étape importante pour la création de contenu assistée par l'IA.
La puissance de l'enchaînement de modèles et l'API Interactions
La véritable valeur stratégique de cette sortie réside dans la synergie entre les deux modèles. Google encourage un flux de travail par « enchaînement » (chaining) : les développeurs peuvent utiliser Nano Banana 2 Lite pour générer instantanément une image de référence de haute qualité, puis injecter cette image dans Gemini Omni Flash pour l'animer en vidéo.
Pour faciliter cela, Google promeut son Interactions API, qui sert de standard pour ces flux de travail. L'API préserve l'historique et le contexte de la session, permettant jusqu'à trois modifications consécutives, ce qui donne au processus créatif l'aspect d'un dialogue continu avec l'IA. Pour démontrer ces capacités, Google a lancé trois applications de démonstration : « Anywhere » pour l'animation de voyage, « Space Lift » pour le design d'intérieur et « Omni Product Studio » pour la génération de vidéos d'e-commerce.
Comme pour tous les modèles génératifs de Google, Nano Banana 2 Lite et Gemini Omni Flash utilisent le tatouage numérique SynthID pour garantir que le contenu généré par l'IA puisse être vérifié sur l'ensemble des plateformes Google.
Points clés
- Efficacité à grande échelle : Nano Banana 2 Lite génère des images 1K en quatre secondes pour seulement 0,034 $, optimisant les flux de travail pour les besoins de haut débit.
- Édition vidéo multimodale : Gemini Omni Flash introduit la génération et l'édition de vidéos en langage naturel dans la Gemini API à 0,10 $ par seconde.
- Pipeline créatif intégré : Les développeurs peuvent enchaîner les modèles d'image et de vidéo via l'Interactions API pour transformer de manière fluide des éléments statiques en contenu animé.
