Google เปิดตัว Nano Banana 2 Lite และ Gemini Omni Flash API
Google ได้ขยายระบบนิเวศ generative AI ของตนด้วยการเปิดตัวโมเดลใหม่ที่ทรงพลังสองรุ่น ซึ่งออกแบบมาเพื่อลดความหน่วง (latency) และปลดล็อกความคิดสร้างสรรค์ในระดับภาพยนตร์ ด้วยการเปิดตัว Nano Banana 2 Lite สำหรับการสร้างรูปภาพความเร็วสูง และ Gemini Omni Flash สำหรับการสังเคราะห์วิดีโอ Google กำลังมอบกระบวนการทำงาน (pipeline) ที่คล่องตัวให้แก่เหล่านักพัฒนา เพื่อเปลี่ยนจากแนวคิดภาพนิ่งไปสู่สื่อเคลื่อนไหว
Nano Banana 2 Lite: การสร้างรูปภาพที่มีปริมาณงานสูง (High-Throughput)
Google กำลังตอบสนองความต้องการของนักพัฒนาในด้านความเร็วและความคุ้มค่าด้วยการเปิดตัว Nano Banana 2 Lite (ซึ่งระบุใน API ตามทางเทคนิคว่า gemini-3.1-flash-lite-image) โมเดลนี้ถูกสร้างขึ้นมาโดยเฉพาะสำหรับการระดมความคิดอย่างรวดเร็วและกระบวนการผลิตที่มีปริมาณงานสูง โดยสามารถสร้างรูปภาพความละเอียด 1K ได้ภายในเวลาเพียงสี่วินาทีเท่านั้น
ด้วยราคาเพียง $0.034 ต่อรูป Nano Banana 2 Lite มอบความได้เปรียบทางเศรษฐกิจอย่างมากสำหรับบริษัทที่รันเวิร์กโฟลว์การสร้างรูปภาพจำนวนมหาศาล แม้จะมีการเพิ่มประสิทธิภาพด้านความเร็ว แต่ Google ยืนยันว่าโมเดลยังคงรักษามาตรฐานระดับสูงในการปฏิบัติตามคำสั่ง (prompt following) ความสม่ำเสมอของตัวละคร (character consistency) และความสามารถในการอ่านข้อความ โมเดลนี้ทำให้ลำดับขั้นแบบสามระดับสมบูรณ์ยิ่งขึ้น:
- Nano Banana 2 Lite: เน้นความเร็วสูงสุดและต้นทุนต่ำ
- Nano Banana 2 (Gemini 3.1 Flash Image): โมเดล "all-rounder" ที่ใช้งานได้หลากหลาย
- Nano Banana Pro (Gemini 3.1 Pro Image): ออกแบบมาเพื่อการใช้เหตุผลระดับมืออาชีพและการควบคุมที่ซับซ้อน
โมเดลนี้ไม่ได้มีไว้สำหรับนักพัฒนาเท่านั้น แต่ยังถูกรวมเข้ากับระบบนิเวศของ Google ทั้งหมด รวมถึง Google Search (AI Mode), NotebookLM, Google Photos และ Google Ads
Gemini Omni Flash: การนำวิดีโอเข้าสู่ API
หลังจากที่ได้เปิดตัวตัวอย่างในงาน Google I/O ขณะนี้ Gemini Omni Flash พร้อมใช้งานอย่างเป็นทางการแล้วผ่าน Gemini API และ Google AI Studio โมเดลนี้ถือเป็นก้าวกระโดดในการใช้เหตุผลแบบ multimodal ซึ่งช่วยให้นักพัฒนาสามารถสร้างและแก้ไขวิดีโอโดยใช้คำสั่งภาษาธรรมชาติ (natural language prompts) ด้วยราคา $0.10 ต่อวินาทีของวิดีโอที่ส่งออกมา ทำให้สามารถแข่งขันได้กับ Veo 3.1 Fast
Gemini Omni Flash มีความโดดเด่นในด้าน "การแก้ไขวิดีโอแบบสนทนา" (conversational video editing) ซึ่งผู้ใช้สามารถปรับแต่งคลิปได้โดยใช้ข้อความ รูปภาพ หรือวิดีโอที่มีอยู่เป็นอินพุต แม้ว่าข้อจำกัดในปัจจุบันจะรวมถึงความยาวคลิปสูงสุดที่ 10 วินาที และความสม่ำเสมอของตัวละครที่ยังจำกัดเมื่อมีการเคลื่อนกล้องที่ซับซ้อน แต่ความสามารถของโมเดลในการซิงค์ข้อความและกราฟิกให้เข้ากับการเคลื่อนไหวในวิดีโอก็นับเป็นก้าวสำคัญสำหรับการสร้างคอนเทนต์ที่ขับเคลื่อนด้วย AI
พลังของการเชื่อมต่อโมเดล (Model Chaining) และ Interactions API
คุณค่าเชิงกลยุทธ์ที่แท้จริงของการเปิดตัวครั้งนี้อยู่ที่การทำงานร่วมกันระหว่างโมเดลทั้งสอง Google กำลังสนับสนุนเวิร์กโฟลว์แบบ "chaining" โดยนักพัฒนาสามารถใช้ Nano Banana 2 Lite เพื่อสร้างรูปภาพอ้างอิงคุณภาพสูงได้อย่างรวดเร็ว จากนั้นจึงส่งรูปภาพนั้นไปยัง Gemini Omni Flash เพื่อทำให้เป็นภาพเคลื่อนไหวในรูปแบบวิดีโอ
เพื่ออำนวยความสะดวกในเรื่องนี้ Google กำลังส่งเสริม Interactions API ซึ่งทำหน้าที่เป็นค่าเริ่มต้นสำหรับเวิร์กโฟลว์เหล่านี้ API จะรักษาประวัติเซสชันและบริบท (context) ไว้ ทำให้สามารถแก้ไขต่อเนื่องกันได้สูงสุดสามครั้ง ช่วยให้กระบวนการสร้างสรรค์ให้ความรู้สึกเหมือนเป็นการสนทนาที่ต่อเนื่องกับ AI เพื่อสาธิตความสามารถเหล่านี้ Google ได้เปิดตัวแอปเดโมสามแอป ได้แก่ "Anywhere" สำหรับแอนิเมชันการเดินทาง, "Space Lift" สำหรับการออกแบบภายใน และ "Omni Product Studio" สำหรับการสร้างวิดีโออีคอมเมิร์ซ
เช่นเดียวกับโมเดล generative ทั้งหมดของ Google ทั้ง Nano Banana 2 Lite และ Gemini Omni Flash ใช้การทำลายน้ำด้วย SynthID เพื่อให้แน่ใจว่าคอนเทนต์ที่สร้างโดย AI สามารถตรวจสอบได้ในแพลตฟอร์มต่างๆ ของ Google
สรุปประเด็นสำคัญ
- ประสิทธิภาพในระดับสเกล: Nano Banana 2 Lite สามารถสร้างรูปภาพ 1K ได้ภายในสี่วินาทีด้วยราคาเพียง $0.034 ช่วยเพิ่มประสิทธิภาพเวิร์กโฟลว์สำหรับความต้องการที่มีปริมาณงานสูง
- การแก้ไขวิดีโอแบบ Multimodal: Gemini Omni Flash นำการสร้างและแก้ไขวิดีโอด้วยภาษาธรรมชาติมาสู่ Gemini API ในราคา $0.10 ต่อวินาที
- กระบวนการสร้างสรรค์แบบครบวงจร: นักพัฒนาสามารถเชื่อมต่อโมเดลรูปภาพและวิดีโอผ่าน Interactions API เพื่อเปลี่ยนสินทรัพย์ภาพนิ่งให้เป็นคอนเทนต์เคลื่อนไหวได้อย่างราบรื่น
