General Intuition กำลังใช้เกมวิดีโอเพื่อสร้าง AI สำหรับโลกแห่งความเป็นจริงอย่างไร
General Intuition กำลังพยายามสร้างการเปลี่ยนแปลงกระบวนทัศน์ (paradigm shift) ครั้งใหญ่ในด้านหุ่นยนต์ โดยการใช้ชุดข้อมูลเกมวิดีโอขนาดมหึมาเพื่อฝึกฝนโมเดลเอเจนต์ (agentic models) สำหรับโลกทางกายภาพ ด้วยการระดมทุนรอบใหม่มูลค่า 320 ล้านดอลลาร์ สตาร์ทอัพแห่งนี้กำลังเดิมพันว่า "ข้อมูลการกระทำ" (action data) ที่พบในเกมคือจิ๊กซอว์ชิ้นสำคัญที่ขาดหายไปสำหรับปัญญาประดิษฐ์
พลังของป้ายกำกับการกระทำ (Action Labels) และการให้เหตุผลเชิงพื้นที่และเวลา (Spatial-Temporal Reasoning)
ในขณะที่นักวิจัย AI จำนวนมากพยายามฝึกฝนโมเดลด้วยการสังเกตเพียงภาพวิดีโอ Pim de Witte ซีอีโอของ General Intuition แย้งว่าวิดีโอเพียงอย่างเดียวไม่เพียงพอ ความได้เปรียบทางการแข่งขันของบริษัทอยู่ที่การเข้าถึงข้อมูลที่เป็นกรรมสิทธิ์จาก Medal ซึ่งเป็นแพลตฟอร์มที่ผู้ใช้แบ่งปันคลิปเกมวิดีโอ
สิ่งที่แตกต่างจากวิดีโอทั่วไปคือ คลิปเหล่านี้มี "action labels" หรือป้ายกำกับการกระทำฝังอยู่ ซึ่งเป็นบันทึกที่แม่นยำว่าผู้เล่นกดปุ่มใดและกดเมื่อใด สิ่งนี้ช่วยให้โมเดลก้าวข้ามไปไกลกว่าแค่การจดจำรูปแบบ แต่เป็นการเรียนรู้การให้เหตุผลเชิงพื้นที่และเวลา (spatial-temporal reasoning) ด้วยการทำความเข้าใจความเชื่อมโยงโดยตรงระหว่างอินพุตเฉพาะ (การกระทำ) และการเปลี่ยนแปลงที่เกิดขึ้นในสภาพแวดล้อม (ปฏิกิริยาตอบสนอง) AI จึงเริ่มเข้าใจเรื่องความเป็นเหตุเป็นผล (causality) ซึ่งช่วยให้โมเดลสามารถแยกแยะระหว่าง "ตนเอง" ออกจาก "สภาพแวดล้อม" ซึ่งเป็นข้อกำหนดพื้นฐานสำหรับเอเจนต์อัตโนมัติ (autonomous agent) ใดๆ
จาก Fortnite สู่หุ่นยนต์สี่ขา
ความทะเยอทะยานทางเทคนิคของบริษัทคือการสร้างโมเดลเดียวที่สามารถประยุกต์ใช้ได้ครอบคลุมหลายโดเมน ทั้งการเล่นเกม, การจำลอง (simulation) และการแสดงออกทางกายภาพ (physical embodiment) ในการสาธิตเมื่อเร็วๆ นี้ เอเจนต์ AI ที่ได้รับการฝึกฝนจากการเล่นเกมสามารถนำทางผ่านสภาพแวดล้อมเสมือนจริงที่ซับซ้อน โดยเข้าใจว่ากำแพงคือวัตถุที่แข็ง และเงาจะเปลี่ยนไปตามการเคลื่อนที่ของดวงอาทิตย์
สิ่งสำคัญคือ "สมอง" นี้กำลังถูกถ่ายโอนไปยังฮาร์ดแวร์โดยตรง บริษัทได้สาธิตหุ่นยนต์สี่ขาที่ใช้โมเดลเดียวกับที่ขับเคลื่อนเอเจนต์ในเกม ที่น่าสนใจคือ ทีมงานรายงานว่าใช้ข้อมูลหุ่นยนต์ในโลกแห่งความเป็นจริงเพียงแปดนาทีเท่านั้น ซึ่งเก็บรวบรวมจากถนนจริง เพื่อปรับจูน (fine-tune) โมเดลสำหรับการนำทางของหุ่นยนต์ สิ่งนี้บ่งชี้ว่างานหนักในการเรียนรู้ฟิสิกส์และการรับรู้เชิงพื้นที่นั้นถูกทำใน "ยิม" ของเกมวิดีโอ ซึ่งช่วยให้การนำไปใช้งานจริงในโลกภายนอกมีประสิทธิภาพมากขึ้นอย่างมีนัยสำคัญ
การเดิมพันมูลค่า 2.3 พันล้านดอลลาร์กับ General Agents
ขนาดของความทะเยอทะยานนี้สะท้อนให้เห็นจากมูลค่าบริษัท General Intuition เพิ่งระดมทุนได้ 320 ล้านดอลลาร์ ที่มูลค่าบริษัท 2.3 พันล้านดอลลาร์ ส่งผลให้ยอดรวมเงินทุนที่เปิดเผยทั้งหมดอยู่ที่ 454 ล้านดอลลาร์ การระดมทุนรอบนี้นำโดย Khosla Ventures โดยมีการเข้าร่วมอย่างมีนัยสำคัญจาก General Catalyst, Jeff Bezos, Eric Schmidt รวมถึงนักวิจัยจาก Google DeepMind และ MIT
เงินทุนนี้ถูกจัดสรรไว้สำหรับสองเป้าหมายหลัก ได้แก่ การขยายขีดความสามารถในการประมวลผล (compute capacity) ผ่านความร่วมมือกับ CoreWeave และการทำให้ API ของพวกเขาสามารถเข้าถึงได้กว้างขวางขึ้นภายในสิ้นฤดูร้อนนี้ สำหรับนักลงทุนอย่าง Vinod Khosla เป้าหมายไม่ใช่แค่ระบบอัตโนมัติที่ดีขึ้น แต่คือการอุบัติขึ้นของ "AI intuition" หรือสัญชาตญาณของ AI ซึ่งเป็นความสามารถที่คล้ายคลึงกับมนุษย์ในการนำทางโลกผ่านความเข้าใจ มากกว่าแค่การทำตามคำสั่งที่ถูกโปรแกรมไว้
สรุปประเด็นสำคัญ
- การฝึกฝนที่ขับเคลื่อนด้วยการกระทำ (Action-Driven Training): General Intuition ใช้ "action labels" หรือป้ายกำกับการกดปุ่มจากคลิปเกมเพื่อสอนเรื่องความเป็นเหตุเป็นผล (causality) ให้กับ AI ซึ่งก้าวข้ามข้อจำกัดของการฝึกฝนด้วยวิดีโอเพียงอย่างเดียว
- การจำลองที่ขยายขนาดได้ (Scalable Simulation): การใช้เกมวิดีโอเป็น "ยิม" ช่วยให้บริษัทสามารถฝึกฝนการให้เหตุผลเชิงพื้นที่และเวลาที่ซับซ้อนได้ โดยไม่ต้องเสียค่าใช้จ่ายมหาศาลในการเก็บรวบรวมข้อมูลหุ่นยนต์ในโลกแห่งความเป็นจริง
- การสนับสนุนจากสถาบันยักษ์ใหญ่: ด้วยมูลค่าบริษัท 2.3 พันล้านดอลลาร์และการสนับสนุนจากบุคคลสำคัญอย่าง Jeff Bezos และ Eric Schmidt บริษัทกำลังวางตำแหน่งตัวเองเป็นผู้เล่นระดับรากฐานในยุคของ world model
