General Intuation ระดมทุนได้ 320 ล้านดอลลาร์ เพื่อเปลี่ยนข้อมูลวิดีโอเกมให้เป็น AI สำหรับโลกแห่งความเป็นจริง

General Intuition กำลังเดิมพันว่าความลับของความฉลาดทางกายภาพ (physical intelligence) ซ่อนอยู่ในฟุตเทจวิดีโอเกมหลายล้านชั่วโมงที่ผู้เล่นบันทึกไว้ ด้วยการใช้ประโยชน์จากข้อมูลการกระทำ (action data) ที่มีความแม่นยำสูงจากการเล่นเกม สตาร์ทอัพแห่งนี้ตั้งเป้าที่จะสร้างโมเดลเอเจนต์ (agentic models) ที่สามารถเปลี่ยนผ่านจากสภาพแวดล้อมเสมือนจริงอย่าง Fortnite ไปสู่หุ่นยนต์สี่ขาในโลกจริงได้อย่างไร้รอยต่อ

พลังของ Action Labels ที่เหนือกว่าวิดีโอเพียงอย่างเดียว

ต่างจากคู่แข่งหลายรายที่พยายามฝึกฝน AI agent ด้วยการสังเกตวิดีโอเพียงอย่างเดียว General Intuition ใช้ประโยชน์จากข้อได้เปรียบที่เป็นกรรมสิทธิ์ซึ่งสืบทอดมาจาก Medal ซึ่งเป็นบริษัทก่อนหน้า ในขณะที่โมเดลส่วนใหญ่พยายามคาดเดาการเคลื่อนไหวจากพิกเซลเพียงอย่างเดียว แต่ General Intuition ใช้ "action labels" ซึ่งก็คือการกดปุ่มที่แม่นยำและช่วงเวลา (timestamps) ที่ถูกบันทึกไว้พร้อมกับคลิปการเล่นเกม

ความแตกต่างนี้มีความสำคัญอย่างยิ่งต่อการพัฒนาการใช้เหตุผลเชิงพื้นที่และเวลา (spatial-temporal reasoning) การที่โมเดลรู้แน่ชัดว่าการป้อนข้อมูลของมนุษย์ส่งผลให้เกิดการเคลื่อนไหวที่เฉพาะเจาะจงในพื้นที่ 3 มิติได้อย่างไร ทำให้โมเดลเรียนรู้เรื่องความเป็นเหตุเป็นผล (causality): ว่าการกระทำหนึ่งส่งผลต่อสภาพแวดล้อมอย่างไร Pim de Witte ซีอีโอของบริษัท ให้ความเห็นว่าสิ่งนี้ช่วยให้โมเดลสามารถแยกแยะระหว่าง "ตนเอง" (self) ออกจาก "สภาพแวดล้อม" (environment) ซึ่งเป็นข้อกำหนดพื้นฐานสำหรับเอเจนต์ใดๆ ที่ตั้งใจจะทำงานในโลกแห่งความเป็นจริง

จากการจำลองใน Fortnite สู่การสวมร่างในหุ่นยนต์ (Robot Embodiment)

สถาปัตยกรรมทางเทคนิคของบริษัทตั้งอยู่บน "world model" ที่ทำหน้าที่เป็นโรงยิมฝึกซ้อมภายใน แทนที่จะพึ่งพาเอนจินเกมแบบดั้งเดิม โมเดลนี้จะสร้างสภาพแวดล้อมขึ้นมาแบบเฟรมต่อเฟรม ช่วยให้เอเจนต์สามารถเรียนรู้ความเป็นจริงตามหลักฟิสิกส์ เช่น ความแข็งของกำแพงหรือการเคลื่อนที่ของเงา ผ่านการทำซ้ำอย่างต่อเนื่อง

การประยุกต์ใช้การฝึกฝนนี้เห็นผลได้ชัดเจนแล้วในการสาธิตฮาร์ดแวร์ของพวกเขา บริษัทประสบความสำเร็จในการนำ "สมอง" แบบเดียวกับที่ใช้ในการนำทางในโลกเสมือน ไปติดตั้งในหุ่นยนต์สี่ขาขนาดใหญ่ ที่น่าทึ่งคือ ทีมงานรายงานว่าใช้ข้อมูลหุ่นยนต์ในโลกจริงที่เก็บรวบรวมจากถนนสาธารณะเพียง 8 นาทีเท่านั้น ในการปรับจูน (fine-tune) โมเดลสำหรับการนำทางทางกายภาพของหุ่นยนต์ สิ่งนี้บ่งชี้ว่าการทำงานหนักในการสร้างความฉลาดนั้นเกิดขึ้นในระบบจำลอง ซึ่งทำให้การนำไปใช้งานจริงในโลกภายนอกทำได้รวดเร็วและประหยัดกว่าเดิมอย่างมาก

มูลค่าบริษัทมหาศาลถึง 2.3 พันล้านดอลลาร์

ขนาดของความทะเยอทะยานนี้สะท้อนให้เห็นจากการระดมทุนล่าสุดของบริษัท General Intuition ระดมทุนได้ 320 ล้านดอลลาร์ในการระดมทุนรอบที่นำโดย Khosla Ventures ส่งผลให้มูลค่ารวมของบริษัทพุ่งสูงถึง 2.3 พันล้านดอลลาร์ กลุ่มนักลงทุนนี้ประกอบไปด้วยผู้ทรงอิทธิพลในวงการเทคโนโลยีมากมาย รวมถึง Jeff Bezos, Eric Schmidt และนักวิจัยจาก Google DeepMind และ MIT

เงินทุนนี้ถูกจัดสรรไว้สำหรับวัตถุประสงค์หลักสองประการ:

  • การขยายขีดความสามารถในการประมวลผล (Scaling Compute): ผ่านความร่วมมือกับ CoreWeave บริษัทจะมุ่งเน้นไปที่การทำ pre-training สำหรับโมเดลรุ่นถัดไป
  • การเข้าถึงผ่าน API (API Accessibility): เงินทุนส่วนหนึ่งจะถูกนำไปใช้เพื่อเปิดตัว API ที่ครอบคลุมมากขึ้น ซึ่งอาจช่วยให้นักพัฒนาสามารถเข้าถึงโมเดลเอเจนต์ของพวกเขาได้ภายในสิ้นฤดูร้อนนี้

ในขณะที่อุตสาหกรรมกำลังก้าวข้ามยุคที่เน้นข้อความอย่างหนักของ Large Language Models (LLMs) General Intuition กำลังวางตำแหน่งตัวเองให้อยู่ในแถวหน้าของ "world models" ซึ่งก็คือ AI ที่ไม่ได้แค่พูดถึงโลก แต่เข้าใจถึงวิธีการเคลื่อนที่ผ่านโลกใบนี้

สรุปประเด็นสำคัญ

  • การฝึกฝนที่ขับเคลื่อนด้วยการกระทำ (Action-Driven Training): ด้วยการใช้ "action labels" จากการเล่นเกมของมนุษย์แทนที่จะเป็นเพียงวิดีโอ โมเดลจึงสามารถเรียนรู้ความเป็นเหตุเป็นผลและการใช้เหตุผลเชิงพื้นที่ได้อย่างมีประสิทธิภาพมากกว่าแนวทางที่ใช้วิดีโอเพียงอย่างเดียว
  • การจำลองที่ขยายขนาดได้ (Scalable Simulation): สตาร์ทอัพแห่งนี้ใช้วิดีโอเกมเป็น "โรงยิม" ในการฝึกฝนเอเจนต์ ซึ่งช่วยลดปริมาณข้อมูลในโลกจริงที่มีราคาแพงซึ่งจำเป็นต่อการควบคุมหุ่นยนต์ทางกายภาพได้อย่างมหาศาล
  • การสนับสนุนเชิงกลยุทธ์ (Strategic Backing): ด้วยมูลค่าบริษัท 2.3 พันล้านดอลลาร์และการสนับสนุนจากยักษ์ใหญ่ระดับโลกอย่าง Khosla Ventures และ Jeff Bezos บริษัทจึงอยู่ในตำแหน่งที่จะกลายเป็นโครงสร้างพื้นฐานสำหรับเอเจนต์ AI ทั่วไป (generalized AI agents)