General Intuition ใช้เกมวิดีโอในการสร้าง AI สำหรับโลกแห่งความเป็นจริงได้อย่างไร

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialสัปดาห์ที่แล้ว3min read

General Intuition ใช้เกมวิดีโอในการสร้าง AI สำหรับโลกแห่งความเป็นจริงได้อย่างไร

In this article

General Intuition กำลังใช้เกมวิดีโอเพื่อสร้าง AI สำหรับโลกแห่งความเป็นจริงอย่างไร

General Intuition กำลังพยายามสร้างการเปลี่ยนแปลงกระบวนทัศน์ (paradigm shift) ครั้งใหญ่ในด้านหุ่นยนต์ โดยการใช้ชุดข้อมูลเกมวิดีโอขนาดมหึมาเพื่อฝึกฝนโมเดลเอเจนต์ (agentic models) สำหรับโลกทางกายภาพ ด้วยการระดมทุนรอบใหม่มูลค่า 320 ล้านดอลลาร์ สตาร์ทอัพแห่งนี้กำลังเดิมพันว่า "ข้อมูลการกระทำ" (action data) ที่พบในเกมคือจิ๊กซอว์ชิ้นสำคัญที่ขาดหายไปสำหรับปัญญาประดิษฐ์

พลังของป้ายกำกับการกระทำ (Action Labels) และการให้เหตุผลเชิงพื้นที่และเวลา (Spatial-Temporal Reasoning)

ในขณะที่นักวิจัย AI จำนวนมากพยายามฝึกฝนโมเดลด้วยการสังเกตเพียงภาพวิดีโอ Pim de Witte ซีอีโอของ General Intuition แย้งว่าวิดีโอเพียงอย่างเดียวไม่เพียงพอ ความได้เปรียบทางการแข่งขันของบริษัทอยู่ที่การเข้าถึงข้อมูลที่เป็นกรรมสิทธิ์จาก Medal ซึ่งเป็นแพลตฟอร์มที่ผู้ใช้แบ่งปันคลิปเกมวิดีโอ

สิ่งที่แตกต่างจากวิดีโอทั่วไปคือ คลิปเหล่านี้มี "action labels" หรือป้ายกำกับการกระทำฝังอยู่ ซึ่งเป็นบันทึกที่แม่นยำว่าผู้เล่นกดปุ่มใดและกดเมื่อใด สิ่งนี้ช่วยให้โมเดลก้าวข้ามไปไกลกว่าแค่การจดจำรูปแบบ แต่เป็นการเรียนรู้การให้เหตุผลเชิงพื้นที่และเวลา (spatial-temporal reasoning) ด้วยการทำความเข้าใจความเชื่อมโยงโดยตรงระหว่างอินพุตเฉพาะ (การกระทำ) และการเปลี่ยนแปลงที่เกิดขึ้นในสภาพแวดล้อม (ปฏิกิริยาตอบสนอง) AI จึงเริ่มเข้าใจเรื่องความเป็นเหตุเป็นผล (causality) ซึ่งช่วยให้โมเดลสามารถแยกแยะระหว่าง "ตนเอง" ออกจาก "สภาพแวดล้อม" ซึ่งเป็นข้อกำหนดพื้นฐานสำหรับเอเจนต์อัตโนมัติ (autonomous agent) ใดๆ

จาก Fortnite สู่หุ่นยนต์สี่ขา

ความทะเยอทะยานทางเทคนิคของบริษัทคือการสร้างโมเดลเดียวที่สามารถประยุกต์ใช้ได้ครอบคลุมหลายโดเมน ทั้งการเล่นเกม, การจำลอง (simulation) และการแสดงออกทางกายภาพ (physical embodiment) ในการสาธิตเมื่อเร็วๆ นี้ เอเจนต์ AI ที่ได้รับการฝึกฝนจากการเล่นเกมสามารถนำทางผ่านสภาพแวดล้อมเสมือนจริงที่ซับซ้อน โดยเข้าใจว่ากำแพงคือวัตถุที่แข็ง และเงาจะเปลี่ยนไปตามการเคลื่อนที่ของดวงอาทิตย์

สิ่งสำคัญคือ "สมอง" นี้กำลังถูกถ่ายโอนไปยังฮาร์ดแวร์โดยตรง บริษัทได้สาธิตหุ่นยนต์สี่ขาที่ใช้โมเดลเดียวกับที่ขับเคลื่อนเอเจนต์ในเกม ที่น่าสนใจคือ ทีมงานรายงานว่าใช้ข้อมูลหุ่นยนต์ในโลกแห่งความเป็นจริงเพียงแปดนาทีเท่านั้น ซึ่งเก็บรวบรวมจากถนนจริง เพื่อปรับจูน (fine-tune) โมเดลสำหรับการนำทางของหุ่นยนต์ สิ่งนี้บ่งชี้ว่างานหนักในการเรียนรู้ฟิสิกส์และการรับรู้เชิงพื้นที่นั้นถูกทำใน "ยิม" ของเกมวิดีโอ ซึ่งช่วยให้การนำไปใช้งานจริงในโลกภายนอกมีประสิทธิภาพมากขึ้นอย่างมีนัยสำคัญ

การเดิมพันมูลค่า 2.3 พันล้านดอลลาร์กับ General Agents

ขนาดของความทะเยอทะยานนี้สะท้อนให้เห็นจากมูลค่าบริษัท General Intuition เพิ่งระดมทุนได้ 320 ล้านดอลลาร์ ที่มูลค่าบริษัท 2.3 พันล้านดอลลาร์ ส่งผลให้ยอดรวมเงินทุนที่เปิดเผยทั้งหมดอยู่ที่ 454 ล้านดอลลาร์ การระดมทุนรอบนี้นำโดย Khosla Ventures โดยมีการเข้าร่วมอย่างมีนัยสำคัญจาก General Catalyst, Jeff Bezos, Eric Schmidt รวมถึงนักวิจัยจาก Google DeepMind และ MIT

เงินทุนนี้ถูกจัดสรรไว้สำหรับสองเป้าหมายหลัก ได้แก่ การขยายขีดความสามารถในการประมวลผล (compute capacity) ผ่านความร่วมมือกับ CoreWeave และการทำให้ API ของพวกเขาสามารถเข้าถึงได้กว้างขวางขึ้นภายในสิ้นฤดูร้อนนี้ สำหรับนักลงทุนอย่าง Vinod Khosla เป้าหมายไม่ใช่แค่ระบบอัตโนมัติที่ดีขึ้น แต่คือการอุบัติขึ้นของ "AI intuition" หรือสัญชาตญาณของ AI ซึ่งเป็นความสามารถที่คล้ายคลึงกับมนุษย์ในการนำทางโลกผ่านความเข้าใจ มากกว่าแค่การทำตามคำสั่งที่ถูกโปรแกรมไว้

สรุปประเด็นสำคัญ

การฝึกฝนที่ขับเคลื่อนด้วยการกระทำ (Action-Driven Training): General Intuition ใช้ "action labels" หรือป้ายกำกับการกดปุ่มจากคลิปเกมเพื่อสอนเรื่องความเป็นเหตุเป็นผล (causality) ให้กับ AI ซึ่งก้าวข้ามข้อจำกัดของการฝึกฝนด้วยวิดีโอเพียงอย่างเดียว
การจำลองที่ขยายขนาดได้ (Scalable Simulation): การใช้เกมวิดีโอเป็น "ยิม" ช่วยให้บริษัทสามารถฝึกฝนการให้เหตุผลเชิงพื้นที่และเวลาที่ซับซ้อนได้ โดยไม่ต้องเสียค่าใช้จ่ายมหาศาลในการเก็บรวบรวมข้อมูลหุ่นยนต์ในโลกแห่งความเป็นจริง
การสนับสนุนจากสถาบันยักษ์ใหญ่: ด้วยมูลค่าบริษัท 2.3 พันล้านดอลลาร์และการสนับสนุนจากบุคคลสำคัญอย่าง Jeff Bezos และ Eric Schmidt บริษัทกำลังวางตำแหน่งตัวเองเป็นผู้เล่นระดับรากฐานในยุคของ world model

General Intuition ใช้เกมวิดีโอในการสร้าง AI สำหรับโลกแห่งความเป็นจริงได้อย่างไร

General Intuition กำลังใช้เกมวิดีโอเพื่อสร้าง AI สำหรับโลกแห่งความเป็นจริงอย่างไร

พลังของป้ายกำกับการกระทำ (Action Labels) และการให้เหตุผลเชิงพื้นที่และเวลา (Spatial-Temporal Reasoning)

จาก Fortnite สู่หุ่นยนต์สี่ขา

การเดิมพันมูลค่า 2.3 พันล้านดอลลาร์กับ General Agents

สรุปประเด็นสำคัญ

Continue reading

Amazon, Nvidia และ AMD ทุ่มเงิน 310 ล้านดอลลาร์ในโมเดลโลก 3 มิติของ Odyssey ML

General Intuition ตั้งเป้ามูลค่าบริษัทที่ 2 พันล้านดอลลาร์ ในการระดมทุนครั้งใหญ่มูลค่า 300 ล้านดอลลาร์

General Intuition ระดมทุนได้ 320 ล้านดอลลาร์ เพื่อเปลี่ยนข้อมูลจากวิดีโอเกมให้กลายเป็น AI ในโลกแห่งความเป็นจริง

How Enterprises Use Generative AI Beyond Chatbots

วิธีที่องค์กรต่างๆ นำ Generative AI ไปใช้ในด้านอื่นๆ ที่นอกเหนือจากแชทบอท