𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗳𝗼𝗿 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜
การฝึกฝนหุ่นยนต์เคยเป็นเรื่องยาก คุณต้องใช้โมเดลแยกกันหลายตัว ตัวหนึ่งสำหรับ vision ตัวหนึ่งสำหรับ planning และอีกตัวสำหรับการเคลื่อนที่ โมเดลเหล่านี้มักเกิดข้อผิดพลาดเมื่อมีการส่งต่อข้อมูลกัน
NVIDIA Cosmos 3 เข้ามาแก้ปัญหานี้ มันคือโมเดลเดียวที่ทำได้ทุกอย่าง มันจัดการทั้งการใช้เหตุผล (reasoning) และการลงมือทำ (action) ไปพร้อมกัน
ระบบนี้ใช้โครงสร้างแบบสองหอคอย (two towers)
Reasoner tower ทำหน้าที่ทำความเข้าใจฉาก มันวิเคราะห์ทั้งภาพและวิดีโอ มันระบุตำแหน่งของวัตถุและการเคลื่อนไหว
Generator tower ทำหน้าที่สร้างผลลัพธ์ มันสร้างวิดีโอหรือการเคลื่อนที่ของหุ่นยนต์ มันต้องใช้บริบท (context) จาก reasoner เพื่อทำงาน
ทั้งสองหอคอยใช้ระบบการเข้ารหัสแบบ 3D ร่วมกัน สิ่งนี้ช่วยให้โมเดลปฏิบัติตามกฎทางฟิสิกส์ได้ มันเข้าใจเรื่องน้ำหนักและความเสียดทาน
มี 3 ขนาด:
- Nano: สำหรับเวิร์กสเตชัน (workstations)
- Super: สำหรับดาต้าเซ็นเตอร์ (datacenters)
- Edge: สำหรับรถยนต์และโดรน
กรณีการใช้งาน:
- ทำนายว่ากองบล็อกจะล้มหรือไม่
- สร้างข้อมูลสำหรับฝึกฝนแบบสังเคราะห์ (synthetic training data)
- สร้างคำสั่งมอเตอร์ของหุ่นยนต์
Weights และโค้ดมีให้ใช้งานบน GitHub และ Hugging Face
ยังมีข้อจำกัดอยู่ มันต้องใช้พลังงานสูงมาก ความเร็วแบบเรียลไทม์ยังคงเป็นเรื่องยาก
มันเข้ามาแทนที่ pipeline ที่ยุ่งเหยิงด้วยโครงสร้างพื้นฐานที่สะอาดและเป็นระเบียบ
แหล่งที่มา: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi