𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗳𝗼𝗿 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜

การฝึกฝนหุ่นยนต์เคยเป็นเรื่องยาก คุณต้องใช้โมเดลแยกกันหลายตัว ตัวหนึ่งสำหรับ vision ตัวหนึ่งสำหรับ planning และอีกตัวสำหรับการเคลื่อนที่ โมเดลเหล่านี้มักเกิดข้อผิดพลาดเมื่อมีการส่งต่อข้อมูลกัน

NVIDIA Cosmos 3 เข้ามาแก้ปัญหานี้ มันคือโมเดลเดียวที่ทำได้ทุกอย่าง มันจัดการทั้งการใช้เหตุผล (reasoning) และการลงมือทำ (action) ไปพร้อมกัน

ระบบนี้ใช้โครงสร้างแบบสองหอคอย (two towers)

Reasoner tower ทำหน้าที่ทำความเข้าใจฉาก มันวิเคราะห์ทั้งภาพและวิดีโอ มันระบุตำแหน่งของวัตถุและการเคลื่อนไหว

Generator tower ทำหน้าที่สร้างผลลัพธ์ มันสร้างวิดีโอหรือการเคลื่อนที่ของหุ่นยนต์ มันต้องใช้บริบท (context) จาก reasoner เพื่อทำงาน

ทั้งสองหอคอยใช้ระบบการเข้ารหัสแบบ 3D ร่วมกัน สิ่งนี้ช่วยให้โมเดลปฏิบัติตามกฎทางฟิสิกส์ได้ มันเข้าใจเรื่องน้ำหนักและความเสียดทาน

มี 3 ขนาด:

  • Nano: สำหรับเวิร์กสเตชัน (workstations)
  • Super: สำหรับดาต้าเซ็นเตอร์ (datacenters)
  • Edge: สำหรับรถยนต์และโดรน

กรณีการใช้งาน:

  • ทำนายว่ากองบล็อกจะล้มหรือไม่
  • สร้างข้อมูลสำหรับฝึกฝนแบบสังเคราะห์ (synthetic training data)
  • สร้างคำสั่งมอเตอร์ของหุ่นยนต์

Weights และโค้ดมีให้ใช้งานบน GitHub และ Hugging Face

ยังมีข้อจำกัดอยู่ มันต้องใช้พลังงานสูงมาก ความเร็วแบบเรียลไทม์ยังคงเป็นเรื่องยาก

มันเข้ามาแทนที่ pipeline ที่ยุ่งเหยิงด้วยโครงสร้างพื้นฐานที่สะอาดและเป็นระเบียบ

แหล่งที่มา: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi