𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗳𝗼𝗿 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜

Translated for your language. Read the original.

AI-assisted draft.

2 สัปดาห์ที่ผ่านมา1min read

การฝึกฝนหุ่นยนต์เคยเป็นเรื่องยาก คุณต้องใช้โมเดลแยกกันหลายตัว ตัวหนึ่งสำหรับ vision ตัวหนึ่งสำหรับ planning และอีกตัวสำหรับการเคลื่อนที่ โมเดลเหล่านี้มักเกิดข้อผิดพลาดเมื่อมีการส่งต่อข้อมูลกัน

NVIDIA Cosmos 3 เข้ามาแก้ปัญหานี้ มันคือโมเดลเดียวที่ทำได้ทุกอย่าง มันจัดการทั้งการใช้เหตุผล (reasoning) และการลงมือทำ (action) ไปพร้อมกัน

ระบบนี้ใช้โครงสร้างแบบสองหอคอย (two towers)

Reasoner tower ทำหน้าที่ทำความเข้าใจฉาก มันวิเคราะห์ทั้งภาพและวิดีโอ มันระบุตำแหน่งของวัตถุและการเคลื่อนไหว

Generator tower ทำหน้าที่สร้างผลลัพธ์ มันสร้างวิดีโอหรือการเคลื่อนที่ของหุ่นยนต์ มันต้องใช้บริบท (context) จาก reasoner เพื่อทำงาน

ทั้งสองหอคอยใช้ระบบการเข้ารหัสแบบ 3D ร่วมกัน สิ่งนี้ช่วยให้โมเดลปฏิบัติตามกฎทางฟิสิกส์ได้ มันเข้าใจเรื่องน้ำหนักและความเสียดทาน

มี 3 ขนาด:

Nano: สำหรับเวิร์กสเตชัน (workstations)
Super: สำหรับดาต้าเซ็นเตอร์ (datacenters)
Edge: สำหรับรถยนต์และโดรน

กรณีการใช้งาน:

ทำนายว่ากองบล็อกจะล้มหรือไม่
สร้างข้อมูลสำหรับฝึกฝนแบบสังเคราะห์ (synthetic training data)
สร้างคำสั่งมอเตอร์ของหุ่นยนต์

Weights และโค้ดมีให้ใช้งานบน GitHub และ Hugging Face

ยังมีข้อจำกัดอยู่ มันต้องใช้พลังงานสูงมาก ความเร็วแบบเรียลไทม์ยังคงเป็นเรื่องยาก

มันเข้ามาแทนที่ pipeline ที่ยุ่งเหยิงด้วยโครงสร้างพื้นฐานที่สะอาดและเป็นระเบียบ

แหล่งที่มา: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f ชุมชนแห่งการเรียนรู้เพิ่มเติม: https://t.me/GyaanSetuAi

𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗳𝗼𝗿 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜

Continue reading

การใช้เหตุผลของ AI ในฐานะจุดสมดุล

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

𝗡𝘃𝗶𝗱𝗶𝗮 𝗟𝗮𝘂𝗻𝗰𝗵𝗲𝘀 𝗡𝗲𝘄 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜 𝗧𝗼𝗼𝗹𝘀

𝗙𝗿𝗼𝗺 𝗖𝗵𝗮𝗼𝘀 𝘁𝗼 𝗖𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆: 𝗗𝗼𝗰𝗸𝗲𝗿 𝗳𝗼𝗿 𝗔𝗜 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗡𝗩𝗜𝗗𝗜𝗔 𝗕𝗿𝗶𝗻𝗴𝘀 𝗔𝗜 𝗜𝗻𝘁𝗼 𝗧𝗵𝗲 𝗥𝗲𝗮𝗹 𝗪𝗼𝗿𝗹𝗱