𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗠Ộ𝗧 𝗣𝗛ƯƠ𝗡𝗚 𝗧𝗛Ứ𝗖 𝗠Ớ𝗜 𝗖𝗛𝗢 𝗣𝗛𝗬𝗦𝗜𝗖𝗔𝗟 𝗔𝗜
Việc huấn luyện robot từng rất khó khăn. Bạn phải sử dụng nhiều mô hình riêng biệt. Một mô hình cho thị giác. Một cho lập kế hoạch. Một cho chuyển động. Các mô hình này thường mắc lỗi khi truyền dữ liệu cho nhau.
NVIDIA Cosmos 3 khắc phục điều này. Nó là một mô hình duy nhất cho mọi thứ. Nó xử lý cả khả năng lập luận và hành động cùng lúc.
Hệ thống sử dụng cấu trúc hai tháp (two towers).
Tháp Reasoner hiểu được bối cảnh. Nó quan sát hình ảnh và video. Nó xác định vị trí và chuyển động của vật thể.
Tháp Generator tạo ra đầu ra. Nó tạo ra video hoặc các chuyển động của robot. Nó cần ngữ cảnh từ tháp Reasoner để hoạt động.
Cả hai tháp đều chia sẻ một hệ thống mã hóa 3D. Điều này giúp mô hình tuân thủ các quy luật vật lý. Nó hiểu về trọng lượng và ma sát.
Có ba kích thước:
- Nano: Dành cho các trạm làm việc (workstations).
- Super: Dành cho các trung tâm dữ liệu (datacenters).
- Edge: Dành cho ô tô và máy bay không người lái (drones).
Các trường hợp sử dụng:
- Dự đoán xem một chồng khối có bị đổ hay không.
- Tạo dữ liệu huấn luyện tổng hợp.
- Tạo các lệnh điều khiển động cơ robot.
Trọng số và mã nguồn có trên GitHub và Hugging Face.
Vẫn còn những hạn chế. Nó đòi hỏi rất nhiều năng lượng. Tốc độ thời gian thực vẫn còn là một thách thức.
Nó thay thế các quy trình (pipelines) phức tạp bằng một nền tảng tinh gọn.
Source: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f Optional learning community: https://t.me/GyaanSetuAi