NVIDIA Cosmos 3: Новый подход к Physical AI
Обучение роботов раньше было сложным процессом. Приходилось использовать множество отдельных моделей. Одну для зрения. Одну для планирования. Одну для движения. Эти модели допускали ошибки при передаче данных.
NVIDIA Cosmos 3 решает эту проблему. Это единая модель для всего. Она объединяет рассуждение и действие.
Система использует две башни (towers).
Башня Reasoner понимает сцену. Она анализирует изображения и видео. Она определяет положение объектов и их движение.
Башня Generator создает результат. Она генерирует видео или команды для движения робота. Для работы ей необходим контекст от Reasoner.
Обе башни используют общую систему 3D-кодирования. Это помогает модели соблюдать законы физики. Она учитывает вес и трение.
Существует три размера:
- Nano: для рабочих станций.
- Super: для дата-центров.
- Edge: для автомобилей и дронов.
Варианты использования:
- Прогнозирование падения стопки блоков.
- Создание синтетических данных для обучения.
- Генерация команд для двигателей робота.
Веса и код доступны на GitHub и Hugging Face.
Есть и ограничения. Она требует больших вычислительных мощностей. Работа в режиме реального времени всё еще остается сложной задачей.
Она заменяет запутанные пайплайны единой чистой базой.
Source: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f Optional learning community: https://t.me/GyaanSetuAi