𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜를 위한 새로운 방식

로봇 학습은 과거에 매우 어려웠습니다. 여러 개의 별도 모델을 사용해야 했기 때문입니다. 시각용, 계획용, 움직임용 모델이 각각 따로 있었습니다. 이 모델들은 데이터를 전달하는 과정에서 오류를 범하곤 했습니다.

NVIDIA Cosmos 3는 이 문제를 해결합니다. 모든 것을 처리하는 단일 모델입니다. 추론(reasoning)과 행동(action)을 동시에 처리합니다.

이 시스템은 두 개의 타워(tower)를 사용합니다.

Reasoner 타워는 장면을 이해합니다. 이미지와 비디오를 분석합니다. 물체의 위치와 움직임을 찾아냅니다.

Generator 타워는 결과물을 생성합니다. 비디오나 로봇의 움직임을 만들어냅니다. 실행을 위해 Reasoner의 문맥(context) 정보가 필요합니다.

두 타워는 3D 인코딩 시스템을 공유합니다. 이를 통해 모델이 물리 법칙을 따를 수 있도록 돕습니다. 무게와 마찰력 등을 인지합니다.

세 가지 크기가 있습니다:

  • Nano: 워크스테이션용.
  • Super: 데이터 센터용.
  • Edge: 자동차 및 드론용.

활용 사례:

  • 쌓여 있는 블록이 쓰러질지 예측.
  • 합성 학습 데이터 생성.
  • 로봇 모터 명령 생성.

가중치(Weights)와 코드는 GitHub 및 Hugging Face에 공개되어 있습니다.

한계점도 있습니다. 많은 전력이 필요합니다. 실시간 속도를 구현하는 것은 여전히 어려운 과제입니다.

복잡했던 파이프라인을 깔끔한 기반 시스템으로 대체합니다.

출처: https://dev.to/prabhakar_chaudhary_7afe4/nvidia-cosmos-3-unifying-physical-ai-reasoning-and-generation-with-two-tower-architecture-2j3f 선택 사항 학습 커뮤니티: https://t.me/GyaanSetuAi