𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗔 𝗡𝗲𝘄 𝗪𝗮𝘆 𝗳𝗼𝗿 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜

Translated for your language. Read the original.

AI-assisted draft.

2주 전1min read

𝗡𝗩𝗜𝗗𝗜𝗔 𝗖𝗼𝘀𝗺𝗼𝘀 𝟯: 𝗣𝗵𝘆𝘀𝗶𝗰𝗮𝗹 𝗔𝗜를 위한 새로운 방식

로봇 학습은 과거에 매우 어려웠습니다. 여러 개의 별도 모델을 사용해야 했기 때문입니다. 시각용, 계획용, 움직임용 모델이 각각 따로 있었습니다. 이 모델들은 데이터를 전달하는 과정에서 오류를 범하곤 했습니다.

NVIDIA Cosmos 3는 이 문제를 해결합니다. 모든 것을 처리하는 단일 모델입니다. 추론(reasoning)과 행동(action)을 동시에 처리합니다.

이 시스템은 두 개의 타워(tower)를 사용합니다.

Reasoner 타워는 장면을 이해합니다. 이미지와 비디오를 분석합니다. 물체의 위치와 움직임을 찾아냅니다.

Generator 타워는 결과물을 생성합니다. 비디오나 로봇의 움직임을 만들어냅니다. 실행을 위해 Reasoner의 문맥(context) 정보가 필요합니다.

두 타워는 3D 인코딩 시스템을 공유합니다. 이를 통해 모델이 물리 법칙을 따를 수 있도록 돕습니다. 무게와 마찰력 등을 인지합니다.

세 가지 크기가 있습니다:

활용 사례:

가중치(Weights)와 코드는 GitHub 및 Hugging Face에 공개되어 있습니다.

한계점도 있습니다. 많은 전력이 필요합니다. 실시간 속도를 구현하는 것은 여전히 어려운 과제입니다.

복잡했던 파이프라인을 깔끔한 기반 시스템으로 대체합니다.

Continue reading