로봇중요도 높음 8.0

로라/도라를 활용한 NVIDIA 코스모스 프리디كت 2.5 미세튜닝으로 로봇 비디오 생성

Fine-Tuning NVIDIA Cosmos Predict 2.5 with LoRA/DoRA for Robot Video Generation

HuggingFace Blog·2026년 5월 19일 AM 01:00·약 3분 읽기·3회 조회

핵심 요약

▸NVIDIA 코스모스 프리디كت 2.5 모델을 로라/도라 기법으로 미세튜닝하여 로봇 비디오 생성에 활용
▸이 기법은 모델의 성능을 향상시키면서도 자원 소비를 줄이는 데 효과적
▸로봇 비디오 생성 분야에서 새로운 기술적 접근 방식 제시
▸이 기법은 로봇 비디오 생성을 위한 효율적인 모델 튜닝 방안을 제공합니다.

심층 분석

NVIDIA Cosmos Predict 2.5는 물리 세계의 동역학을 학습한 World Foundation Model(WFM) 계열로, 텍스트·이미지·비디오 입력을 받아 미래 프레임을 예측하는 비디오 생성 모델이다. 로봇 분야에서는 이를 통해 실제 하드웨어 없이도 다양한 조작 시나리오의 합성 비디오 데이터를 대량 생성할 수 있어, 정책 학습용 데이터 부족 문제를 완화한다. 다만 수십억 파라미터 규모의 베이스 모델을 특정 로봇 플랫폼이나 작업 도메인(예: 특정 그리퍼, 조명 조건, 공장 라인)에 맞게 전체 파인튜닝하는 것은 GPU 메모리와 학습 비용 측면에서 매우 부담스럽다. 여기에 LoRA(Low-Rank Adaptation)와 DoRA(Weight-Decomposed Low-Rank Adaptation)가 도입되는데, LoRA는 기존 가중치를 동결하고 저차원 행렬 두 개만 학습해 학습 파라미터 수를 1% 미만으로 줄이고, DoRA는 가중치를 크기(magnitude)와 방향(direction)으로 분해해 방향 성분에만 LoRA를 적용함으로써 풀 파인튜닝에 더 가까운 품질을 얻으면서도 효율성을 유지한다.

엔지니어 관점에서 가장 큰 임팩트는 "도메인 특화 시뮬레이션 데이터 파이프라인"을 합리적인 비용으로 구축할 수 있다는 점이다. 기존에는 sim-to-real 갭을 줄이기 위해 Isaac Sim 같은 물리 시뮬레이터에서 도메인 랜덤화를 적용해 데이터를 생성해왔지만, 시뮬레이션 환경 구축 자체에 상당한 엔지니어링 비용이 들고 실제 카메라 노이즈·재질감을 재현하기 어려웠다. Cosmos Predict 2.5를 LoRA/DoRA로 파인튜닝하면 자사 로봇이 실제로 촬영한 소량의 시연 영상만으로도 해당 환경의 시각적·물리적 특성을 모델에 주입할 수 있고, 결과적으로 VLA(Vision-Language-Action) 모델이나 강화학습 정책의 사전학습 데이터로 활용 가능하다. 단일 H100 또는 A100급 GPU에서도 어댑터 학습이 가능하다는 점은 스타트업이나 개별 연구 그룹에게도 진입 장벽을 크게 낮춘다.

개발자가 실무에 적용할 때 챙겨야 할 포인트가 몇 가지 있다. 첫째, Cosmos 모델은 NVIDIA의 라이선스 정책(오픈 모델 라이선스)을 따르므로 상용 배포 전에 사용 조건과 출력물 가드레일(Cosmos Guardrails) 적용 여부를 반드시 검토해야 한다. 둘째, LoRA/DoRA의 핵심 하이퍼파라미터인 rank(r), alpha, target modules 설정이 비디오 디퓨전 모델의 어텐션·크로스어텐션 레이어 어디에 붙는지에 따라 결과 품질이 크게 달라지므로, NVIDIA가 공개하는 레시피(보통 NeMo Framework 또는 PEFT 기반)를 출발점으로 삼고 자체 데이터셋 규모에 맞춰 점진적으로 튜닝하는 것이 좋다. 셋째, 생성된 합성 비디오를 다운스트림 정책 학습에 그대로 쓰기 전에 시각적 사실성뿐 아니라 물리적 일관성(객체 관통, 중력, 마찰)에 대한 평가 지표를 별도로 마련해야 하며, 실제 로봇 검증 루프와 결합해야 sim-to-real 격차로 인한 실패를 줄일 수 있다. 마지막으로 DoRA는 LoRA 대비 학습 시간이 10~20% 늘어나지만 동일 rank에서 더 높은 표현력을 보이는 경우가 많으므로, 데이터가 적고 도메인 시프트가 큰 로봇 시나리오에서는 DoRA를 우선 실험해볼 가치가 있다.

#NVIDIA#로라#도라#비디오 생성#로봇

원문 보기 →

로라/도라를 활용한 NVIDIA 코스모스 프리디كت 2.5 미세튜닝으로 로봇 비디오 생성

핵심 요약

심층 분석

관련 기사