월드 모델을 위한 렬 확률적 기울기 기반 계획
Gradient-based Planning for World Models at Longer Horizons
핵심 요약
- ▸GRASP는 월드 모델의 장기 계획을 위한 새로운 알고리즘으로, 상태 기울기의 취약성을 피하고 행동 기울기를 활용합니다.
- ▸GRASP는 상태 노이즈를 추가하여 탐사를 촉진하고, 주기적으로 실제 경로와 동기화하여 안정성을 높입니다.
- ▸실험 결과, GRASP는 장기 계획에서 성공률과 속도 모두에서 우수한 성능을 보입니다.
- ▸GRASP는 월드 모델의 장기 계획을 개선하고, 개발자들이 복잡한 시스템에서 더 효율적인 계획을 구현할 수 있도록 도와줍니다.
심층 분석
GRASP(Gradient RelAxed Stochastic Planner)는 학습된 월드 모델(world model)을 기반으로 장기 지평선(long-horizon) 계획 수립이라는 난제를 해결하기 위해 Meta FAIR와 버클리 연구진이 제안한 경사 기반 플래너입니다. 기존의 경사 기반 계획은 T스텝 롤아웃을 직렬로 미분하면서 야코비안(Jacobian)의 곱이 시간에 따라 지수적으로 폭발하거나 소실되고, 그리디 해로부터 벗어나야 하는 비그리디(non-greedy) 경로에서 지역 최소값(local minima)에 빠지는 문제가 있었습니다. GRASP는 첫째로 동역학 제약을 소프트 페널티로 완화해 상태와 액션을 동시에 최적화하는 collocation 기법을 적용, T개의 모델 평가를 시간축으로 병렬화하고 긴 야코비안 체인을 합(sum)으로 분해합니다. 둘째로 상태 이터레이트에 가우시안 노이즈를 주입해 국소 최소값 사이를 탐색(exploration)하게 하고, 셋째로 딥러닝 월드 모델의 상태 입력 야코비안 $D_s F_\theta$가 적대적 예제(adversarial example) 방향으로 극도로 민감한 문제—"딤플드 매니폴드(dimpled manifold)" 현상—를 피하기 위해 상태 입력에 대한 경사를 정지(stop-gradient)시키고 저차원으로 잘 훈련된 액션 경사 $D_a F_\theta$만을 활용합니다. 여기에 덴스 목표 항(dense goal term)을 추가하고 $K_{\text{sync}}$ 주기마다 실제 롤아웃으로 동기화하는 하이브리드 구조로 이론적 타당성도 확보했습니다.
실험적으로 Push-T 태스크에서 H=60 이상 지평선에서 GRASP는 CEM, 일반 경사 하강, LatCo 대비 성공률이 2~8배 높으면서도 수렴 시간은 1/2~1/10 수준으로 단축됩니다. 특히 H=80에서 GRASP가 10.4% 성공률을 58.9초에 달성하는 동안 LatCo는 0%에 머무는 점이 주목할 만합니다. 로봇 제어, 자율주행 시뮬레이션, 게임 AI, 강화학습 정책 초기화 등 "학습된 시뮬레이터 위에서 행동을 결정"해야 하는 모든 도메인에 즉시 적용 가능한 성과이며, 특히 확산 기반(diffusion-based) 월드 모델과의 결합 가능성이 언급되어 있어 최근 Genie, Sora, V-JEPA 계열 모델을 활용하는 엔지니어에게 실무적 함의가 큽니다. 무엇보다 월드 모델이 "예측 가능"하다는 것과 "제어에 활용 가능"하다는 것이 별개의 문제라는 본질적 통찰을 제공하며, 모델 성능과 적대적 강건성 사이의 트레이드오프가 딥러닝 패러다임이 근본적으로 바뀌기 전까지 우회해야 할 제약임을 분명히 보여줍니다.
한국의 개발자·엔지니어라면 우선 자신이 다루는 문제가 진정 "장기 지평선" 계획인지 재평가할 필요가 있습니다. 짧은 지평선에서는 그리디 MPC나 CEM이 여전히 충분하지만, 20스텝을 넘어가는 순간 기존 직렬 플래너는 급격히 실패하므로 collocation 기반 접근을 검토해야 합니다. 구현 관점에서 핵심 체크리스트는 (1) 월드 모델 학습 시 액션 공간이 데이터에서 충분히 조밀하게 커버되는지, (2) 상태 야코비안에 의존하는 최적화 루프가 있다면 stop-gradient로 차단하고 액션 경사만 신뢰하도록 리팩터링할 수 있는지, (3) 탐색을 위한 노이즈를 상태에 주입하되 액션에는 결정론적 업데이트를 유지하는 구조인지 검토하는 것입니다. 또한 보안·안정성 관점에서 월드 모델의 상태 입력이 적대적 공격에 취약하다는 점은 단순 계획을 넘어 모델 기반 에이전트의 견고성 평가에도 시사점을 줍니다.
프로젝트 페이지와 arXiv 2602.00475 논문을 통해 코드를 확인한 뒤, 기존 RL/MPC 파이프라인에 collocation+stop-gradient를 선택적으로 삽입하는 작은 프로토타입부터 시작하는 것을 권장합니다. 저자들이 후속 과제로 언급한 확산 월드 모델 연동, 폐루프 제어 통합, RL 정책 학습 초기화 등은 당장 오픈소스 기여나 응용 연구 주제로도 매력적이며, "배경 이론(제어·계획)은 성숙했지만 현대 대규모 월드 모델 위에서의 계획 최적화는 아직 미개척"이라는 저자의 진단은 이 분야가 향후 수년간 실무·연구 양쪽에서 빠르게 확장될 영역임을 암시합니다. RL이 보편화된 것처럼 월드 모델 플래너도 곧 표준 도구가 될 가능성이 높으므로, 지금 기초 개념과 수치 실험을 확보해 두는 것이 전략적으로 유효한 투자라 판단됩니다.
관련 기사
사카나 AI, 스스로 개선하는 AI로 프레인터 랩스의 계산 경쟁을 끝내겠다
The Decoder · 1일 전
저품질 RL 환경 배포 중단 방법 (예시 포함)
Latent Space · 2일 전
튜링상 수상자 리처드 스UTTON, 순수 생성형 AI가 진정한 과학을 할 수 없다고 말한다
The Decoder · 6일 전
AI 챗봇을 유용하게 만드는 것이 인간 행동을 시뮬레이션하는 능력을 약화시킨다는 대규모 연구 결과
The Decoder · 2026년 5월 30일 PM 09:44
🔬ESMFold2: 단백질에 대한 苦 lesson이 다가오고 있다 - 알렉스 라이브스, BioHub
Latent Space · 2026년 5월 28일 AM 02:46