연구중요도 높음 8.0

TD 학습 없이 RL

RL without TD learning

Berkeley AI Research·2025년 11월 1일 PM 06:00·약 4분 읽기·13회 조회

핵심 요약

▸전통적인 TD 학습 대신 '분할 정복' 접근법을 기반으로 한 RL 알고리즘을 제시합니다.
▸이 알고리즘은 장기적인 태스크에 잘 확장되며, off-policy RL에서의 오류 누적 문제를 해결합니다.
▸TRL(Transitive RL)이라는 새로운 알고리즘은 기존 TD-n 방법보다 더 나은 성능을 보입니다.
▸장기적인 작업을 처리하는 RL 알고리즘 개선에 관심 있는 개발자에게 유용합니다.

심층 분석

강화학습(RL)에서 가치 함수를 학습하는 전통적인 두 패러다임은 시간차 학습(TD learning)과 몬테카를로(MC) 방법이다. TD 학습은 벨만 방정식의 부트스트래핑을 통해 현재 상태의 가치를 다음 상태의 가치로부터 추정하는데, 이 과정에서 오차가 전체 호라이즌에 걸쳐 누적되어 장기 과제에서 스케일링이 어렵다는 근본적 한계가 있다. MC 방법은 실제 리턴을 사용해 이 문제를 우회하지만 높은 분산과 차선 결과를 초래한다. n-step TD는 둘의 절충안이지만 벨만 재귀를 상수 배만큼 줄일 뿐이며, n이라는 하이퍼파라미터를 과제마다 튜닝해야 하는 부담이 남는다. 이번에 소개된 Transitive RL(TRL)은 '분할 정복(Divide and Conquer)'이라는 제3의 패러다임을 제안한다. 궤적을 두 개의 동일한 세그먼트로 나누고, 각 세그먼트의 가치를 결합해 전체 궤적의 가치를 갱신하는 방식으로, 벨만 재귀 횟수를 선형이 아닌 로그 스케일로 줄인다. 목표 조건부 RL(goal-conditioned RL)에서 두 상태 간 최단 경로 거리가 삼각 부등식을 만족한다는 성질을 활용하여, 최적 중간 지점(subgoal)을 통해 재귀적으로 가치를 분해하는 구조를 설계했다.

실제 구현에서 가장 큰 난관은 연속 상태 공간에서 최적 서브골 w를 어떻게 선택하느냐였다. 테이블 환경에서는 플로이드-워셜 알고리즘처럼 모든 상태를 열거할 수 있지만, 대규모 환경에서는 불가능하다. TRL은 탐색 범위를 데이터셋 궤적 내에서 시작 상태 s와 목표 상태 g 사이에 실제로 등장하는 상태들로 제한하고, argmax 대신 expectile regression을 사용한 소프트 argmax로 대체함으로써 가치 과대추정 문제까지 동시에 해결했다. OGBench의 humanoidmaze, puzzle 등 최고 난이도 과제(최대 3,000 환경 스텝)에서 TD, MC, 준거리 학습(quasimetric learning) 등 다양한 베이스라인을 능가했으며, 특히 n-step TD의 모든 n 값 중 최적으로 튜닝된 결과와 동등한 성능을 하이퍼파라미터 n 없이 달성했다.

개발자와 엔지니어에게 이 연구가 시사하는 바는 크다. 로보틱스, 대화 시스템, 헬스케어 등 데이터 수집 비용이 높아 off-policy RL이 필수적인 도메인에서, 기존 TD 기반 알고리즘의 장기 호라이즌 스케일링 문제는 실용화의 핵심 병목이었다. TRL의 분할 정복 접근은 이 병목을 로그 스케일로 완화하면서도 추가 하이퍼파라미터 튜닝 부담을 줄여, 실무 적용 가능성을 한 단계 높였다. 현재 PPO나 GRPO 같은 on-policy 방법이 LLM 파인튜닝 등에서 주류이지만, 오프라인 데이터 활용이 중요해지는 추세에서 off-policy RL의 발전은 곧 실무 파이프라인의 변화로 이어질 수 있다.

다만 현재 TRL은 결정론적 환경과 목표 조건부 RL이라는 제약 조건 하에서 검증되었으므로, 일반적인 보상 기반 RL 과제나 확률적 환경으로의 확장은 아직 열린 문제다. 개발자들이 주목해야 할 점은 세 가지다. 첫째, 분할 정복 패러다임 자체가 shortcut model, log-linear attention 등 다른 분야에서도 동시다발적으로 효과를 입증하고 있어 재귀적 문제 분해 사고방식이 점점 중요해지고 있다는 것이다. 둘째, off-policy RL 연구가 성숙하면 기존에 버려지던 과거 데이터와 인간 시연 데이터를 효율적으로 재활용할 수 있게 되어, 데이터 효율성이 극적으로 개선될 수 있다. 셋째, OGBench 같은 표준 벤치마크에서의 결과를 추적하며, 자신의 도메인에 off-policy RL 적용이 실용적 수준에 도달했는지를 주기적으로 평가해볼 필요가 있다.

#RL#분할 정복#off-policy#TRL#강화학습

원문 보기 →

TD 학습 없이 RL

핵심 요약

심층 분석

관련 기사