다이몬 로보틱스, 로봇 손에 감각을 부여하려는 계획
DAIMON Robotics Wants to Give Robot Hands a Sense of Touch
핵심 요약
- ▸다이몬 로보틱스는 Daimon-Infinity라는 세계 최대 규모의 물리 AI 다모달 데이터셋을 발표하며, 고해상도 터치 센싱 기술을 강조했습니다.
- ▸터치 센싱 기술을 기반으로 한 VTLA(시각-터치-언어-행동) 아키텍처는 로봇의 조작 능력을 향상시키는 데 중요한 역할을 합니다.
- ▸데이터셋은 10,000시간의 오픈소스 데이터를 포함하며, 로봇 기술의 발전을 가속화하고자 합니다.
- ▸터치 센싱 기술은 로봇의 물리적 상호작용을 이해하고, 실제 환경에서 더 정교한 조작을 가능하게 합니다.
심층 분석
DAIMON Robotics가 공개한 Daimon-Infinity 데이터셋과 VTLA(Vision-Tactile-Language-Action) 아키텍처는 로봇 조작(manipulation) 분야의 핵심 병목인 "촉각 데이터 부재" 문제를 정면으로 겨냥한다. 기존 VLA 모델은 카메라 영상과 자연어 명령을 액션으로 매핑하지만, 미끄러짐 감지나 정밀한 힘 제어가 필요한 작업(계란 집기, 어두운 환경에서 물체 위치 파악, 좁은 선반에서 물건 꺼내기 등)에서는 실패한다. DAIMON의 단색(monochromatic) 비전 기반 촉각 센서는 손가락 끝 모듈 안에 11만 개 이상의 유효 센싱 유닛을 집적하고, 표면 변형을 시계열 이미지로 캡처해 접촉력·마찰·재질·텍스처를 추론한다. 핵심은 촉각 데이터를 "이미지" 형태로 표현했다는 점이다 — 이로써 기존 비전 트랜스포머 기반 VLA 파이프라인에 별도 임베딩 모듈 없이 자연스럽게 끼워 넣을 수 있고, 픽셀 레벨 고해상도 촉각 신호가 비전·언어·모션 궤적과 함께 멀티모달로 융합된다. 또한 중앙집중식 데이터 팩토리가 아닌 분산형 out-of-lab 수집 네트워크로 연 수백만 시간 규모의 실세계 상호작용 데이터를 확보하고, 그중 1만 시간을 오픈소스로 공개했다.
엔지니어 입장에서 의미 있는 변화는 "physical AI" 학습용 공개 데이터의 질적 전환이다. 그동안 로봇 조작 학습은 시뮬레이터 합성 데이터나 RGB-D 영상 위주의 데이터셋(예: Open X-Embodiment)에 의존해왔는데, 실제 접촉 물리량(deformation, slip, friction)을 픽셀 단위로 라벨링한 대규모 데이터셋은 사실상 없었다. Google DeepMind, NUS, Northwestern 등이 파트너로 참여했다는 점은 학계·산업계가 VTLA를 실제 차세대 표준 후보로 보고 있다는 시그널이며, 휴머노이드 로봇 회사들도 자사 모델에 촉각 모달리티를 통합하기 시작했다는 인터뷰 내용은 곧 상용 SDK·파운데이션 모델 레벨에서 촉각 입력 채널이 1급 시민이 될 가능성을 시사한다. 단기적으로는 호텔 배송 로봇, 편의점·심야 약국 픽업 로봇처럼 "좁은 도메인 + 정밀 파지"가 핵심인 수직 시장이 첫 대규모 배포 영역으로 지목됐고, 자율주행이 로보택시 이전에 호텔 딜리버리 봇으로 먼저 자리잡은 패턴을 따를 것으로 예상된다.
한국 개발자가 당장 취할 액션은 세 가지다. 첫째, Daimon-Infinity의 1만 시간 오픈소스 데이터를 자신의 조작 정책 학습에 fine-tuning 데이터로 활용해보는 것이다 — 특히 imitation learning, diffusion policy, RT-2 계열 VLA를 다루고 있다면 촉각 채널 추가가 fragile object handling 실패율을 얼마나 낮추는지 ablation으로 검증할 가치가 있다. 둘째, 자체 모델 아키텍처를 설계 중이라면 처음부터 촉각을 "추가 센서"가 아닌 비전과 동등한 모달리티로 설계해야 한다. DAIMON 방식처럼 촉각을 이미지 텐서로 표현하면 기존 ViT/CLIP 백본을 거의 그대로 재사용할 수 있어 통합 비용이 낮다. 셋째, 데이터 수집 파이프라인이 있는 팀이라면 "vertical integration(3D: Devices-Data-Deployment)" 전략을 주목해야 한다. 단일 컴포넌트가 아니라 디바이스–데이터–배포의 폐루프를 갖춘 회사가 경쟁력을 가진다는 것이 DAIMON의 결론이며, 이는 한국의 로봇 스타트업·대기업 R&D 조직이 SI/협업 구조를 재설계할 때 참고할 만한 프레임워크다. 마지막으로, VLA → VTLA 전환이 표준이 되면 시뮬레이터(Isaac Sim, MuJoCo) 기반 학습 인프라도 촉각 시뮬레이션(예: TACTO, Taxim) 통합이 필수가 되므로, 관련 sim-to-real 파이프라인을 미리 검토해둘 필요가 있다.
관련 기사
아마존, 116억 달러 규모 유럽 전략에 맞춰 차세대 로봇 공개
AI Business · 2026년 6월 5일 PM 10:13
실리콘 밸리가 사람들의 집에 로봇을 배치할 준비가 되었나요? Hello Robot은 그렇습니다.
TechCrunch AI · 2026년 6월 5일 AM 12:05
아마존, 창고 로봇이 언어로 대화할 수 있도록 개발
The Verge AI · 2026년 6월 4일 PM 06:31
Reachy Mini에 MCP 도구 추가
HuggingFace Blog · 2026년 6월 3일 AM 09:00
인간 데이터로 로봇을 훈련시키는 업체, 6천만 달러 투자 유치
AI Business · 2026년 6월 2일 PM 09:32