OPPO, 휴대폰을 벗어나지 않고 카메라, 화면, 음성 사용하는 Android AI 에이전트 X-OmniClaw 오픈소스화
Oppo open-sources Android AI agent X-OmniClaw that uses your camera, screen, and voice without leaving the phone
핵심 요약
- ▸OPPO의 Multi-X 팀이 Android 기기에서 실행되는 AI 에이전트 X-OmniClaw를 오픈소스로 발표했습니다.
- ▸이 에이전트는 카메라, 화면, 음성을 활용해 실제 앱에서 작업을 처리할 수 있습니다.
- ▸클라우드 계산은 추론에만 사용되며, 로컬 센서를 기반으로 작동합니다.
- ▸이 기술은 앱 내 작업 자동화 및 사용자 경험 개선에 중요한 영향을 미칠 수 있습니다.
심층 분석
Oppo의 Multi-X 팀이 공개한 X-OmniClaw는 Android 디바이스에서 직접 실행되는 온디바이스 에이전트로, 카메라·화면·음성 입력을 통합해 실제 앱을 조작하는 멀티모달 시스템이다. 기존의 모바일 에이전트들이 클라우드에 폰 화면을 복제(가상 디바이스 미러링)해 LLM이 원격으로 조작하던 방식과 달리, X-OmniClaw는 로컬 센서와 OS 권한을 직접 활용하고 추론이 필요한 단계에서만 클라우드 컴퓨트를 호출한다. 특히 흥미로운 부분은 사용자의 탭 경로(tap path)를 캡처해 재사용 가능한 "스킬"로 클로닝한 뒤, 다음 실행 시에는 동일한 화면 흐름을 일일이 시각 인식으로 따라가지 않고 **딥링크(deeplink)**로 한 번에 점프하는 구조다. 이는 RPA의 매크로 학습과 LLM 에이전트의 일반화 능력을 결합한 형태로, 토큰 비용과 레이턴시를 동시에 줄이려는 실용적 설계 선택이다.
엔지니어 관점에서 이 접근의 의미는 크다. 첫째, 모바일 에이전트의 병목이었던 "매 단계마다 스크린샷 → VLM 추론 → 액션 결정" 루프를 스킬 캐시로 단축함으로써, 자주 쓰는 워크플로우(예: 특정 앱의 결제 페이지 진입)는 사실상 상수 시간에 도달한다. 둘째, 클라우드 미러링이 아닌 로컬 실행이라 세션 쿠키, 생체 인증, 위치·카메라 권한이 자연스럽게 유지되어 "실제 사용자처럼 보이는 자동화"가 가능해진다. 셋째, 오픈소스 공개라는 점은 안드로이드 에이전트 생태계에서 AutoDroid, Mobile-Agent, AppAgent 등에 이은 또 하나의 베이스라인이 생긴다는 뜻이며, 특히 OEM(제조사) 차원에서 OS 권한과 통합된 에이전트가 공개된 사례라 시스템 레벨 접근이 가능한 코드를 들여다볼 수 있다는 가치가 있다.
한국 개발자가 당장 챙겨야 할 액션 포인트는 세 가지다. 우선 자사 앱이 에이전트의 자동화 대상이 되는 시대를 가정하고, **딥링크 스키마를 명시적으로 설계·문서화**해 두는 것이 좋다. 에이전트가 시각 탐색으로 들어오는 것보다 딥링크로 의도된 진입점을 거치게 하는 편이 봇 트래픽 식별, 어뷰징 차단, UX 일관성 모든 면에서 유리하다. 또한 접근성(Accessibility) 트리와 콘텐츠 설명(content-description)을 정비해 두면 VLM 의존도를 줄여 에이전트가 더 정확하게 동작하므로, 결과적으로 자사 앱의 에이전트 호환성이 높아진다. 마지막으로 보안 관점에서 화면 캡처·접근성 서비스를 악용하는 악성 에이전트와 정당한 에이전트를 구분할 수 있는 **App Attestation, Play Integrity API, 민감 화면의 FLAG_SECURE 설정** 등을 재점검할 시점이다. X-OmniClaw 같은 오픈소스가 등장한 이상, 비슷한 아키텍처의 에이전트가 다양한 변형으로 확산될 가능성이 높기 때문이다.
관련 기사
업무 중 ai에 물어본 영어가 나만의 퀴즈가 된다면 lingoq
Naver CLOVA Tech Blog ·
PwC는 클라우드를 도입해 기술 개발 및 거래 실행을 통해 기업 기능을 혁신하고 있다
Anthropic News ·
블랙스톤, 헬먼 앤드 프리드먼, 골드만삭스와 함께 새로운 기업 AI 서비스 회사 설립
Anthropic News ·
GITEX AI 유럽
AI Business · 방금 전
5개 실험실, 5개의 사고: 소형 모델을 기반으로 한 다중 모델 금융 드라마 구축
HuggingFace Blog · 2026년 6월 7일 AM 04:02