← 목록으로
연구중요도 높음 8.0

새로운 벤치마크, 클라우드 마이스토스와 GPT-5.5가 실제 브라우저 취약점을 자동으로 개발하는 것이 확인됨

New benchmark shows Claude Mythos and GPT-5.5 can develop real browser exploits autonomously

The Decoder··3분 읽기·7회 조회

핵심 요약

  • 카네기 멜론 대학 연구팀이 구글의 V8 엔진에서 실제 취약점을 악용하는 AI 에이전트의 능력을 측정하는 새로운 벤치마크를 개발했습니다.
  • 마이스토스는 GPT-5.5보다 훨씬 우수한 성능을 보였지만, 비용은 12배 더 많이 들었습니다.
  • 이 연구는 AI가 보안 취약점을 자동으로 탐지하고 개발할 수 있는 능력을 보여주는 중요한 성과입니다.
  • 이 연구는 AI 기반 보안 테스트 도구의 발전과 취약점 분석 방법에 대한 새로운 통찰을 제공합니다.

심층 분석

카네기멜런대학교 연구진이 발표한 새 벤치마크는 AI 에이전트가 실제 브라우저 취약점을 얼마나 자율적으로 익스플로잇(exploit)할 수 있는지를 정량적으로 측정한다. 대상은 Chrome·Edge·Node.js의 기반인 Google V8 자바스크립트 엔진의 실제 CVE들이며, 에이전트는 패치 diff·크래시 PoC·디버거 출력 같은 단서만 받고 메모리 손상을 트리거하는 코드를 작성한 뒤, 힙 그루밍(heap grooming), 타입 컨퓨전(type confusion), JIT 컴파일러 최적화 우회를 거쳐 임의 읽기/쓰기 프리미티브와 RCE까지 체이닝해야 한다. Claude Mythos는 이 다단계 추론에서 GPT-5.5를 큰 격차로 앞섰지만, 토큰 소비량이 약 12배에 달해 실행 1회당 비용 차이가 수십~수백 달러 수준으로 벌어진다는 점이 핵심이다.

엔지니어 관점에서 중요한 시그널은 "n-day 익스플로잇 작성"이 이제 숙련된 바이너리 분석가의 전유물이 아니라는 점이다. 그간 V8 익스플로잇은 패치가 공개된 후에도 실제 무기화까지 수일~수주가 걸렸기 때문에 사실상 시간이라는 자연 방어막이 존재했지만, 이번 벤치마크는 그 윈도우가 빠르게 줄어들고 있음을 보여준다. 특히 사내 Electron 앱, CEF 임베디드 브라우저, Node.js 백엔드, Cloudflare Workers/Deno 같은 V8 기반 런타임을 운영하는 팀은 "Chromium은 자동 업데이트되니 괜찮다"는 가정이 더 이상 유효하지 않으며, 의존하는 V8 빌드의 패치 적용 지연이 곧 공격 표면으로 직결된다.

대응 측면에서 개발자들이 당장 점검해야 할 것은 세 가지다. 첫째, Electron/Node.js 런타임 버전을 CI에서 강제하고, V8 보안 패치가 머지된 마이너 버전과의 격차를 대시보드화해 SLA(예: 72시간 내 패치)를 설정해야 한다. 둘째, 신뢰할 수 없는 자바스크립트를 실행하는 모든 경로—플러그인 시스템, 서버리스 함수, 사용자 정의 수식—에 대해 V8 샌드박스(`--sandbox`) 플래그와 OS 수준 격리(seccomp, gVisor)를 이중으로 적용하고, 단일 방어선에 의존하지 않아야 한다. 셋째, 레드팀 자체가 이런 AI 에이전트를 사용할 수 있다는 전제 아래 위협 모델을 갱신하고, 비용이 12배라도 결국 떨어질 곡선이라는 점을 감안해 패치 운영을 "분기 단위"가 아닌 "주 단위"로 재편할 필요가 있다.

또한 방어 측에서도 같은 기술이 활용될 여지가 크다. AI 에이전트로 패치 diff를 자동 분석해 회귀 PoC를 사전에 생성하거나, 퍼저(libFuzzer, Centipede) 시드를 LLM이 보강하는 워크플로우는 이미 Google Project Zero·OSS-Fuzz에서 실험 중이며, Mythos급 모델이 사내 보안팀에 들어오면 취약점 트리아지·익스플로잇 가능성 평가가 사람 분석가 며칠치 작업에서 수 시간으로 단축될 수 있다. 결국 이번 결과는 "공격자에게만 유리한 도구"라기보다, 패치 운영·런타임 격리·자동 PoC 검증이라는 보안 엔지니어링의 기본기를 얼마나 빠르게 자동화하느냐가 향후 경쟁력을 가른다는 신호로 읽는 편이 정확하다.

#AI#보안#벤치마크#V8#취약점
원문 보기 →

관련 기사