오퍼스 4.7, 동일한 가격 유지하되 4.6보다 비용이 더 많이 드는 이유
First token counts reveal Opus 4.7 costs significantly more than 4.6 despite Anthropic's flat pricing
핵심 요약
- ▸오퍼스 4.7은 이전 버전과 동일한 토큰당 가격을 유지하지만, 요청당 비용이 크게 증가했습니다.
- ▸새로운 토큰화기로 인해 동일한 텍스트가 최대 47% 더 많은 토큰으로 분할됩니다.
- ▸이 변화는 클라우드 코드 사용자에게 실질적인 영향을 미칩니다.
- ▸개발자는 토큰화 방식의 변화로 인한 비용 증가를 고려해 모델 사용 전략을 조정해야 합니다.
심층 분석
Anthropic이 Opus 4.7을 출시하면서 이전 버전인 4.6과 동일한 토큰당 단가(입력 $15/M, 출력 $75/M)를 유지했지만, 실제 청구 금액은 상당히 증가하는 현상이 관측되고 있습니다. 핵심 원인은 내부 토크나이저(tokenizer)의 변경입니다. 토크나이저는 입력 텍스트를 모델이 처리할 수 있는 최소 단위인 토큰으로 분할하는 전처리 컴포넌트인데, Opus 4.7에서는 동일한 텍스트가 최대 47% 더 많은 토큰으로 분해되는 것으로 측정되었습니다. 일반적으로 BPE(Byte Pair Encoding)나 SentencePiece 기반 토크나이저는 어휘 사전(vocabulary)의 구성 방식에 따라 동일 문자열의 분할 결과가 달라지며, 다국어·코드·특수문자 처리에 최적화된 새 vocab으로 교체되면 영어 산문 대비 코드/CJK 텍스트의 토큰 수가 급격히 늘어날 수 있습니다.
개발자 입장에서 이 변화는 "가격은 그대로인데 청구서는 더 비싸진다"는 체감으로 이어집니다. 특히 Claude Code처럼 대용량 코드베이스를 컨텍스트에 넣고 반복적으로 호출하는 에이전틱 워크플로우에서는 영향이 누적적으로 나타납니다. 프롬프트 캐싱을 적극 사용하지 않는 경우 같은 파일을 다시 보낼 때마다 늘어난 토큰 수로 과금되며, 200K/1M 컨텍스트 윈도우에 담을 수 있는 실질적인 코드 양도 줄어듭니다. 또한 출력 토큰 수도 증가하는 경향이 있어, 동일한 한국어 응답을 받아도 비용이 20~40% 이상 오를 수 있고, `max_tokens` 설정에 걸려 응답이 중간에 끊기는 사례도 발생할 수 있습니다.
실무에서는 먼저 자사 워크로드의 실제 토큰 증가율을 측정하는 것이 우선입니다. `/v1/messages/count_tokens` 엔드포인트를 사용해 대표적인 프롬프트 샘플을 4.6과 4.7에서 각각 측정하고, 월간 예산 모델을 재계산해야 합니다. 비용이 크리티컬한 파이프라인이라면 요약/분류 등 단순 작업은 Haiku 4.5나 Sonnet 4.6으로 라우팅하고, Opus 4.7은 고난도 추론 작업에만 선별 투입하는 모델 캐스케이딩 전략이 효과적입니다. 동시에 프롬프트 캐싱(cache_control)을 적용해 시스템 프롬프트와 반복되는 컨텍스트의 실질 과금을 최대 90%까지 줄이고, 불필요한 few-shot 예제·중복 문서·장황한 지시문을 정리하는 프롬프트 다이어트를 병행해야 합니다.
마지막으로 CI/CD와 관측(observability) 관점에서 대응이 필요합니다. 토큰 사용량을 모니터링하는 대시보드에 "모델 버전별 평균 토큰/요청" 지표를 추가하고, 급격한 상승 시 알림을 받도록 해두면 모델 업그레이드로 인한 비용 역풍을 조기에 포착할 수 있습니다. Anthropic이 명시적 공지 없이 토크나이저를 교체한 점은 향후에도 반복될 수 있는 패턴이므로, 모델 ID를 코드에 하드코딩하기보다 환경변수·피처플래그로 분리해두고, 신규 모델 도입 전에는 반드시 비용 회귀 테스트(cost regression test)를 실행하는 것이 안전합니다.