구글, 지미니 사용 제한 버그 수정해 사용량 과다 소진 문제 해결
Google fixes several bugs in Gemini usage limits that burned through quotas too fast
핵심 요약
- ▸구글의 지미니 앱에서 발생한 버그는 몇 개의 오미니 비디오만으로 전체 사용량을 소진하는 문제가 있었습니다.
- ▸버그 수정 후, 엑스트라 멤버는 비디오 생성 횟수가 두 배로 증가했습니다.
- ▸실패한 요청에 대한 요금이 더 이상 청구되지 않게 되었습니다.
- ▸구글은 다른 사용량 관련 투명성도 개선할 계획입니다.
- ▸이 수정은 개발자들이 사용량을 예측하고 관리하는 데 큰 도움을 줍니다.
심층 분석
구글의 Gemini 앱은 동영상 생성 기능인 'Omni'(이미지·동영상 생성 모델 계열)에 사용량 쿼터(quota) 시스템을 적용해 요금제별로 일정 횟수만큼만 생성 요청을 허용한다. 이런 쿼터는 보통 토큰 기반이 아니라 요청·작업 단위로 차감되는데, 이번 버그는 동영상 한두 개만 만들어도 전체 할당량이 소진되도록 차감 로직이 잘못 작동한 사례다. 더 심각한 부분은 실패한(에러로 끝난) 요청까지 쿼터에서 차감됐다는 점인데, 이는 백엔드가 작업 시작 시점에 선차감(pre-deduct)한 뒤 실패 시 환불(refund) 처리를 누락하는 전형적인 결함 패턴으로 보인다. 구글은 차감 계산을 바로잡고, Ultra 멤버의 동영상 생성 횟수를 두 배로 늘렸으며, 실패 요청은 더 이상 과금하지 않도록 수정했다.
엔지니어 관점에서 이 사건은 단순한 소비자 불만 이슈가 아니라, AI 서비스를 실제 프로덕션에 통합할 때 마주치는 비용·신뢰성 리스크를 그대로 보여준다. 생성형 AI를 자사 제품에 끼워 넣는 개발자라면 호출 한 번의 실제 비용이 공급자의 미터링(metering) 로직에 전적으로 의존하게 되는데, 그 로직에 버그가 있으면 예측한 예산이 순식간에 증발할 수 있다. 특히 실패 요청 과금 문제는 재시도(retry) 로직과 결합될 때 치명적이다. 타임아웃이나 5xx 에러에 대해 자동 재시도를 거는 코드가 있다면, 각 실패가 쿼터를 갉아먹는 상황에서 재시도가 오히려 할당량을 가속 소진시키는 악순환을 만들 수 있기 때문이다.
따라서 외부 생성형 AI API에 의존하는 개발자는 공급자의 사용량 집계를 무조건 신뢰하지 말고 자체적으로 방어선을 구축해야 한다. 구체적으로는 클라이언트 측에서 요청·성공·실패 건수를 독립적으로 로깅·집계해 공급자가 보고하는 사용량과 교차 검증하고, 비정상적인 차감 급증을 감지하면 알림을 보내는 모니터링을 두는 것이 좋다. 또한 멱등성 키(idempotency key) 활용, 지수 백오프와 재시도 횟수 상한 설정, 그리고 사용량·비용에 대한 하드 리밋(circuit breaker)을 애플리케이션 레벨에 직접 두어 공급자 버그가 비용 폭증으로 직결되지 않게 막아야 한다. 끝으로 구글이 예고한 '사용량 투명성 강화'처럼 미터링 정책은 언제든 바뀔 수 있으므로, 요금제·쿼터 정책의 변경 공지를 주기적으로 추적하고 계약상 환불·보상 조건을 미리 확인해 두는 운영 습관이 필요하다.