LLM중요도 높음 8.0

커서의 Composer 2.5, Opus 4.7 및 GPT-5.5와 동일한 성능으로 저렴하게 제공

Cursor's Composer 2.5 matches Opus 4.7 and GPT-5.5 benchmarks at a fraction of the cost

The Decoder·2026년 5월 19일 AM 02:29·약 3분 읽기·7회 조회

핵심 요약

▸커서는 Composer 2.5를 출시하며, 이전 버전보다 25배 더 많은 합성 작업을 기반으로 훈련시켰습니다.
▸Composer 2.5는 Opus 4.7과 GPT-5.5와 동일한 벤치마크 성능을 보입니다.
▸Composer 2.5는 비용 효율적인 AI 코딩 모델로, 개발자에게 경제적인 솔루션을 제공합니다.
▸개발자들이 저비용으로 높은 성능의 AI 모델을 사용할 수 있는 기회입니다.

심층 분석

Cursor가 공개한 Composer 2.5는 자체 IDE 내부에서 동작하도록 최적화된 코딩 전용 모델로, 오픈소스 계열인 Kimi K2.5를 기반으로 파인튜닝한 결과물이다. 핵심은 이전 버전 대비 25배 규모로 확장된 합성 태스크(synthetic task) 데이터셋을 학습에 활용했다는 점인데, 실제 코드베이스에서 발생하는 리팩토링·버그 수정·테스트 작성 등의 작업을 시뮬레이션해 강화학습 신호로 활용하는 방식이다. 이런 접근은 범용 LLM이 학습 데이터에서 자주 접하지 못하는 멀티파일 편집, 도구 호출 시퀀스, 장기 컨텍스트 코드 탐색 같은 작업을 모델이 직접 반복 수행하면서 보상을 받도록 설계되어 있어, 동일 파라미터 규모에서도 코딩 도메인에 한해 프론티어 모델에 근접한 성능을 낼 수 있게 만든다. 벤치마크상 Opus 4.7이나 GPT-5.5와 대등한 점수를 보이면서도 추론 비용을 크게 낮춘 것은 바로 이 도메인 특화 학습 전략과 상대적으로 작은 베이스 모델 선택이 결합된 결과로 볼 수 있다.

개발자 관점에서 가장 직접적인 영향은 비용 구조의 변화다. 그동안 Cursor에서 Opus나 GPT 최신 모델을 메인으로 쓰던 팀은 토큰 단가와 월 사용량 한도 때문에 에이전트 모드나 멀티 파일 편집 사용을 자제하는 경우가 많았는데, Composer 2.5가 비슷한 품질을 더 낮은 가격에 제공한다면 "비싼 모델은 어려운 문제에만, 일상 코딩은 저렴한 모델로"라는 라우팅 전략을 회사 전체 표준으로 가져갈 수 있게 된다. 또한 코딩 특화 모델은 일반적으로 응답 속도와 도구 사용 정확도에서도 이점이 있기 때문에, Tab 자동완성·인라인 편집·에이전트 작업이 체감적으로 더 빨라지고 잘못된 파일을 건드리거나 엉뚱한 명령을 실행하는 빈도가 줄어들 가능성이 높다. 다만 벤치마크 점수가 실제 한국어 도메인 코드, 사내 레거시 코드, 특정 프레임워크(예: 국내에서 많이 쓰는 Spring + JSP, NestJS 등) 작업에서 그대로 재현되는지는 별개의 문제이므로, 동일한 점수라고 무비판적으로 받아들이는 것은 위험하다.

당장 액션 아이템 측면에서, Cursor 유료 플랜을 쓰고 있다면 기존에 Opus나 GPT-5.5로 진행하던 대표적인 워크플로우(예: 큰 리팩토링, 테스트 자동 생성, PR 리뷰)를 Composer 2.5로 동일하게 돌려보고 결과 품질과 토큰/요청 비용을 직접 비교한 뒤 default 모델을 조정하는 작업을 권한다. 특히 에이전트 모드에서 도구 호출 횟수가 많은 작업일수록 비용 차이가 크게 누적되므로, 모델별 성공률·재시도 횟수까지 함께 측정하는 것이 의미 있다. 동시에 Composer 2.5가 Kimi K2.5 기반 오픈 가중치 파생인 만큼 데이터 거버넌스가 엄격한 조직에서는 코드 전송 경로와 학습 데이터 활용 정책(Cursor의 Privacy Mode, 학습 제외 옵션)을 다시 점검할 필요가 있다. 마지막으로, 이번 발표는 "코딩 도메인에서는 더 이상 최고가 프론티어 모델이 유일한 선택지가 아니다"라는 흐름을 보여주는 사례이므로, 사내에서 자체 AI 코딩 도구를 검토 중이라면 범용 API 대신 코딩 특화 모델 + 합성 데이터 학습 + IDE 통합이라는 조합을 벤치마킹 대상으로 추가하는 것이 합리적이다.

#AI 모델#코딩 도구#성능 비교#비용 효율#LLM

원문 보기 →

커서의 Composer 2.5, Opus 4.7 및 GPT-5.5와 동일한 성능으로 저렴하게 제공

핵심 요약

심층 분석

관련 기사