Cursor Composer 2.5 출시: Claude Opus 4.7과 동급 성능을 10분의 1 비용으로
Cursor가 2026년 5월 18일 Kimi K2.5 기반의 Composer 2.5를 출시했다. SWE-Bench 79.8%로 Claude Opus 4.7(80.5%)에 준하는 코딩 성능을 제공하며, 토큰당 비용은 약 10분의 1 수준이다.
Cursor가 2026년 5월 18일 Kimi K2.5 기반의 Composer 2.5를 출시했다. SWE-Bench 79.8%로 Claude Opus 4.7(80.5%)에 준하는 코딩 성능을 제공하며, 토큰당 비용은 약 10분의 1 수준이다.
Cursor Composer 2.5: 비용 혁신 vs 성능 경쟁
2026년 5월 18일, AI 코딩 IDE 회사 Cursor가 자사 세 번째 독점 에이전트 코딩 모델 Composer 2.5를 공식 출시했다. 핵심 메시지는 간결하다. Claude Opus 4.7, GPT-5.5와 사실상 동급의 코딩 성능을 제공하면서, 비용은 약 10분의 1 수준이라는 것이다.
기반 아키텍처: Kimi K2.5 (Moonshot AI)
Composer 2.5의 기반 모델은 Moonshot AI의 오픈소스 Kimi K2.5다. 총 파라미터 약 1조 개의 Mixture-of-Experts(MoE) 구조로, 추론 시 실제 활성 파라미터는 약 320억 개다. Cursor는 더 최신인 K2.6(2026년 4월 출시)으로 전환하지 않고 K2.5를 기반으로 삼았다. 이는 검증된 안정성과 비용 효율을 우선했기 때문이다.
Cursor가 기반 모델보다 훨씬 많은 공을 들인 곳은 자체 후처리(post-training) 파이프라인이다. 전체 컴퓨팅 예산의 85%가 강화학습, 추가 사전 학습, 새로운 텍스트 피드백 기법에 투입됐다. 특히 '국소 피드백 RL(localized text-feedback RL)'은 기존 방식처럼 전체 롤아웃에 대한 최종 보상이 아니라, 특정 오류 지점에 직접 수정 신호를 주는 방식으로 학습 효율을 높였다. 또한 합성 코딩 태스크를 전작 대비 25배 늘렸다.
성능 벤치마크
주요 벤치마크 결과는 다음과 같다.
| 벤치마크 | Composer 2.5 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-Bench Multilingual | 79.8% | 80.5% | 77.8% |
| CursorBench v3.1 (기본 설정) | 63.2% | 61.6% | 59.2% |
| Terminal-Bench 2.0 | 69.3% | 69.4% | 82.7% |
SWE-Bench Multilingual에서 Claude Opus 4.7에 0.7%p 뒤지지만, CursorBench v3.1(실제 일상적 코딩 태스크)에서는 오히려 앞선다. Terminal-Bench에서는 GPT-5.5에 다소 뒤진다.
가격 구조
| 티어 | 입력 (1M 토큰) | 출력 (1M 토큰) |
|---|---|---|
| Standard | $0.50 | $2.50 |
| Fast (기본 인터랙티브) | $3.00 | $15.00 |
Claude Opus 4.7 API 가격(약 $15/$75)과 비교하면 Standard 티어 기준 입력 30분의 1, 출력 30분의 1 수준이다. Fast 티어도 출력 기준 5분의 1 가격이다.
핵심 기능
Composer 2.5는 범용 챗봇이 아닌 에이전트 코딩 도구다. 파일 읽기·다중 파일 코드 작성, 터미널 명령 실행, 테스트 자동화 실행, 실패 시 반복 수정을 모두 인간 개입 없이 처리한다. Cursor IDE·CLI·웹 플랫폼에서만 사용 가능하며, 외부 API를 통한 독립적 접근은 아직 제공되지 않는다.
향후 개발 로드맵으로 Cursor는 총 컴퓨팅을 10배 늘린 더 큰 모델을 훈련 중이라고 밝혔다.
장단점 분석
Composer 2.5의 가장 큰 강점은 비용 대비 성능 비율이다. 대형 AI 모델과 사실상 동급 성능을 10분의 1 이하의 비용으로 제공한다는 점은 스타트업·독립 개발자·비용 민감 엔터프라이즈에게 매력적이다. 특히 일상적인 코딩 태스크(CursorBench 기준)에서는 Claude Opus 4.7과 GPT-5.5를 모두 앞서는 결과를 보였다.
반면 Cursor IDE 생태계에 종속된다는 점, 터미널 집약적 작업에서 GPT-5.5 대비 열세, 외부 API 미제공으로 인한 유연성 부족은 한계로 지적된다.
결론
Cursor Composer 2.5는 AI 코딩 도구 시장에서 '비용 vs 성능' 공식을 재정의하는 시도다. Kimi K2.5라는 오픈소스 기반에 자체 후처리를 집중 투자해 프론티어 모델과 경쟁하는 전략은, AI 스타트업이 대형 AI 기업의 모델을 단순 재판매하지 않고 독자적 가치를 창출할 수 있다는 가능성을 보여준다. 일상 코딩 워크플로우에서 비용 효율을 우선하는 개발팀에게 유력한 선택지다.
장점
- Claude Opus 4.7·GPT-5.5와 동급 성능을 약 10분의 1 비용으로 제공
- CursorBench v3.1(일상 코딩 태스크)에서 Claude Opus 4.7과 GPT-5.5 모두 능가
- 자체 후처리 파이프라인으로 기반 모델을 뛰어넘는 코딩 특화 성능 실현
- 다중 파일·터미널·테스트 루프 완전 자동화로 진정한 에이전트 코딩 경험 제공
단점/한계
- Cursor IDE·CLI 전용으로 외부 API 미제공 — 생태계 종속성 높음
- Terminal-Bench 2.0에서 GPT-5.5 대비 13.4%p 열세
- 최신 Kimi K2.6가 아닌 K2.5 기반으로 기반 모델의 최신성 부족
참고 자료
댓글0개
주요 기능/특징
1. Kimi K2.5(Moonshot AI) 기반 MoE 아키텍처 — 총 파라미터 1조, 활성 320억 2. SWE-Bench Multilingual 79.8%로 Claude Opus 4.7(80.5%)에 준하는 성능 3. Standard 티어 $0.50/$2.50 (입력/출력 per 1M tokens) — Claude Opus 4.7 대비 최대 30분의 1 비용 4. 전체 컴퓨팅 예산 85%를 자체 후처리(국소 피드백 RL, 합성 태스크 25배 확대)에 투입 5. Cursor IDE·CLI 전용 에이전트로 다중 파일 코딩·터미널·테스트 루프 완전 자동화
핵심 인사이트
- 오픈소스 기반 모델(Kimi K2.5)에 독자적 후처리를 집중 투자해 프론티어 모델과 경쟁하는 전략이 유효함을 입증했다.
- 일상 코딩 태스크(CursorBench v3.1)에서 Claude Opus 4.7과 GPT-5.5를 모두 앞서며 '실전 성능'에서의 우위를 확인했다.
- 비용이 약 10분의 1이라는 점은 스타트업·독립 개발자 시장에서 채택 가속화로 이어질 수 있다.
- Cursor IDE 생태계 종속을 대가로 비용 효율을 얻는 구조로, 멀티 IDE 환경의 팀에는 제약이 될 수 있다.
- 합성 코딩 태스크 25배 증대 전략은 AI 코딩 모델의 학습 데이터 전략에서 '합성 데이터' 비중이 갈수록 커지고 있음을 보여준다.
- 외부 API 미제공 정책은 Cursor 플랫폼 내 사용자 이탈을 방지하는 전략적 선택으로 해석된다.
- Terminal-Bench 2.0에서 GPT-5.5에 뒤지는 결과는 터미널·시스템 수준 태스크에서 보완이 필요함을 시사한다.
- 10배 규모 후속 모델 훈련 예고는 Cursor가 단기 수익보다 성능 로드맵에 계속 투자함을 의미한다.
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Google Universal Cart: AI가 바꾸는 온라인 쇼핑의 미래
Google이 I/O 2026에서 Universal Cart를 출시했다. 검색·YouTube·Gmail을 아우르는 AI 통합 장바구니로, Gemini가 가격 추적과 호환성 검사를 자동화하며 Nike, Walmart 등이 참여한다.
Microsoft Copilot, 기업 2000만 시트 돌파: 에이전트 모드로 전환 가속
Microsoft Copilot이 2026년 4월 30일 기준 기업 유료 시트 2000만 개를 돌파했다. 에이전트 모드가 Word·Excel·PowerPoint 기본값으로 전환되며 AI 어시스턴트를 넘어 자율 에이전트로 진화하고 있다.
Cursor 3 출시: 병렬 에이전트와 Design Mode로 AI 코딩 IDE의 새로운 표준
Cursor 3.0이 출시됐다. 병렬 에이전트, UI를 직접 가리켜 수정 지시하는 Design Mode, 자체 코딩 모델 Composer 2가 핵심이다. 단순 코드 어시스턴트에서 에이전트 오케스트레이션 플랫폼으로 전환을 선언했다.
OpenAI 워크스페이스 에이전트 출시: ChatGPT가 기업 자동화 플랫폼으로 진화
OpenAI가 기업용 워크스페이스 에이전트를 출시했다. Slack, Salesforce 등 주요 기업 툴과 연동되어 복잡한 업무 워크플로우를 자동화한다. 기존 커스텀 GPT의 후계자로, 팀 단위 AI 자동화의 새로운 기준을 제시한다.
