Claude Opus 4.8 출시: 더 정직하고 빠른 Anthropic 플래그십 AI
Anthropic이 2026년 5월 28일 Claude Opus 4.8을 출시했다. 에이전트 코딩 점수 69.2%, 동적 워크플로우, 노력도 제어 기능이 핵심이다.
Anthropic이 2026년 5월 28일 Claude Opus 4.8을 출시했다. 에이전트 코딩 점수 69.2%, 동적 워크플로우, 노력도 제어 기능이 핵심이다.
핵심 요약
Anthropicは 2026년 5월 28일, 플래그십 모델 Claude Opus 4.8을 출시했다. 이전 버전인 Opus 4.7 출시 후 41일 만의 빠른 업데이트로, 가격은 동일하게 유지되면서 성능이 전반적으로 향상됐다. 이번 업데이트의 핵심 키워드는 '정직성(honesty)', '에이전트 코딩', '동적 워크플로우(Dynamic Workflows)'다.
주요 변경 사항
1. 에이전트 코딩 성능 향상
Anthropicが 공개한 SWE-bench Pro 벤치마크 기준, Opus 4.8의 에이전트 코딩 점수는 69.2%다. 전작 Opus 4.7(64.3%)보다 약 5%포인트 향상됐으며, 경쟁 모델인 GPT-5.5(58.6%)와 Gemini 3.1 Pro(54.2%)를 크게 웃도는 수치다. 멀티디시플리너리 추론 점수는 54.7%에서 57.9%로, 에이전트 컴퓨터 사용 능력은 82.8%에서 83.4%로, 지식 업무 점수는 1753에서 1890으로 각각 개선됐다.
2. 정직성 강화
Anthropicは Opus 4.8을 '역대 가장 정직한 모델'로 소개했다. 이전 버전 대비 코드 결함 등을 놓치지 않고 지적할 확률이 약 4배 높아졌으며, 불확실한 정보를 확실한 것처럼 제시하는 경향이 크게 줄었다. Bridgewater Associates가 실시한 실제 업무 평가에서도 '분석의 한계점을 미리 지적하는 경향'이 뚜렷하게 개선됐다는 평가를 받았다. 또한 오정렬 행동(기만, 오용 협조) 발생 빈도도 전작 대비 유의미하게 감소했다.
3. 동적 워크플로우(Dynamic Workflows)
Claude Code에 새롭게 추가된 '동적 워크플로우'는 단일 세션에서 수백 개의 병렬 서브에이전트를 동시에 실행할 수 있는 기능이다. 현재 연구 프리뷰 단계로 제공된다. 수십만 줄에 달하는 대규모 코드베이스 마이그레이션 작업을 처음부터 끝까지 자율적으로 수행하는 시나리오가 주요 활용 사례다. Anthropicは "Claude가 계획을 세우고, 수백 개의 병렬 서브에이전트를 생성해 실행한 뒤, 결과를 검증하고 보고하는 전 과정을 관리할 수 있다"고 설명했다.
4. 노력도 제어(Effort Control)
claude.ai와 Cowork 플랫폼에서 사용자가 각 응답에 투입할 'Claude의 노력 정도'를 Low(낮음)부터 Max(최대)까지 직접 선택할 수 있게 됐다. Opus 4.8은 기본값이 High(높음)로 설정되어 있다. 낮은 설정은 더 빠른 응답과 낮은 API 비용을 제공하며, 높은 설정은 더 깊은 추론과 높은 정확도를 보장한다.
5. Messages API 업데이트
개발자를 위한 API 레벨에서도 중요한 업데이트가 있었다. 이제 메시지 배열 중간에 시스템 항목(system turn)을 삽입할 수 있어, 프롬프트 캐시를 유지하면서도 대화 중간에 지시사항을 동적으로 업데이트하는 것이 가능해졌다.
가격 정책
Opus 4.8의 가격은 전작인 Opus 4.7과 동일하게 유지된다. 입력 토큰 100만 개당 $5, 출력 토큰 100만 개당 $25다. 신규로 추가된 고속 모드(Fast Mode)는 입력 $10, 출력 $50으로 다소 비싸지만, 이전 모델의 일반 속도 대비 2.5배 빠르고 비용은 3분의 1 수준으로 절감된다.
향후 로드맵
Anthropicは 현재 사이버 보안 관련 우려로 인해 선택된 조직에만 제한적으로 접근을 허용하고 있는 Mythos급 모델을 '향후 몇 주 내' 일반 고객에게도 출시할 예정이라고 밝혔다. Mythos 모델은 사이버 보안 분야에서 기존 모델을 크게 앞서는 성능을 보여 접근을 제한적으로 관리하고 있다.
평가
Opus 4.8은 단순한 성능 향상보다 '정직성'과 '에이전트 능력'이라는 두 가지 차별화된 방향성을 명확히 보여준다. 특히 동적 워크플로우는 대규모 소프트웨어 개발 및 마이그레이션 업무에서 Claude를 단순한 코딩 도우미가 아닌 자율적인 엔지니어링 에이전트로 활용하는 가능성을 열어준다. 개발자와 기업 사용자에게 특히 주목할 만한 업데이트다.
장점
- 에이전트 코딩 능력에서 GPT-5.5, Gemini 3.1 Pro를 크게 앞서는 벤치마크 성능
- 정직성 향상으로 기업 환경에서 AI 결과물의 신뢰성 제고
- 동적 워크플로우를 통한 대규모 병렬 에이전트 작업 지원
- 노력도 제어로 비용 및 품질 간 트레이드오프 사용자 맞춤 조절 가능
- 가격 동결로 기존 사용자 대비 비용 증가 없음
단점/한계
- 동적 워크플로우가 연구 프리뷰 단계로 모든 사용자에게 완전히 제공되지 않음
- Mythos급 최고 성능 모델 일반 접근 아직 제한적
- 고속 모드는 일반 요금 대비 2배 높은 비용
- 노력도 제어가 claude.ai 및 Cowork 플랫폼에만 제공되고 API 사용자에겐 직접 노출 안됨
참고 자료
댓글0개
주요 기능/특징
1. SWE-bench Pro 에이전트 코딩 점수 69.2% - 주요 경쟁사 대비 최고 성능 2. 정직성 4배 향상 - 코드 결함 및 불확실 정보를 훨씬 더 많이 지적 3. 동적 워크플로우 - 수백 개의 병렬 서브에이전트 동시 실행 (연구 프리뷰) 4. 노력도 제어 - Low~Max 범위에서 사용자가 직접 응답 품질 수준 설정 5. Messages API 업데이트 - 대화 중간 시스템 지시사항 동적 업데이트 지원 6. 고속 모드 - 이전 모델 대비 2.5배 빠르고 3배 저렴 7. 가격 동결 - Opus 4.7과 동일한 가격 유지
핵심 인사이트
- 에이전트 코딩 점수 69.2%는 GPT-5.5(58.6%), Gemini 3.1 Pro(54.2%) 대비 압도적 우위로, Anthropic의 코딩 특화 전략이 성과를 내고 있다.
- '정직성' 강화는 기업 환경에서 AI 신뢰성의 핵심 과제를 Anthropic이 진지하게 다루고 있음을 보여준다.
- 동적 워크플로우는 대규모 레거시 코드 마이그레이션 시장을 겨냥한 기능으로, 엔터프라이즈 AI 시장 경쟁이 에이전트 역량으로 이동하고 있음을 나타낸다.
- Opus 4.7 출시 41일 만의 업데이트는 Anthropic의 급격히 가속화된 개발 속도를 보여주며, OpenAI와의 모델 릴리즈 경쟁이 치열해지고 있다.
- 가격 동결 정책은 경쟁이 심화된 AI 시장에서 기존 사용자 이탈을 방지하려는 전략적 선택이다.
- Mythos 모델의 사이버 보안 우려에 따른 제한적 접근은 AI 모델의 잠재적 위험성에 대한 업계의 인식이 높아지고 있음을 반영한다.
- Super-Agent 벤치마크에서 모든 케이스를 완료한 유일한 모델로서, 복잡한 멀티 스텝 에이전트 작업에서의 차별화된 경쟁력을 입증했다.
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Claude Mythos, 15개국 150개 조직으로 확장: Project Glasswing 2차
Anthropic이 Project Glasswing에 Samsung·NATO·ENISA 등 150개 조직을 추가하며 전력·수도·의료·통신 분야로 AI 보안 방어를 확대했다. Claude Mythos는 이미 1만 건 이상의 고위험 취약점을 발견했다.
Anthropic Claude 구독 플랜 분리: 6월 15일부터 Agent SDK 크레딧 별도 청구
Anthropic이 2026년 6월 15일부터 Claude 구독 플랜의 Agent SDK·Claude Code 자동화 사용량을 별도 크레딧 풀로 분리한다. Pro 플랜 기준 월 $20 크레딧 한도가 적용되며, 이를 초과하면 실제 API 요금이 부과된다.
Anthropic, Series H에서 $65B 조달: 밸류에이션 $965B로 OpenAI 추월
Anthropic이 2026년 5월 28일 Series H 펀딩에서 $65B를 조달해 밸류에이션 $965B를 달성했다. OpenAI의 $852B를 넘어서며 AI 스타트업 역사상 최고 밸류에이션을 기록했다.
Claude Compliance API: 28개 보안 플랫폼 통합으로 엔터프라이즈 AI 거버넌스 완성
Anthropic이 Claude Compliance API로 CrowdStrike, Palo Alto Networks 등 28개 보안 플랫폼 통합을 발표했다. IT 팀이 기존 보안 도구로 Claude 사용을 직접 감사·모니터링할 수 있다.
