2026.04.11
26
0
0
ClaudeNEW

Claude Mythos Preview: 93.9% SWE-bench, 공개 포기의 이유

Anthropic이 4월 7일 Claude Mythos Preview를 발표했다. SWE-bench 93.9% 역대 최강 모델이나 제로데이 취약점 자동 발견 능력 때문에 일반 공개를 포기하고 Project Glasswing을 출범했다.

#Claude#Anthropic#Mythos#사이버보안#Project Glasswing
Claude Mythos Preview: 93.9% SWE-bench, 공개 포기의 이유
AI 핵심 요약

Anthropic이 4월 7일 Claude Mythos Preview를 발표했다. SWE-bench 93.9% 역대 최강 모델이나 제로데이 취약점 자동 발견 능력 때문에 일반 공개를 포기하고 Project Glasswing을 출범했다.

Anthropic의 가장 강력한 AI, 그러나 세상에 나오지 않는 이유

2026년 4월 7일, Anthropic은 Claude Mythos Preview를 공식 발표했다. 이 모델은 회사 역사상 가장 강력한 AI로, SWE-bench Verified에서 93.9%를 기록하며 Opus 4.6(80.8%)을 13%포인트 이상 압도했다. 그러나 발표와 동시에 Anthropic은 이 모델을 일반 대중에게 공개하지 않겠다고 선언했다. 그 이유는 AI 역사상 전례 없는 판단에서 비롯됐다.

Claude Mythos의 충격적인 성능

Claude Mythos Preview의 벤치마크 결과는 AI 업계에 경종을 울렸다.

  • SWE-bench Verified: 93.9% (Opus 4.6 대비 +13.1%p)
  • SWE-bench Pro: 77.8% (Opus 4.6 대비 +24.4%p)
  • USAMO 2026: 97.6% (Opus 4.6의 42.3%를 크게 상회)
  • GPQA Diamond: 94.5%
  • Terminal-Bench 2.0: 82.0%
  • CyberGym (취약점 재현): 83.1%

특히 수학 올림피아드(USAMO)에서 97.6%는 사실상 인간 금메달리스트 수준을 넘어선 것으로, 복잡한 논리 추론 능력에서 질적 도약이 이뤄졌음을 의미한다.

왜 공개하지 않는가: 제로데이 취약점 자동 발견

Mythos Preview가 일반 공개를 받지 못하는 핵심 이유는 사이버보안 분야에서의 위험한 능력 때문이다. 내부 평가에서 이 모델은 다음을 자동으로 수행했다:

  • Windows, macOS, Linux, 주요 웹 브라우저 전반에 걸친 수천 건의 제로데이 취약점 식별
  • 단일 취약점이 아닌 3~5개 취약점을 연쇄적으로 결합하는 정교한 익스플로잇 시퀀스 생성
  • 27년간 발견되지 않았던 OpenBSD 버그 발견
  • 500만 번의 자동화 도구가 놓쳤던 16년 된 FFmpeg 취약점 발견

Anthropicは 이 능력이 공격자의 손에 들어갈 경우 국가 안보 수준의 위협이 될 수 있다고 판단했다.

Project Glasswing: 방어를 위한 제한적 공개

Anthropicは 단순히 모델을 묻어두는 대신 적극적인 대안을 선택했다. 'Project Glasswing'은 사이버보안 방어 목적으로만 Claude Mythos Preview를 제한 공개하는 이니셔티브다.

참여 파트너(12개사):

  • 빅테크: Amazon Web Services, Apple, Google, Microsoft, NVIDIA
  • 보안 기업: Cisco, CrowdStrike, Palo Alto Networks, Broadcom
  • 금융: JPMorgan Chase
  • 오픈소스: Linux Foundation

Anthropicは 이 파트너들에게 1억 달러 상당의 사용 크레딧을 제공하며, 오픈소스 보안 단체에 400만 달러를 직접 기부했다.

가격과 접근 방법

Project Glasswing 참여자는 다음 플랫폼을 통해 Mythos Preview에 접근할 수 있다:

  • Claude API
  • Amazon Bedrock
  • Google Cloud Vertex AI
  • Microsoft Foundry

가격은 입력 토큰 100만 개당 $25, 출력 토큰 100만 개당 $125로 책정됐다. 이는 Claude Opus 4.6 대비 상당히 높은 가격이나, 압도적 성능을 감안하면 전문 보안 시장에서 수용 가능한 수준이다.

AI 산업에 던지는 질문

Mythos Preview 발표는 AI 역사에서 하나의 분기점이다. 지금까지 'AI 능력이 위험하다'는 주장은 이론적 논쟁의 영역이었다. 그러나 Anthropic이 직접 '이 모델은 너무 위험해서 공개할 수 없다'고 선언함으로써, AI 안전성 논의는 구체적 현실이 됐다.

이 결정은 동시에 Anthropic의 $300억 ARR 달성(2026년 4월 기준)이라는 폭발적 성장과 맞물려 있다. 세상에서 가장 강력한 AI를 만든 회사가 그 모델로 직접 돈을 버는 대신 사회 보호를 선택했다는 점은, 상업적 성공과 책임 있는 AI 개발이 반드시 상충하지 않을 수 있다는 가능성을 보여준다.

결론

Claude Mythos Preview는 현재 가장 강력한 AI 모델이다. 그러나 이 사실보다 더 중요한 것은 Anthropic의 공개 포기 결정이다. Project Glasswing은 'AI를 잠그는 것'이 아니라 'AI를 방어용으로 전환하는 것'을 선택했다. 이는 향후 AI 능력이 더 확장될수록 산업 전체가 직면하게 될 딜레마를 먼저 다루고 있다는 점에서, 사이버보안 전문가뿐 아니라 AI 정책 입안자와 개발자 모두에게 중요한 참고 사례가 될 것이다.

장점

  • 현존 최고 수준의 코딩 및 수학 추론 능력 (SWE-bench 93.9%, USAMO 97.6%)
  • 사이버보안 방어 분야에서 기존 자동화 도구가 수십 년간 놓친 취약점 발견 능력
  • Project Glasswing을 통한 책임 있는 배포 모델 제시
  • AWS, Google, Microsoft 등 기존 클라우드 플랫폼 모두 지원

단점/한계

  • 일반 개발자 및 연구자 접근 불가 - Project Glasswing 파트너사만 이용 가능
  • 가격이 Claude Opus 4.6 대비 크게 높아 대규모 활용에 비용 부담 있음
  • 공개 포기 결정으로 인해 벤치마크 독립 검증 불가
  • 코딩 외 일반 대화, 창작 분야 성능 개선 여부는 공식 데이터 부족

댓글0

주요 기능/특징

1. SWE-bench Verified 93.9%: Opus 4.6(80.8%)을 13%p 이상 상회하며 역대 최고 코딩 성능 달성 2. USAMO 2026 97.6%: 수학 올림피아드 수준의 논리 추론 능력, 사실상 인간 상위 수준 3. 제로데이 취약점 자동 발견: Windows/macOS/Linux/브라우저 전반 수천 건 식별, 27년된 버그 발견 4. Project Glasswing: 12개 파트너사(AWS, Apple, Google 등)에 방어 목적으로만 제한 공개 5. 1억 달러 크레딧 + 400만 달러 기부: 오픈소스 보안 생태계 지원 6. 가격: 입력 $25/백만 토큰, 출력 $125/백만 토큰 (API/Bedrock/Vertex/Foundry 지원)

핵심 인사이트

  • SWE-bench 93.9%는 소프트웨어 엔지니어링 작업에서 인간 전문가를 넘어서는 수준에 근접했음을 의미한다
  • 제로데이 취약점 자동 체이닝 능력은 AI 공격 역량이 방어 역량을 앞서기 시작했다는 신호다
  • Anthropic이 가장 강력한 모델을 직접 포기한 결정은 AI 안전성을 상업화보다 우선시한 역사적 사례가 됐다
  • Project Glasswing은 '공개 vs 비공개' 이분법 대신 제한적 접근이라는 제3의 길을 제시한다
  • 12개 파트너에 1억 달러 크레딧 제공은 단순한 비용 지원이 아니라 보안 인프라 구축 비용을 Anthropic이 부담하겠다는 의미다
  • 27년 된 OpenBSD 버그와 16년 된 FFmpeg 취약점 발견은 기존 보안 도구의 한계를 드러낸다
  • 이 결정은 향후 더 강력한 AI 모델 출시 시 업계 전반이 채택할 '제한적 공개' 관행의 선례가 될 수 있다
  • GPT-5.5(Spud) 출시를 앞둔 OpenAI가 유사한 선택을 강요받을 가능성이 높아졌다

이 리뷰가 유용했나요?

공유하기