GLM-5.1 출시: SWE-Bench Pro 1위 달성한 오픈소스 코딩 AI
Z.ai(구 Zhipu AI)가 4월 7일 GLM-5.1을 오픈소스로 공개했다. MIT 라이선스로 SWE-Bench Pro 58.4점을 기록해 Claude Opus 4.6과 GPT-5.4를 제치고 코딩 벤치마크 1위에 올랐다.
Z.ai(구 Zhipu AI)가 4월 7일 GLM-5.1을 오픈소스로 공개했다. MIT 라이선스로 SWE-Bench Pro 58.4점을 기록해 Claude Opus 4.6과 GPT-5.4를 제치고 코딩 벤치마크 1위에 올랐다.
GLM-5.1: 오픈소스가 프로프라이어터리를 이긴 날
2026년 4월 7일, 중국 AI 기업 Z.ai(구 Zhipu AI)가 GLM-5.1을 오픈소스로 공개했다. 이 모델은 SWE-Bench Pro에서 58.4점을 기록해 Claude Opus 4.6(57.3점)과 GPT-5.4를 제치고 코딩 벤치마크 1위를 차지했다. MIT 라이선스로 무제한 상업적 활용이 가능하며, HuggingFace에서 모델 가중치를 무료로 다운로드할 수 있다.
주요 기능과 사양
아키텍처
GLM-5.1은 GLM-5 기반 모델의 포스트 트레이닝 업그레이드 버전이다. 744억 파라미터 규모의 Mixture-of-Experts(MoE) 아키텍처를 채택해 토큰당 실제 활성화되는 파라미터는 400억 개로, 전체 파라미터 대비 훨씬 낮은 연산량으로 높은 성능을 낸다.
- 파라미터: 744B 전체 / 40B 활성
- 컨텍스트 윈도우: 200,000 토큰
- 최대 출력 길이: 131,072 토큰
- 훈련 하드웨어: Huawei Ascend 910B 칩 (Nvidia GPU 미사용)
8시간 자율 작업 능력
GLM-5.1의 가장 주목할 특징은 최대 8시간 동안 단일 태스크를 사람의 개입 없이 자율로 실행할 수 있는 장기 에이전트 능력이다. Z.ai는 GLM-5.1이 Linux 데스크톱 환경을 처음부터 독립적으로 구축하는 데모를 선보였다. 계획 수립 → 실행 → 테스트 → 버그 수정 → 최적화의 전체 루프를 수천 번 반복하는 자체 검토 메커니즘을 갖추고 있다.
코딩 에이전트 통합
GLM-5.1은 Claude Code, Cline, OpenClaw 등 OpenAI-호환 도구와 즉시 연동된다. Streamed tool-call 출력을 지원해 실시간 에이전트 워크플로우 구축이 가능하다.
벤치마크 성능
| 벤치마크 | GLM-5.1 점수 | 비고 |
|---|---|---|
| SWE-Bench Pro | 58.4 | 오픈소스 1위, 전체 1위 |
| Terminal-Bench 2.0 | 63.5 | 상위권 |
| NL2Repo | 42.7 | 중위권 |
| CyberGym | 68.7 | 보안 에이전트 |
| BrowseComp | 68.0 | 웹 브라우징 에이전트 |
SWE-Bench Pro에서는 Claude Opus 4.6(57.3)을 앞섰지만, 코딩 종합 지표(Terminal-Bench 2.0, NL2Repo 포함)에서는 Claude Opus 4.6(57.5)이 GLM-5.1(54.9)을 소폭 앞선다. 단일 벤치마크 1위와 종합 1위는 다른 의미를 갖는다.
실제 사용성 분석
배포 요구사항이 높다
FP16(풀 프리시전) 배포 시 약 1.49TB의 저장공간과 엔터프라이즈급 GPU 클러스터(고성능 가속기 8개 이상)가 필요하다. 소비자 하드웨어에서는 동작하지 않는다. FP8 양자화 버전(GLM-5.1-FP8)을 선택하면 메모리 요구량을 줄일 수 있지만, 개인 사용자가 로컬에서 실행하기는 현실적으로 어렵다.
API 접근의 경우
GLM Coding Plan(Max, Pro, Lite 플랜) 사용자는 이미 GLM-5.1을 API로 이용할 수 있다. 프로프라이어터리 모델 대비 낮은 비용으로 제공된다고 알려져 있으나, 공식 단가는 별도로 확인이 필요하다.
MIT 라이선스의 의미
MIT 라이선스는 오픈소스 중 가장 허용 범위가 넓은 라이선스 중 하나다. 제한 없는 상업적 활용, 코드 수정, 파인튜닝, 재배포가 모두 가능하다. 기업이 자체 인프라에 GLM-5.1을 올려 사용하거나, 수직 도메인에 특화된 파인튜닝 모델을 만드는 것이 법적으로 허용된다.
장단점 분석
장점
- SWE-Bench Pro 전체 1위(58.4점): 상용 모델을 넘어선 코딩 능력
- MIT 라이선스로 무제한 상업적 활용 가능
- 8시간 자율 에이전트 작업 능력
- Nvidia GPU 없이 Huawei 칩으로 훈련: AI 공급망 다각화 사례
- HuggingFace에서 즉시 다운로드 가능
단점/한계
- FP16 배포 시 1.49TB 스토리지, 엔터프라이즈급 GPU 필요
- 코딩 종합 지표에서는 Claude Opus 4.6에 소폭 뒤처짐
- 한국어 성능 및 일반 지식 벤치마크 데이터 미공개
- Huawei 칩 기반 훈련으로 재현 가능성에 제약이 있을 수 있음
산업적 전망
GLM-5.1의 등장은 몇 가지 중요한 시사점을 던진다.
첫째, 오픈소스 모델의 코딩 능력이 최상위 상용 모델과 동등하거나 특정 벤치마크에서는 앞서는 수준에 도달했다. 코딩 에이전트 시장에서 오픈소스의 경쟁력이 실질적으로 올라왔다.
둘째, Huawei Ascend 칩으로만 훈련된 744B MoE 모델이 Nvidia 하드웨어 없이도 최상위 성능을 낼 수 있음을 입증했다. 미국의 대중(對中) AI 칩 수출 규제에도 불구하고 중국 AI 연구의 경쟁력이 유지되고 있음을 보여준다.
셋째, MIT 라이선스 오픈소스 코딩 모델의 최고 벤치마크 등장은 기업 AI 도입 비용을 더욱 낮출 수 있는 환경을 조성한다. SWE-Bench Pro 1위 오픈소스 모델을 자체 인프라에 배포할 수 있다면, 상용 API 의존도를 줄이려는 기업에게 실질적인 대안이 생기는 것이다.
결론
GLM-5.1은 코딩 에이전트 분야에서 오픈소스가 상용 모델의 정점에 올라설 수 있음을 처음으로 증명한 모델이다. SWE-Bench Pro 전체 1위라는 결과와 MIT 라이선스의 조합은 코딩 AI 시장 판도를 흔들 수 있는 요소다. 다만 실제 배포의 높은 하드웨어 장벽은 일반 개발자가 아닌 기업 레벨의 채택을 전제로 한다. 코딩 자동화 솔루션 개발사, 오픈소스 AI 연구자, Nvidia 의존도를 줄이려는 기업이 주요 대상이다.
장점
- SWE-Bench Pro 전체 1위(58.4점): 상용 최강 모델을 넘어선 코딩 성능
- MIT 라이선스: 제한 없는 상업적 사용, 파인튜닝, 재배포 가능
- 8시간 자율 에이전트 작업: 장기 소프트웨어 엔지니어링 자동화 가능
- Nvidia 독립 훈련: Huawei Ascend 910B 칩으로 공급망 다각화 증명
- 주요 코딩 에이전트 도구와 즉시 연동
단점/한계
- FP16 배포 시 1.49TB 스토리지, 엔터프라이즈급 GPU 8개 이상 필요
- 코딩 종합 지표에서 Claude Opus 4.6에 소폭 뒤처짐(54.9 vs 57.5)
- 한국어 및 일반 지식 벤치마크 데이터 미공개
- Huawei 칩 기반 훈련으로 외부 재현 가능성 검증이 제한적
참고 자료
댓글0개
주요 기능/특징
1. SWE-Bench Pro 58.4점으로 전체 1위 달성 (Claude Opus 4.6 57.3점, GPT-5.4 초과) 2. 744B MoE 아키텍처, 토큰당 40B 파라미터 활성화로 효율적 연산 3. 최대 8시간 자율 에이전트 작업 능력 (계획→실행→테스트→수정→최적화) 4. MIT 라이선스 오픈소스: 무제한 상업적 사용, 파인튜닝, 재배포 허용 5. 200K 컨텍스트 윈도우, 131K 토큰 최대 출력 6. Huawei Ascend 910B 칩 전용 훈련 (Nvidia GPU 미사용) 7. Claude Code, Cline 등 주요 코딩 에이전트와 즉시 연동
핵심 인사이트
- 오픈소스 코딩 모델이 처음으로 SWE-Bench Pro에서 상용 모델 전체 1위에 올랐다
- MIT 라이선스는 기업이 자체 인프라에서 무료로 상업적 운영이 가능해 API 비용 절감 경로를 제공한다
- 8시간 자율 작업 능력은 장기 소프트웨어 엔지니어링 태스크 자동화에 직접 적용 가능하다
- Huawei 칩만으로 훈련된 최상위 모델의 등장은 Nvidia 독점 구조에 균열이 생기고 있음을 시사한다
- 744B 파라미터지만 MoE 구조로 40B만 활성화해 추론 비용과 성능을 동시에 최적화했다
- 코딩 종합 지표에서는 Claude Opus 4.6이 여전히 앞서, 단일 벤치마크 1위와 종합 1위는 다른 의미임을 유의해야 한다
- 1.49TB 스토리지 요구사항은 개인 개발자 진입 장벽으로 작용하며, 실질적 수혜자는 엔터프라이즈다
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
MiniMax M3 출시: 오픈웨이트 최초 100만 토큰 컨텍스트·멀티모달·코딩 삼박자
중국 AI 기업 MiniMax가 2026년 6월 1일 M3를 공개했다. SWE-Bench Pro 59.0%로 GPT-5.5를 추월한 오픈웨이트 모델로, MSA 아키텍처로 연산량을 1/20으로 줄이면서 1M 컨텍스트를 실현했다.
Qwen 3.7-Max 공식 출시: 35시간 자율 실행, 에이전트 AI 시대의 새 기준
알리바바가 2026년 5월 20일 클라우드 서밋에서 Qwen 3.7-Max를 공식 발표했다. GPQA Diamond 92.4점, 1백만 토큰 컨텍스트, 최대 35시간 자율 실행으로 글로벌 에이전트 AI 경쟁에 새 기준을 제시했다.
xAI Grok Build 출시: 터미널 기반 AI 코딩 에이전트로 Claude Code에 도전장
xAI가 2026년 5월 14일 터미널 네이티브 AI 코딩 에이전트 'Grok Build'를 베타 출시했다. 최대 8개의 동시 에이전트, 200만 토큰 컨텍스트, ACP 지원으로 전문 개발자 시장 공략에 나섰다.
Mistral Medium 3.5 출시: 128B 오픈웨이트 모델 + 클라우드 코딩 에이전트
Mistral AI가 128B 오픈웨이트 모델 Medium 3.5(SWE-Bench 77.6%)와 클라우드 비동기 코딩 에이전트 Vibe Remote Agents를 발표했다. 4개 GPU 자체 호스팅과 수정 MIT 라이선스를 지원한다.
