GLM-5: Huawei 칩으로 훈련한 744B 오픈소스 MoE 모델의 등장
중국 Zhipu AI가 744B 파라미터 MoE 모델 GLM-5를 MIT 라이선스로 공개했다. Huawei Ascend 910B 칩 10만 개로 훈련하여 NVIDIA 없이 프론티어급 성능을 달성했으며, SWE-bench 77.8%, Humanity's Last Exam 50.4%를 기록했다.
중국 Zhipu AI가 744B 파라미터 MoE 모델 GLM-5를 MIT 라이선스로 공개했다. Huawei Ascend 910B 칩 10만 개로 훈련하여 NVIDIA 없이 프론티어급 성능을 달성했으며, SWE-bench 77.8%, Humanity's Last Exam 50.4%를 기록했다.
NVIDIA 없이 프론티어 LLM을 만들다
Zhipu AI가 2026년 2월 11일 GLM-5를 공개했다. 744B 파라미터 규모의 Mixture of Experts(MoE) 모델로, MIT 라이선스 하에 가중치를 HuggingFace에 완전 공개했다. 가장 주목할 점은 NVIDIA GPU 없이 Huawei Ascend 910B 칩 10만 개와 MindSpore 프레임워크만으로 훈련을 완료했다는 사실이다.
미국의 AI 칩 수출 규제 속에서 중국 자체 하드웨어로 프론티어급 성능을 달성한 첫 사례로, AI 하드웨어 생태계의 다변화를 보여준다.
핵심 기능 1: 744B MoE 아키텍처
GLM-5는 총 744B 파라미터에 256개의 전문가(Expert)를 보유하며, 추론 시 토큰당 8개만 활성화하여 실제 연산량은 44B 수준이다. 28.5조 토큰으로 학습했고, 최대 200K 토큰의 컨텍스트 윈도우를 지원한다.
| 사양 | GLM-5 |
|---|---|
| 총 파라미터 | 744B |
| 활성 파라미터 | 44B (토큰당) |
| MoE 전문가 수 | 256개 |
| 활성 전문가 수 | 8개 (토큰당) |
| 학습 토큰 | 28.5T |
| 컨텍스트 윈도우 | 200K |
| 최대 출력 | 131K 토큰 |
Multi-head Latent Attention(MLA) 기법으로 메모리 오버헤드를 33% 절감했고, DeepSeek Sparse Attention으로 장문맥 처리 효율을 높였다.
핵심 기능 2: 환각률 대폭 감소
GLM-5의 기술적 혁신 중 하나는 'Slime'이라 불리는 비동기 강화학습(RL) 기법이다. 이전 모델 GLM-4.7의 환각률 90%를 GLM-5에서 34%로 낮췄다. BrowseComp 벤치마크에서 75.9점을 기록하여 GPT-5.2(72.1)와 Claude Opus 4.6(68.4)를 모두 앞섰다.
| 벤치마크 | GLM-5 | GPT-5.2 | Claude Opus 4.6 |
|---|---|---|---|
| SWE-bench Verified | 77.8% | 76.2% | 80.8% |
| Humanity's Last Exam | 50.4% | 47.8% | 46.2% |
| BrowseComp | 75.9 | 72.1 | 68.4 |
Humanity's Last Exam에서 50.4%로 전체 오픈소스 모델 중 최고 점수를 기록했다. SWE-bench에서는 Claude Opus 4.6(80.8%)에 미치지 못하지만, 오픈소스 모델로는 최고 수준이다.
핵심 기능 3: 파격적인 가격 경쟁력
API 가격에서 GLM-5는 경쟁 모델 대비 압도적인 가격 우위를 보인다.
| 모델 | 입력 (100만 토큰) | 출력 (100만 토큰) |
|---|---|---|
| GLM-5 | $1.00 | $3.20 |
| Claude Opus 4.6 | $15.00 | $75.00 |
| GPT-5.2 | $12.00 | $60.00 |
Claude Opus 4.6 대비 입력 비용은 15분의 1, 출력 비용은 23분의 1 수준이다. chat.z.ai에서 무료로 사용할 수도 있다.
핵심 기능 4: Huawei 칩 기반 독자 생태계
전체 훈련 과정을 Huawei Ascend 910B 칩과 MindSpore 프레임워크로 수행했다. CUDA나 PyTorch를 사용하지 않았다. 이는 미국 수출 규제에 대한 중국 AI 산업의 기술적 대응이며, NVIDIA 독점 체제에 균열을 만드는 사건이다.
다만 자체 호스팅 시에는 vLLM을 통한 배포가 가능하며, A100 8개 이상의 GPU가 권장된다. OpenAI 호환 API 인터페이스를 제공하여 기존 코드 수정 없이 전환할 수 있다.
사용성 분석
GLM-5는 HuggingFace에서 MIT 라이선스로 다운로드 가능하다. API는 chat.z.ai와 OpenRouter를 통해 접근할 수 있다. OpenAI 호환 인터페이스 덕분에 기존 OpenAI SDK 코드에서 엔드포인트만 변경하면 바로 사용할 수 있다.
코딩, 추론, 장문맥 처리에서 모두 경쟁력 있는 성능을 보이며, 특히 가격 민감한 기업 사용자에게 매력적인 선택지다. 다만 한국어 성능은 별도 검증이 필요하며, 중국어와 영어 중심으로 최적화되어 있다.
결론: 오픈소스 AI의 지형 변화
GLM-5는 두 가지 메시지를 전달한다. 하나는 NVIDIA 없이도 프론티어급 LLM 훈련이 가능하다는 것이고, 다른 하나는 MIT 라이선스의 오픈소스 모델이 상용 모델과 직접 경쟁할 수준에 도달했다는 것이다. 가격 대비 성능에서 현존하는 가장 경쟁력 있는 오픈소스 LLM이다.
장점
- MIT 라이선스로 상업적 활용 완전 허용
- Claude Opus 4.6 대비 15~23배 저렴한 API 가격
- SWE-bench 77.8%, Humanity's Last Exam 50.4%로 오픈소스 최고 수준 성능
- OpenAI 호환 API로 기존 코드 수정 없이 전환 가능
- 200K 토큰 컨텍스트 윈도우와 131K 출력 지원
단점/한계
- 한국어 성능은 별도 검증 필요 (중국어/영어 최적화)
- 자체 호스팅 시 A100 8개 이상 필요하여 개인 사용자에게는 부담
- Huawei 칩 기반 훈련으로 재현성에 제약이 있을 수 있음
- SWE-bench에서 Claude Opus 4.6(80.8%) 대비 3% 낮은 코딩 성능
참고 자료
댓글0개
주요 기능/특징
Zhipu AI의 GLM-5는 744B MoE 모델로 Huawei Ascend 910B 칩 10만 개로 훈련됐다. 256개 전문가 중 8개만 활성화하는 구조로 실제 연산량은 44B 수준이다. SWE-bench 77.8%, Humanity's Last Exam 50.4%, BrowseComp 75.9로 오픈소스 최고 수준이다. Slime RL 기법으로 환각률을 90%에서 34%로 낮췄다. API 가격은 입력 $1.00/출력 $3.20으로 Claude Opus 4.6 대비 15~23배 저렴하다.
핵심 인사이트
- Huawei Ascend 910B 칩만으로 프론티어급 LLM 훈련에 성공하여 NVIDIA 독점 체제에 균열을 만들었다.
- MIT 라이선스 완전 공개로 상업적 활용에 제한이 없어 오픈소스 생태계 확장에 기여한다.
- Slime RL 기법으로 환각률을 90%에서 34%로 낮춘 것은 LLM 신뢰성 향상의 중요한 진전이다.
- 입력 $1.00/출력 $3.20의 가격은 기업 AI 도입 비용을 대폭 낮출 수 있다.
- Humanity's Last Exam 50.4%로 오픈소스 모델 중 최고 점수를 기록하여 추론 능력의 새로운 기준을 세웠다.
- MoE 아키텍처의 44B 활성 파라미터 설계로 추론 비용 대비 성능 효율이 높다.
- 미국 AI 칩 수출 규제에도 중국 독자 AI 생태계 구축이 실질적 성과를 내고 있음을 보여준다.
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Qwen 3.7-Max 공식 출시: 35시간 자율 실행, 에이전트 AI 시대의 새 기준
알리바바가 2026년 5월 20일 클라우드 서밋에서 Qwen 3.7-Max를 공식 발표했다. GPQA Diamond 92.4점, 1백만 토큰 컨텍스트, 최대 35시간 자율 실행으로 글로벌 에이전트 AI 경쟁에 새 기준을 제시했다.
xAI Grok Build 출시: 터미널 기반 AI 코딩 에이전트로 Claude Code에 도전장
xAI가 2026년 5월 14일 터미널 네이티브 AI 코딩 에이전트 'Grok Build'를 베타 출시했다. 최대 8개의 동시 에이전트, 200만 토큰 컨텍스트, ACP 지원으로 전문 개발자 시장 공략에 나섰다.
Mistral Medium 3.5 출시: 128B 오픈웨이트 모델 + 클라우드 코딩 에이전트
Mistral AI가 128B 오픈웨이트 모델 Medium 3.5(SWE-Bench 77.6%)와 클라우드 비동기 코딩 에이전트 Vibe Remote Agents를 발표했다. 4개 GPU 자체 호스팅과 수정 MIT 라이선스를 지원한다.
DeepSeek V4 Pro 심층 분석: GPT-5.5 제치는 오픈소스 코딩 괴물의 등장
DeepSeek이 2026년 4월 24일 V4 Pro를 출시했다. SWE-bench 80.6%, LiveCodeBench 93.5%로 서양 최고 모델들과 어깨를 나란히 하면서도 가격은 Claude Opus 4.7 대비 최대 35배 저렴하다.
