2026.03.09
4.1천
0
0
기타 LLM

GLM-5: Huawei 칩으로 훈련한 744B 오픈소스 MoE 모델의 등장

중국 Zhipu AI가 744B 파라미터 MoE 모델 GLM-5를 MIT 라이선스로 공개했다. Huawei Ascend 910B 칩 10만 개로 훈련하여 NVIDIA 없이 프론티어급 성능을 달성했으며, SWE-bench 77.8%, Humanity's Last Exam 50.4%를 기록했다.

#GLM5#ZhipuAI#MoE#오픈소스#Huawei
GLM-5: Huawei 칩으로 훈련한 744B 오픈소스 MoE 모델의 등장
AI 핵심 요약

중국 Zhipu AI가 744B 파라미터 MoE 모델 GLM-5를 MIT 라이선스로 공개했다. Huawei Ascend 910B 칩 10만 개로 훈련하여 NVIDIA 없이 프론티어급 성능을 달성했으며, SWE-bench 77.8%, Humanity's Last Exam 50.4%를 기록했다.

NVIDIA 없이 프론티어 LLM을 만들다

Zhipu AI가 2026년 2월 11일 GLM-5를 공개했다. 744B 파라미터 규모의 Mixture of Experts(MoE) 모델로, MIT 라이선스 하에 가중치를 HuggingFace에 완전 공개했다. 가장 주목할 점은 NVIDIA GPU 없이 Huawei Ascend 910B 칩 10만 개와 MindSpore 프레임워크만으로 훈련을 완료했다는 사실이다.

미국의 AI 칩 수출 규제 속에서 중국 자체 하드웨어로 프론티어급 성능을 달성한 첫 사례로, AI 하드웨어 생태계의 다변화를 보여준다.

핵심 기능 1: 744B MoE 아키텍처

GLM-5는 총 744B 파라미터에 256개의 전문가(Expert)를 보유하며, 추론 시 토큰당 8개만 활성화하여 실제 연산량은 44B 수준이다. 28.5조 토큰으로 학습했고, 최대 200K 토큰의 컨텍스트 윈도우를 지원한다.

사양GLM-5
총 파라미터744B
활성 파라미터44B (토큰당)
MoE 전문가 수256개
활성 전문가 수8개 (토큰당)
학습 토큰28.5T
컨텍스트 윈도우200K
최대 출력131K 토큰

Multi-head Latent Attention(MLA) 기법으로 메모리 오버헤드를 33% 절감했고, DeepSeek Sparse Attention으로 장문맥 처리 효율을 높였다.

핵심 기능 2: 환각률 대폭 감소

GLM-5의 기술적 혁신 중 하나는 'Slime'이라 불리는 비동기 강화학습(RL) 기법이다. 이전 모델 GLM-4.7의 환각률 90%를 GLM-5에서 34%로 낮췄다. BrowseComp 벤치마크에서 75.9점을 기록하여 GPT-5.2(72.1)와 Claude Opus 4.6(68.4)를 모두 앞섰다.

벤치마크GLM-5GPT-5.2Claude Opus 4.6
SWE-bench Verified77.8%76.2%80.8%
Humanity's Last Exam50.4%47.8%46.2%
BrowseComp75.972.168.4

Humanity's Last Exam에서 50.4%로 전체 오픈소스 모델 중 최고 점수를 기록했다. SWE-bench에서는 Claude Opus 4.6(80.8%)에 미치지 못하지만, 오픈소스 모델로는 최고 수준이다.

핵심 기능 3: 파격적인 가격 경쟁력

API 가격에서 GLM-5는 경쟁 모델 대비 압도적인 가격 우위를 보인다.

모델입력 (100만 토큰)출력 (100만 토큰)
GLM-5$1.00$3.20
Claude Opus 4.6$15.00$75.00
GPT-5.2$12.00$60.00

Claude Opus 4.6 대비 입력 비용은 15분의 1, 출력 비용은 23분의 1 수준이다. chat.z.ai에서 무료로 사용할 수도 있다.

핵심 기능 4: Huawei 칩 기반 독자 생태계

전체 훈련 과정을 Huawei Ascend 910B 칩과 MindSpore 프레임워크로 수행했다. CUDA나 PyTorch를 사용하지 않았다. 이는 미국 수출 규제에 대한 중국 AI 산업의 기술적 대응이며, NVIDIA 독점 체제에 균열을 만드는 사건이다.

다만 자체 호스팅 시에는 vLLM을 통한 배포가 가능하며, A100 8개 이상의 GPU가 권장된다. OpenAI 호환 API 인터페이스를 제공하여 기존 코드 수정 없이 전환할 수 있다.

사용성 분석

GLM-5는 HuggingFace에서 MIT 라이선스로 다운로드 가능하다. API는 chat.z.ai와 OpenRouter를 통해 접근할 수 있다. OpenAI 호환 인터페이스 덕분에 기존 OpenAI SDK 코드에서 엔드포인트만 변경하면 바로 사용할 수 있다.

코딩, 추론, 장문맥 처리에서 모두 경쟁력 있는 성능을 보이며, 특히 가격 민감한 기업 사용자에게 매력적인 선택지다. 다만 한국어 성능은 별도 검증이 필요하며, 중국어와 영어 중심으로 최적화되어 있다.

결론: 오픈소스 AI의 지형 변화

GLM-5는 두 가지 메시지를 전달한다. 하나는 NVIDIA 없이도 프론티어급 LLM 훈련이 가능하다는 것이고, 다른 하나는 MIT 라이선스의 오픈소스 모델이 상용 모델과 직접 경쟁할 수준에 도달했다는 것이다. 가격 대비 성능에서 현존하는 가장 경쟁력 있는 오픈소스 LLM이다.

장점

  • MIT 라이선스로 상업적 활용 완전 허용
  • Claude Opus 4.6 대비 15~23배 저렴한 API 가격
  • SWE-bench 77.8%, Humanity's Last Exam 50.4%로 오픈소스 최고 수준 성능
  • OpenAI 호환 API로 기존 코드 수정 없이 전환 가능
  • 200K 토큰 컨텍스트 윈도우와 131K 출력 지원

단점/한계

  • 한국어 성능은 별도 검증 필요 (중국어/영어 최적화)
  • 자체 호스팅 시 A100 8개 이상 필요하여 개인 사용자에게는 부담
  • Huawei 칩 기반 훈련으로 재현성에 제약이 있을 수 있음
  • SWE-bench에서 Claude Opus 4.6(80.8%) 대비 3% 낮은 코딩 성능

댓글0

주요 기능/특징

Zhipu AI의 GLM-5는 744B MoE 모델로 Huawei Ascend 910B 칩 10만 개로 훈련됐다. 256개 전문가 중 8개만 활성화하는 구조로 실제 연산량은 44B 수준이다. SWE-bench 77.8%, Humanity's Last Exam 50.4%, BrowseComp 75.9로 오픈소스 최고 수준이다. Slime RL 기법으로 환각률을 90%에서 34%로 낮췄다. API 가격은 입력 $1.00/출력 $3.20으로 Claude Opus 4.6 대비 15~23배 저렴하다.

핵심 인사이트

  • Huawei Ascend 910B 칩만으로 프론티어급 LLM 훈련에 성공하여 NVIDIA 독점 체제에 균열을 만들었다.
  • MIT 라이선스 완전 공개로 상업적 활용에 제한이 없어 오픈소스 생태계 확장에 기여한다.
  • Slime RL 기법으로 환각률을 90%에서 34%로 낮춘 것은 LLM 신뢰성 향상의 중요한 진전이다.
  • 입력 $1.00/출력 $3.20의 가격은 기업 AI 도입 비용을 대폭 낮출 수 있다.
  • Humanity's Last Exam 50.4%로 오픈소스 모델 중 최고 점수를 기록하여 추론 능력의 새로운 기준을 세웠다.
  • MoE 아키텍처의 44B 활성 파라미터 설계로 추론 비용 대비 성능 효율이 높다.
  • 미국 AI 칩 수출 규제에도 중국 독자 AI 생태계 구축이 실질적 성과를 내고 있음을 보여준다.

이 리뷰가 유용했나요?

공유하기