Google Gemma 4 출시: Apache 2.0 라이선스로 전환한 최강 오픈 모델
Google DeepMind가 Gemini 3 기반의 오픈 모델 Gemma 4를 Apache 2.0 라이선스로 출시했다. 31B 모델이 오픈 모델 Arena AI 3위에 올랐고, 2B 모델은 라즈베리파이에서도 구동된다.
Google DeepMind가 Gemini 3 기반의 오픈 모델 Gemma 4를 Apache 2.0 라이선스로 출시했다. 31B 모델이 오픈 모델 Arena AI 3위에 올랐고, 2B 모델은 라즈베리파이에서도 구동된다.
Gemma 4, 진정한 오픈 모델의 시대
2026년 4월 2일, Google DeepMind가 Gemini 3 연구를 기반으로 한 오픈 모델 Gemma 4를 공식 출시했다. 4가지 크기의 모델 라인업, Apache 2.0 라이선스, 140개 이상 언어 지원, 멀티모달 기능을 한꺼번에 갖췄다.
가장 주목할 변화는 라이선스다. 이전 Gemma 시리즈의 제한적 라이선스에서 완전한 Apache 2.0로 전환했다. MAU(월간 활성 사용자) 제한 없음, 사용 목적 제한 없음, 재배포 및 상업적 배포 완전 자유다.
모델 라인업: E2B부터 31B까지
Gemma 4는 엣지 디바이스부터 데이터센터까지 아우르는 4가지 모델로 구성된다.
| 모델 | 활성 파라미터 | 전체 파라미터 | 컨텍스트 | 모달리티 |
|---|---|---|---|---|
| E2B | 2.3B | 5.1B | 128K | 텍스트, 이미지, 오디오 |
| E4B | 4.5B | 8B | 128K | 텍스트, 이미지, 오디오 |
| 26B-A4B (MoE) | 3.8B | 25.2B | 256K | 텍스트, 이미지, 비디오 |
| 31B (Dense) | 30.7B | 30.7B | 256K | 텍스트, 이미지, 비디오 |
E 시리즈는 'Per-Layer Embeddings' 기술로 큰 모델 수준의 표현력을 유지하면서 메모리 사용을 최소화한다. 26B MoE 모델은 추론 시 3.8B 파라미터만 활성화해 4B 모델에 근접한 속도를 낸다.
벤치마크: 20배 큰 모델을 넘다
Gemma 4 31B의 벤치마크 성적은 인상적이다.
| 벤치마크 | Gemma 4 31B | 비고 |
|---|---|---|
| MMLU Pro | 85.2% | 추론/지식 평가 |
| AIME 2026 | 89.2% | 수학 추론 |
| GPQA Diamond | 84.3% | 과학 추론 |
| BigBench Extra Hard | 74.4% | Gemma 3의 19.3% 대비 대폭 향상 |
| LiveCodeBench v6 | 80.0% | 코딩 능력 |
| Codeforces ELO | 2150 | 경쟁 프로그래밍 |
| MMMU Pro | 76.9% | 멀티모달 추론 |
| MATH-Vision | 85.6% | 시각 수학 |
Arena AI 텍스트 리더보드에서 31B가 오픈 모델 전체 3위(ELO 약 1452), 26B MoE가 6위를 차지했다. 자신보다 20배 큰 모델들을 넘어선 성적이다.
BigBench Extra Hard에서 Gemma 3의 19.3%에서 74.4%로 도약한 것은 추론 능력의 근본적 개선을 보여준다.
아키텍처 혁신
Gemma 4의 기술적 혁신은 여러 측면에 걸쳐 있다.
첫째, 교대 어텐션 레이어(Alternating Attention Layers)다. 로컬(512-1024 토큰)과 글로벌 컨텍스트 윈도우를 번갈아 사용해 효율성과 장문 처리를 동시에 달성한다.
둘째, Dual RoPE 위치 인코딩이다. 품질 저하 없이 컨텍스트를 확장할 수 있는 핵심 기술이다.
셋째, 공유 KV 캐시다. 최종 레이어 간 KV 캐시를 공유해 추론 오버헤드를 줄인다.
넷째, 네이티브 함수 호출과 구조화된 JSON 출력을 지원해 에이전틱 워크플로우에 적합하다.
엣지에서 데이터센터까지
Gemma 4의 가장 인상적인 특징은 하드웨어 유연성이다.
| 모델 | 최소 VRAM | 활용 환경 |
|---|---|---|
| E2B | 8GB / Apple Silicon | 스마트폰, 라즈베리파이 |
| E4B | 12-16GB | 노트북, 데스크톱 |
| 26B-A4B | 24GB (A100) | 워크스테이션, 서버 |
| 31B | 40GB+ (H100) | 데이터센터 |
E2B 모델은 2비트 양자화 시 라즈베리파이 5에서 프리필 133토큰/초, 디코딩 7.6토큰/초를 달성한다. 스마트폰에서 완전 오프라인으로 작동하며, 지연 시간이 거의 0에 가깝다.
Hugging Face, Google AI Studio, Ollama, Kaggle, Vertex AI, Cloud Run, GKE 등 주요 플랫폼에서 바로 사용할 수 있다.
Apache 2.0의 의미
라이선스 전환은 기술적 성능만큼이나 중요하다. 이전 Gemma 시리즈는 커스텀 라이선스로 상업적 사용에 제약이 있었다. Apache 2.0는 MAU 제한 없음, 유해 사용 제외 조항 없음, 재배포 및 상업적 배포 완전 자유를 의미한다.
이는 Meta의 Llama 시리즈(커스텀 라이선스, 사용자 수 제한)보다 더 개방적인 접근이다. Google이 오픈소스 AI 생태계에서 리더십을 확보하려는 의지가 명확하다.
결론
Gemma 4는 오픈 모델의 새로운 기준을 세웠다. Apache 2.0 라이선스로 진정한 자유를 제공하면서, Arena AI 3위의 성능, 라즈베리파이부터 H100까지의 하드웨어 유연성, 140개 이상 언어의 멀티모달 지원을 갖췄다. 오픈소스 AI 모델을 프로덕션에 도입하려는 기업과 개발자에게 가장 매력적인 선택지가 되었다.
장점
- Apache 2.0 라이선스로 상업적 사용에 제한 없는 진정한 오픈 모델
- 31B 모델 Arena AI 3위로 20배 큰 모델을 넘어선 성능
- E2B부터 31B까지 라즈베리파이에서 H100까지 유연한 하드웨어 지원
- 140개 이상 언어와 텍스트/이미지/오디오/비디오 멀티모달 기본 지원
- 네이티브 함수 호출, 확장 사고 모드 등 에이전틱 AI 기능 탑재
단점/한계
- 31B 풀 정밀도 구동에 H100급 40GB+ GPU 필요
- E2B/E4B 소형 모델의 복잡한 추론 작업 성능은 대형 모델 대비 제한적
- Gemini 3 대비 정확한 성능 차이가 공개되지 않아 실질적 격차 파악이 어려움
- 오디오/비디오 입력은 중형 이상 모델에서만 비디오 지원으로 차등 제공
참고 자료
댓글0개
주요 기능/특징
1. Apache 2.0 라이선스: MAU 제한 없음, 상업적 사용 완전 자유, 재배포 자유 2. 4가지 모델 라인업: E2B(2.3B), E4B(4.5B), 26B MoE(3.8B 활성), 31B Dense로 엣지~데이터센터 커버 3. Arena AI 3위: 31B 모델이 오픈 모델 텍스트 리더보드 3위(ELO 1452), 20배 큰 모델 능가 4. 멀티모달 네이티브: 텍스트, 이미지, 오디오, 비디오 입력 지원 + 네이티브 함수 호출 5. 엣지 구동: E2B가 라즈베리파이 5에서 2비트 양자화로 7.6토큰/초 디코딩 달성
핵심 인사이트
- Apache 2.0 전환은 Llama의 커스텀 라이선스보다 개방적이며, 기업 도입 장벽을 근본적으로 낮춘다
- BigBench Extra Hard에서 19.3%에서 74.4%로의 도약은 추론 능력의 세대적 진화를 보여준다
- 26B MoE 모델이 3.8B 파라미터만 활성화하면서 리더보드 6위를 차지한 것은 효율성 혁신의 정점이다
- 라즈베리파이에서의 구동은 AI 민주화가 하드웨어 레벨까지 확장되고 있음을 증명한다
- Google이 Gemini 3 기술을 오픈 모델로 빠르게 이전한 것은 오픈소스 생태계 경쟁이 치열함을 반영한다
- 140개 이상 언어 지원은 영어 중심 모델에서 소외된 언어권 사용자에게 중요한 진전이다
- 네이티브 함수 호출과 JSON 출력은 에이전틱 AI 워크플로우에서 오픈 모델의 실용성을 높인다
- Hugging Face, Ollama 등 주요 플랫폼 동시 지원은 개발자 접근성을 극대화하는 전략이다
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Karpathy의 autoresearch: GPU 1개로 밤새 100개 AI 실험을 자동 실행
전 Tesla AI 디렉터 Andrej Karpathy가 오픈소스 프로젝트 autoresearch를 공개했다. 630줄 Python 코드로 AI 에이전트가 단일 GPU에서 밤새 자율적으로 ML 실험을 반복하며, 공개 며칠 만에 GitHub 8,000 스타를 달성했다.
AI2 Olmo Hybrid 7B: 트랜스포머와 RNN을 결합한 완전 오픈소스 LLM
Allen Institute for AI(AI2)가 Olmo Hybrid 7B를 Apache 2.0 라이선스로 공개했다. 트랜스포머 어텐션과 gated DeltaNet을 결합한 하이브리드 아키텍처로, Olmo 3 대비 2배의 데이터 효율성과 75% 향상된 장문맥 추론 효율성을 달성했다.
Guide Labs Steerling-8B 오픈소스 공개: AI 블랙박스 문제를 해결하는 해석 가능한 LLM
Y Combinator 출신 스타트업 Guide Labs가 2026년 2월 23일 Steerling-8B을 오픈소스로 공개했다. 모든 출력 토큰을 학습 데이터 원본까지 추적할 수 있는 최초의 상용급 해석 가능한 LLM으로, 기존 모델 성능의 90%를 유지한다.
Cohere Tiny Aya: 70개 이상 언어를 지원하는 초경량 오픈소스 AI 모델
Cohere가 33.5억 파라미터로 70개 이상 언어를 지원하는 오픈소스 모델 Tiny Aya를 출시했습니다. 노트북에서 오프라인으로 실행 가능하며, 아프리카/남아시아/아시아태평양 특화 지역별 변형 모델도 함께 공개되었습니다.
