Meta Llama 4 Scout & Maverick: MoE 멀티모달로 오픈소스 AI 판도를 바꾸다
Meta가 4월 5일 Llama 4 Scout와 Maverick을 공개했다. 최초 오픈웨이트 MoE 멀티모달 모델로 Scout는 1000만 토큰 컨텍스트, Maverick은 400B 파라미터로 GPT-4o를 능가했다.
Meta가 4월 5일 Llama 4 Scout와 Maverick을 공개했다. 최초 오픈웨이트 MoE 멀티모달 모델로 Scout는 1000만 토큰 컨텍스트, Maverick은 400B 파라미터로 GPT-4o를 능가했다.
Meta Llama 4 시대가 열렸다
2026년 4월 5일, Meta AI는 Llama 시리즈의 가장 중요한 아키텍처 전환을 단행했다. Llama 4 Scout와 Maverick은 Llama 역사상 처음으로 MoE(Mixture of Experts) 아키텍처를 채택한 오픈웨이트 멀티모달 모델이다. 텍스트, 이미지, 영상을 동시에 처리하며, 두 모델 모두 Hugging Face와 llama.com을 통해 즉시 다운로드할 수 있다.
두 모델의 핵심 차이점
Llama 4 Scout: 세계 최장 컨텍스트 오픈모델
Scout는 17B 활성 파라미터, 16명의 전문가(expert), 총 109B 파라미터로 구성된 경량 고성능 모델이다. 가장 주목할 만한 특징은 업계 최고 수준인 1000만 토큰(10M)의 컨텍스트 윈도우다. 소설 수십 권, 대규모 코드베이스 전체, 수년치 채팅 기록을 한 번에 처리할 수 있다. NVIDIA H100 GPU 한 장에서 실행 가능해 단일 서버 환경에서도 운용된다.
성능 면에서는 Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1을 주요 벤치마크에서 능가하며, 200개 이상의 언어 학습 데이터를 활용한 다국어 처리 능력도 갖췄다.
Llama 4 Maverick: 오픈소스의 GPT-4o 대항마
Maverick은 17B 활성 파라미터, 128명의 전문가, 총 400B 파라미터의 대형 MoE 모델이다. MoE 구조 덕분에 토큰당 활성화되는 파라미터는 17B에 불과하지만, 128개 전문가의 집합적 지식으로 훨씬 큰 모델과 경쟁한다. LMArena에서 ELO 1417을 기록했으며, GPT-4o와 Gemini 2.0 Flash를 광범위한 벤치마크에서 상회했다. 1M 토큰 컨텍스트 윈도우를 지원한다.
핵심 기술: Early Fusion 멀티모달
Llama 4의 멀티모달 처리는 기존 방식과 다르다. Early Fusion 아키텍처는 텍스트와 비전 토큰을 모델의 초기 레이어부터 통합 처리해, 서로 다른 모달리티가 모델 전체에 걸쳐 상호작용하도록 설계됐다. 이미지 최대 8장, 동영상 프레임까지 처리할 수 있으며, 30조 토큰 이상의 데이터로 학습됐다.
훈련 중인 Behemoth: 2조 파라미터의 Teacher 모델
Meta는 별도로 Llama 4 Behemoth를 공개했다. 288B 활성 파라미터, 약 2조 총 파라미터 규모로 현재도 훈련 중이며, STEM 벤치마크에서 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 이미 능가한다고 밝혔다. Behemoth는 Scout와 Maverick의 지식 증류(knowledge distillation)에 사용된 Teacher 모델 역할도 한다.
사용성 분석: 어떤 상황에 적합한가
Scout는 긴 문서 분석, 대규모 코드베이스 리뷰, 다국어 처리가 필요한 기업 환경에 최적화된다. 단일 H100 GPU로 실행되는 비용 효율도 매력이다. Maverick은 멀티모달 추론, 복잡한 시각적 분석, GPT-4o 수준의 성능이 필요하지만 오픈웨이트 모델을 선호하는 환경에 적합하다. 두 모델 모두 Apache 2.0이 아닌 Meta 자체 라이선스(Llama 4 Community License)를 따르며, 월 3억 활성 사용자를 초과하는 서비스는 별도 협의가 필요하다.
장단점 분석
오픈웨이트 모델 중 독보적인 컨텍스트 길이와 멀티모달 지원이 강점이다. MoE 구조로 추론 효율이 높으며, 다국어 처리 능력과 HuggingFace를 통한 즉시 접근 가능성도 장점이다. 다만 Maverick 실행에는 다수의 H100 GPU가 필요해 개인 연구자 진입 장벽이 존재하고, 라이선스가 Apache 2.0이 아니어서 상업적 활용 시 조건 확인이 필요하다. 훈련 중인 Behemoth는 아직 공개되지 않아 전체 역량 평가에 시간이 필요하다.
전망: 오픈소스 LLM 경쟁 구도 변화
Llama 4는 오픈소스 LLM 생태계의 판도를 바꾸고 있다. 특히 GPT-4o를 벤치마크에서 상회하는 오픈웨이트 모델의 등장은, 폐쇄형 독점 모델에 의존하지 않아도 된다는 신호를 보낸다. 2026년 하반기 Behemoth 공개와 함께 오픈소스 진영의 경쟁력은 더욱 강화될 전망이다.
결론
Meta Llama 4는 오픈소스 AI의 새 기준을 제시했다. Scout의 1000만 토큰 컨텍스트와 Maverick의 GPT-4o 이상 성능은 기업과 개발자 모두에게 실질적인 선택지가 된다. 독점 클라우드 의존도를 줄이려는 팀이라면 Llama 4를 적극 검토할 시점이다.
장점
- 오픈웨이트 모델 중 최고 수준의 멀티모달 성능 (GPT-4o 벤치마크 상회)
- Scout의 1000만 토큰 컨텍스트로 초장문 처리 실용화
- MoE 구조로 높은 성능과 추론 효율 동시 달성
- HuggingFace 즉시 다운로드로 자체 배포 가능
- 200개 이상 언어 지원으로 글로벌 활용 가능
단점/한계
- Maverick은 다수 H100 GPU 필요로 개인 연구자 접근 어려움
- Apache 2.0이 아닌 Meta 자체 라이선스로 상업적 조건 확인 필요
- Behemoth는 아직 훈련 중으로 전체 역량 확인 불가
- Scout도 단일 H100 필요해 CPU 환경 배포 제한
참고 자료
댓글0개
주요 기능/특징
1. MoE 아키텍처 최초 적용: Llama 최초 MoE 기반 모델로 효율적 추론 실현 2. Scout 1000만 토큰 컨텍스트: 오픈웨이트 모델 중 업계 최장 컨텍스트 윈도우 3. Maverick 400B 총 파라미터: 128개 전문가로 GPT-4o·Gemini 2.0 Flash 성능 능가 4. Early Fusion 멀티모달: 텍스트·이미지·동영상을 모델 초기부터 통합 처리 5. 30조 토큰 + 200개 언어 학습: 방대한 다국어·멀티모달 학습 데이터 6. HuggingFace 즉시 다운로드: 오픈웨이트로 즉시 자체 인프라 배포 가능
핵심 인사이트
- Llama 4는 MoE 아키텍처로 GPT-4o급 성능을 오픈소스로 구현해 독점 모델 의존도를 낮출 수 있게 했다.
- Scout의 1000만 토큰 컨텍스트는 대규모 코드베이스 분석, 법률 문서 검토 등 기존에 불가능했던 작업을 실용화한다.
- MoE 구조는 17B 활성 파라미터만 사용해 운영 비용을 크게 줄이면서도 훨씬 큰 모델과 경쟁한다.
- Early Fusion 멀티모달은 후처리 방식 대비 더 깊은 크로스모달 이해력을 제공한다.
- Behemoth(2T 파라미터)의 Teacher 역할은 대형 모델에서 소형 모델로 지식 증류하는 새 방식을 보여준다.
- Meta의 LMArena ELO 1417은 Maverick이 상업용 모델과 실질적 경쟁 구도에 진입했음을 의미한다.
- 라이선스가 Apache 2.0이 아니어서 초대형 서비스(월 3억 사용자 이상)는 별도 협의가 필요하다.
- Gemma 4의 Apache 2.0 전환과 Llama 4 출시가 겹치며 오픈소스 AI 경쟁이 절정에 달하고 있다.
