2026.03.08
3.8천
0
0
오픈소스

AI2 Olmo Hybrid 7B: 트랜스포머와 RNN을 결합한 완전 오픈소스 LLM

Allen Institute for AI(AI2)가 Olmo Hybrid 7B를 Apache 2.0 라이선스로 공개했다. 트랜스포머 어텐션과 gated DeltaNet을 결합한 하이브리드 아키텍처로, Olmo 3 대비 2배의 데이터 효율성과 75% 향상된 장문맥 추론 효율성을 달성했다.

#AI2#OlmoHybrid#오픈소스#DeltaNet#하이브리드아키텍처
AI2 Olmo Hybrid 7B: 트랜스포머와 RNN을 결합한 완전 오픈소스 LLM
AI 핵심 요약

Allen Institute for AI(AI2)가 Olmo Hybrid 7B를 Apache 2.0 라이선스로 공개했다. 트랜스포머 어텐션과 gated DeltaNet을 결합한 하이브리드 아키텍처로, Olmo 3 대비 2배의 데이터 효율성과 75% 향상된 장문맥 추론 효율성을 달성했다.

트랜스포머의 한계를 넘는 하이브리드 아키텍처

Allen Institute for AI(AI2)가 Olmo Hybrid 7B를 공개했다. 기존 트랜스포머 아키텍처의 어텐션 메커니즘과 선형 순환 신경망(Linear RNN)을 결합한 하이브리드 모델이다. 가중치, 중간 체크포인트, 학습 코드, 기술 보고서까지 모두 Apache 2.0 라이선스로 공개하여 '완전한 오픈소스'를 표방한다.

핵심 혁신은 아키텍처에 있다. 32개 레이어 중 75%에서 기존 멀티헤드 어텐션을 gated DeltaNet 헤드로 대체했다. 3개의 DeltaNet 레이어와 1개의 어텐션 레이어를 반복하는 구조다. 이 설계로 학습 속도 저하 없이 데이터 효율성을 2배로 끌어올렸다.

핵심 기능 1: 2배의 데이터 효율성

Olmo Hybrid 7B의 가장 주목할 성과는 데이터 효율성이다.

벤치마크Olmo Hybrid 7BOlmo 3 7B차이
BBH41.737.3+4.4
MMLU STEM64.659.7+4.9
MBPP (코딩)50.343.6+6.7
ARC MC90.889.2+1.6
HumanEval49.049.1-0.1

MMLU 벤치마크에서 Olmo Hybrid는 Olmo 3과 동일한 정확도에 도달하는 데 49% 더 적은 토큰을 사용했다. 5.5조 토큰으로 학습하면서도 Olmo 3을 대부분의 벤치마크에서 능가한다. 같은 학습 처리량(throughput)을 유지하면서 이 효율성 향상을 달성했다는 점이 핵심이다.

핵심 기능 2: gated DeltaNet 아키텍처

기존 트랜스포머의 어텐션 메커니즘은 입력 시퀀스 길이의 제곱에 비례하는 연산 비용이 발생한다. Olmo Hybrid는 이를 해결하기 위해 레이어의 75%에서 gated DeltaNet을 사용한다.

아키텍처 사양
모델 크기7B
레이어 수32
Hidden Size3,840
컨텍스트 길이65,536 토큰
DeltaNet 레이어 비율75%
어텐션 레이어 비율25%

gated DeltaNet은 선형 순환 구조로 시퀀스 길이에 선형적으로 비례하는 연산 비용을 가진다. 장문맥 처리 시 추론 효율성(처리량 및 메모리)이 75% 향상된다. 65,536 토큰의 컨텍스트 윈도우를 효율적으로 처리할 수 있다.

핵심 기능 3: 완전한 오픈소스 공개

AI2는 모델 가중치만 공개하는 '오픈 워싱'이 아닌, 연구 재현에 필요한 모든 요소를 공개했다.

공개 항목은 다음과 같다.

  • 기본 모델(Base), SFT, DPO 단계별 가중치
  • 학습 중간 체크포인트
  • 학습 코드(OLMo-core, open-instruct)
  • 5.5조 토큰 학습 데이터 구성(Dolma 3)
  • 기술 보고서 및 스케일링 법칙 분석
  • 평가 도구(OLMo-Eval)

이는 Meta의 Llama나 Mistral의 모델 공개와 차별화되는 지점이다. 다른 조직의 연구자들이 동일한 결과를 재현하고 개선할 수 있는 기반을 제공한다.

3단계 학습 파이프라인

Olmo Hybrid의 학습은 세 단계로 진행됐다.

단계데이터토큰 수
Stage 1: 사전학습dolma3_6T_mix5.5T
Stage 2: 중기 학습코드 20%, 웹 28%, 수학 19%, QA 14%100B
Stage 3: 장문맥 학습중기 데이터 66% + PDF 34%50B

중기 학습에서 코드(20%), 수학(19%), 사고 과정(8%) 데이터의 비중이 높아 추론 능력을 강화했다. 장문맥 학습에서는 PDF 데이터 34%를 포함하여 긴 문서 처리 능력을 확보했다.

하이브리드 아키텍처의 미래

Olmo Hybrid는 순수 트랜스포머와 순수 RNN 사이의 최적 지점을 실증적으로 보여준다. 어텐션 레이어를 완전히 제거하지 않고 25%를 유지함으로써, 트랜스포머의 강점(장거리 의존성 포착)과 RNN의 강점(효율적인 순차 처리)을 모두 확보했다.

이 접근법은 Jamba(AI21 Labs), Mamba-2, Griffin(Google DeepMind) 등과 함께 하이브리드 아키텍처가 차세대 LLM의 주류가 될 가능성을 높인다.

결론: 효율성의 새로운 기준

Olmo Hybrid 7B는 '더 크고 더 많은 데이터'가 아닌 '더 효율적인 아키텍처'로 성능을 끌어올린 사례다. 2배의 데이터 효율성은 학습 비용을 절반으로 줄일 수 있다는 의미다. Apache 2.0 라이선스의 완전한 오픈소스 공개는 학술 연구와 상업적 활용 모두에서 하이브리드 아키텍처 연구를 가속화할 것이다.

장점

  • Olmo 3 대비 2배 데이터 효율성으로 학습 비용 대폭 절감
  • 장문맥 추론 효율성 75% 향상으로 배포 비용 절감
  • Apache 2.0 라이선스로 상업적 활용 완전 허용
  • 가중치, 코드, 데이터, 체크포인트 등 모든 학습 자료 공개
  • 65,536 토큰 컨텍스트 윈도우로 긴 문서 처리 가능

단점/한계

  • 7B 규모로 대형 모델(70B+) 대비 절대 성능에서 한계
  • HumanEval에서 Olmo 3과 거의 동일한 점수로 코딩 능력 향상은 제한적
  • gated DeltaNet은 비교적 새로운 아키텍처로 프레임워크 지원이 제한적일 수 있음
  • 영어 전용 모델로 다국어 지원 부재

댓글0

주요 기능/특징

AI2가 Olmo Hybrid 7B를 Apache 2.0으로 완전 공개했다. 32개 레이어 중 75%를 gated DeltaNet으로 대체한 하이브리드 아키텍처로, Olmo 3 대비 2배 데이터 효율성을 달성했다. 5.5조 토큰 학습, 65,536 컨텍스트, BBH +4.4, MMLU STEM +4.9, MBPP +6.7 등 대부분 벤치마크에서 Olmo 3을 능가한다.

핵심 인사이트

  • MMLU에서 49% 적은 토큰으로 동일 정확도 달성, 학습 비용 절반 절감 가능성을 시사한다.
  • gated DeltaNet의 75% 적용으로 장문맥 추론 효율성 75% 향상은 실제 배포 비용에 직접 영향을 준다.
  • 가중치뿐 아니라 학습 코드, 데이터 구성, 체크포인트까지 공개하여 진정한 오픈소스 연구를 가능하게 한다.
  • 하이브리드 아키텍처(어텐션 25% + DeltaNet 75%)가 순수 트랜스포머보다 효율적임을 실증했다.
  • Jamba, Mamba-2, Griffin과 함께 하이브리드 아키텍처가 차세대 LLM의 주류가 될 가능성을 높인다.
  • 3단계 학습 파이프라인(사전학습-중기-장문맥)의 공개는 LLM 학습 방법론 연구에 기여한다.
  • 7B 규모에서의 성공은 더 큰 규모 모델로의 확장 가능성을 보여준다.

이 리뷰가 유용했나요?

공유하기

관련 AI 리뷰

Google Gemma 4 출시: Apache 2.0 라이선스로 전환한 최강 오픈 모델
NEW오픈소스
199

Google Gemma 4 출시: Apache 2.0 라이선스로 전환한 최강 오픈 모델

2026.04.05
Karpathy의 autoresearch: GPU 1개로 밤새 100개 AI 실험을 자동 실행
오픈소스
3.5천

Karpathy의 autoresearch: GPU 1개로 밤새 100개 AI 실험을 자동 실행

2026.03.12
Guide Labs Steerling-8B 오픈소스 공개: AI 블랙박스 문제를 해결하는 해석 가능한 LLM
오픈소스
4.3천

Guide Labs Steerling-8B 오픈소스 공개: AI 블랙박스 문제를 해결하는 해석 가능한 LLM

2026.03.03
Cohere Tiny Aya: 70개 이상 언어를 지원하는 초경량 오픈소스 AI 모델
오픈소스
3.6천

Cohere Tiny Aya: 70개 이상 언어를 지원하는 초경량 오픈소스 AI 모델

2026.02.18