Trending

AirLLM

lyogavinApache-2.02026.06.25

LLM21.4K Stars2.4K Forks67 조회

AirLLM은 단일 4GB GPU만으로 70B 규모의 대형 언어 모델 추론을 가능하게 하는 경량 추론 최적화 라이브러리입니다. 모델 전체를 한꺼번에 GPU에 올리지 않고 레이어 단위로 순차 로딩·실행하는 layer-wise inference 기법을 사용해, 양자화나 증류로 인한 정확도 손실 없이도 메모리 사용량을 획기적으로 낮춥니다. 덕분에 고가의 다중 GPU 서버 없이 일반 소비자용 GPU나 무료 코랩 환경에서도 초대형 모델을 돌려볼 수 있습니다. LLaMA 계열을 비롯한 다양한 오픈 모델과 LoRA/QLoRA 파인튜닝, 압축 가속 옵션을 지원합니다. Apache-2.0 라이선스로 제공되어 상용·연구 모두 자유롭게 사용할 수 있습니다.

주요 특징

단일 4GB GPU로 70B 규모 LLM 추론 지원
레이어 단위 순차 로딩(layer-wise inference)으로 메모리 절감
양자화·증류 없이 정확도 손실 최소화
LLaMA 등 다양한 오픈 모델 및 LoRA/QLoRA 호환
소비자용 GPU·코랩 환경에서 초대형 모델 실행

Open Source

AirLLM

주요 특징

태그

관련 프로젝트

Hugging Face Transformers

Gemini CLI

LLMs from Scratch

Awesome MCP Servers