Trending

ExLlamaV3

turboderp-orgMIT License2026.04.01

추론724 Stars74 Forks5.1천 조회

ExLlamaV3는 일반 소비자용 GPU에서 로컬 LLM을 효율적으로 실행하기 위한 고성능 양자화·추론 라이브러리입니다. QTIP 기반의 새로운 EXL3 양자화 포맷을 도입하여 2~8비트 가중치 및 캐시 양자화를 지원합니다. 텐서 병렬 및 전문가 병렬 추론으로 멀티-GPU 소비자 하드웨어 환경에 최적화되어 있으며, 투기적 디코딩과 연속 동적 배치를 통해 처리량을 극대화합니다. Llama, Mistral, Qwen3, DeepSeek, Gemma3 등 30개 이상의 주요 아키텍처와 멀티모달 모델을 지원하며, TabbyAPI를 통해 OpenAI 호환 서버로 배포할 수 있습니다.

주요 특징

QTIP 기반 EXL3 양자화 포맷으로 2~8비트 가중치 및 캐시 양자화 지원
텐서 병렬·전문가 병렬 추론으로 소비자 멀티-GPU 환경 최적화
투기적 디코딩과 연속 동적 배치로 처리량 극대화
Llama·Mistral·Qwen3·DeepSeek·Gemma3 등 30개 이상 아키텍처 지원
TabbyAPI 통합으로 OpenAI 호환 서버 및 로컬 배포 가능

Open Source

ExLlamaV3

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile