Trending

oMLX

jundotApache-2.02026.05.17

추론14.3K Stars1.2K Forks5.1천 조회

oMLX는 Apple Silicon 환경에 특화된 LLM 추론 서버로, MLX 프레임워크 기반의 연속 배칭(continuous batching)과 SSD 캐싱을 결합해 맥북·맥미니·맥스튜디오에서도 production급 서빙을 가능하게 합니다. 가장 두드러진 기능은 RAM(핫 티어)과 SSD(콜드 티어)를 활용한 계층형 KV 캐시 시스템으로, 프리픽스 공유와 copy-on-write 최적화를 통해 서버 재시작 후에도 캐시가 유지됩니다. mlx-lm의 BatchGenerator를 활용해 동시 요청을 처리하고, LLM뿐 아니라 VLM·임베딩·리랭커 모델을 동시에 로드해 LRU 기반으로 관리할 수 있습니다. PyObjC로 구현된 네이티브 macOS 메뉴바 앱을 통해 서버 라이프사이클·통계·모델 관리·내장 챗 인터페이스까지 제공하며, 별도 GUI 도구 없이 OpenAI 호환 API를 즉시 사용할 수 있습니다.

주요 특징

RAM/SSD 계층형 KV 캐시 (프리픽스 공유, 재시작 후 캐시 유지)
mlx-lm 기반 연속 배칭으로 동시 요청 처리
LLM, VLM, 임베딩, 리랭커 멀티 모델 동시 서빙
PyObjC 기반 네이티브 macOS 메뉴바 앱 통합
OpenAI 호환 API와 내장 챗·벤치마크 대시보드

Open Source

oMLX

주요 특징

태그

관련 프로젝트

Ollama

llama.cpp

exo

llamafile