Trending

TokenSpeed

lightseekorgMIT2026.06.12

LLM1.4K Stars151 Forks4.7천 조회

LightSeek Foundation이 공개한 '빛의 속도(speed-of-light)'를 표방하는 LLM 추론 엔진으로, 에이전트형(agentic) 워크로드에 특화되어 설계되었습니다. TensorRT-LLM 수준의 성능과 vLLM 수준의 사용성을 동시에 추구하며, 단 두 달 만에 소규모 미션 지향 팀이 구축했습니다. 정적 컴파일러 기반의 local-SPMD 모델링 레이어, C++ 컨트롤 플레인 스케줄러와 Python 실행 플레인의 분리, MLA(Multi-head Latent Attention)를 구현한 계층형 커널 시스템이 핵심입니다. AsyncLLM 엔트리포인트로 저지연 요청 처리를 지원하며 Kimi K2.5, Qwen3.5-397B-A17B 등을 지원하고 Blackwell 하드웨어에 최적화되어 있습니다. 특히 MLA 커널은 투기적 디코딩 워크로드에서 TensorRT-LLM 대비 디코드 지연을 거의 절반으로 줄여 vLLM에도 채택되었습니다.

주요 특징

TensorRT-LLM 수준 성능과 vLLM 수준 사용성 동시 추구
정적 컴파일러 기반 local-SPMD 모델링 레이어
C++ 컨트롤 플레인 스케줄러 + Python 실행 플레인 분리 구조
MLA 커널로 투기적 디코딩 디코드 지연 절반 단축
AsyncLLM 엔트리포인트 기반 저지연 요청 처리

Open Source

TokenSpeed

주요 특징

태그

관련 프로젝트

Hugging Face Transformers

Gemini CLI

LLMs from Scratch

Awesome MCP Servers