Trending

WhisperLiveKit

QuentinFuxaApache-2.02026.05.13

STT10.3K Stars1.1K Forks4.8천 조회

WhisperLiveKit은 Whisper 계열 모델을 기반으로 한 동시 음성 인식(Simultaneous STT) 툴킷으로, 마이크나 오디오 스트림을 받아 실시간에 가까운 지연으로 텍스트를 출력합니다. SimulStreaming, WhisperStreaming 같은 최신 동시 추론 알고리즘과 Voice Activity Detection을 결합해 발화 도중에도 안정적인 부분 결과(partial)를 갱신하며, 화자 분리(diarization)와 자동 언어 감지를 함께 제공합니다. FastAPI 기반의 WebSocket 서버와 브라우저 데모가 포함되어 라이브 자막, 회의 전사, 콜센터 등 실시간 응용을 빠르게 프로토타이핑할 수 있는 것이 강점입니다.

주요 특징

SimulStreaming/WhisperStreaming 기반 저지연 동시 음성 인식
Silero VAD를 활용한 음성 구간 자동 감지 및 부분 결과 갱신
화자 분리(diarization)와 다국어 자동 감지 내장
FastAPI WebSocket 서버와 브라우저 데모로 즉시 실시간 자막 구축
Faster-Whisper, MLX-Whisper 등 다양한 백엔드 선택 가능

Open Source

WhisperLiveKit

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper