Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
whisper_streaming은 OpenAI Whisper 모델을 실시간 스트리밍 전사 시스템으로 변환하는 오픈소스 프레임워크입니다. 기존 Whisper가 30초 청크 단위로만 처리하는 한계를 극복하여, 평균 3.3초의 지연 시간으로 장시간 연속 음성을 실시간으로 전사합니다. 자체 개발한 'Local Agreement Policy'를 통한 자기 적응형 지연 제어로 출력 안정성을 보장하며, faster-whisper, whisper-timestamped, OpenAI API, mlx-whisper 등 다양한 백엔드를 지원합니다. TCP 서버 기반 마이크 라이브 스트리밍, VAD 통합, 다국어 실시간 번역을 제공해 회의 실시간 자막, 콘퍼런스 번역 등 실용적 응용에 즉시 적용할 수 있습니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리