Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
stable-ts는 OpenAI Whisper의 전사 결과를 더 정확하고 안정적인 타임스탬프로 보정해주는 음성 인식(STT) 보조 라이브러리입니다. 기본 Whisper가 제공하는 부정확한 구간 타임스탬프 문제를 해결하기 위해, 강제 정렬(forced alignment)과 후처리 알고리즘으로 단어·문장 단위의 정밀한 시간 정보를 산출합니다. 무음 구간 감지(VAD)와 비음성 구간 억제를 통해 환각을 줄이고, 자막을 SRT·VTT·ASS 등 다양한 포맷으로 내보낼 수 있습니다. faster-whisper 백엔드도 지원해 속도를 높일 수 있으며, 오디오 인덱싱과 구간 재정렬 기능까지 제공합니다. 정확한 자막 동기화가 필요한 영상 제작, 더빙, 음성 검색 파이프라인에서 특히 유용합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리