Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Vosk는 오프라인 음성 인식을 지원하는 오픈소스 음성 인식 툴킷입니다. 영어, 독일어, 프랑스어, 스페인어, 중국어, 러시아어, 일본어 등 20개 이상의 언어와 방언을 지원합니다. 모델 크기가 매우 작아(50MB) 클라우드 의존 없이 라즈베리파이, 안드로이드, iOS 등 엣지 디바이스에서 실시간 음성 인식을 구현할 수 있습니다. Python, Java, Node.js, C#, C++, Rust, Go 등 다양한 프로그래밍 언어 바인딩을 제공하며, 대규모 클러스터부터 소형 기기까지 확장 가능합니다. 챗봇, 스마트홈, 가상 어시스턴트, 영화 자막 생성 등에 활용됩니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리