Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Silero Models는 기업 수준의 사전 훈련된 음성-텍스트(STT), 텍스트-음성(TTS), 텍스트 향상 모델을 제공하는 오픈소스 프로젝트입니다. PyTorch Hub를 통해 단 몇 줄의 코드로 사용할 수 있도록 설계되었으며, Google STT에 버금가는 인식 품질을 제공합니다. 영어, 독일어, 스페인어, 러시아어 등 다국어를 지원하며, 오프라인 환경에서도 동작하는 경량화된 모델 아키텍처를 특징으로 합니다. 2026년 2월에도 v0.5.5 업데이트가 이루어지는 등 활발히 유지보수되고 있으며, Silero VAD(음성 활동 감지)와 함께 사용하면 더욱 강력한 음성 처리 파이프라인을 구성할 수 있습니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리