Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
ESPnet은 음성 처리를 위한 엔드-투-엔드 오픈소스 툴킷입니다. 음성 인식(ASR), 텍스트-음성 합성(TTS), 음성 번역, 음성 강화, 화자 인식(Speaker Diarization) 등 다양한 음성 처리 작업을 지원합니다. PyTorch 기반으로 구축되었으며 Kaldi의 데이터 처리 및 레시피 방식을 따릅니다. Conformer, Transformer 등 최신 신경망 아키텍처와 CTC/Attention 기반 하이브리드 모델을 지원하여 산업용 수준의 성능을 제공합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리