Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
OpenSpeech는 PyTorch-Lightning과 Hydra를 기반으로 한 엔드-투-엔드 음성 인식 오픈소스 툴킷입니다. 다양한 최신 ASR 논문의 참조 구현체를 제공하며, 한국어·영어·중국어 3개 언어에 대한 훈련 레시피를 포함하고 있습니다. LAS(Listen, Attend and Spell), Transformer, Conformer, RNN-T 등 주요 E2E ASR 아키텍처를 지원하며, Hydra 설정 시스템을 통해 실험 관리가 용이합니다. 연구자와 개발자가 최신 음성 인식 모델을 빠르게 실험하고 비교할 수 있도록 설계된 학습 친화적인 프레임워크로, 모듈화된 구조 덕분에 커스텀 모델 통합도 간단합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리