Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
PaddleSpeech는 PaddlePaddle 플랫폼 기반의 종합 음성 처리 오픈소스 툴킷입니다. NAACL2022 최고 데모상을 수상했으며, 음성 인식(ASR), 텍스트-음성 합성(TTS), 음성 번역, 화자 검증, 음성 분류 등 다양한 음성 작업을 지원합니다. 스트리밍 ASR/TTS 시스템, 규칙 기반 중국어 프론트엔드(텍스트 정규화, 음소 변환), 다언어 지원을 특징으로 합니다. CLI, 서버, 웹 데모를 통해 사용이 간편하며, LibriSpeech, AIShell 등 주요 데이터셋을 포함합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리