Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
PaddleSpeech는 PaddlePaddle 플랫폼 기반의 종합 음성 처리 오픈소스 툴킷입니다. NAACL2022 최고 데모상을 수상했으며, 음성 인식(ASR), 텍스트-음성 합성(TTS), 음성 번역, 화자 검증, 음성 분류 등 다양한 음성 작업을 지원합니다. 스트리밍 ASR/TTS 시스템, 규칙 기반 중국어 프론트엔드(텍스트 정규화, 음소 변환), 다언어 지원을 특징으로 합니다. CLI, 서버, 웹 데모를 통해 사용이 간편하며, LibriSpeech, AIShell 등 주요 데이터셋을 포함합니다.

microsoft
60분 음성 단일 패스 처리 보이스 AI

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱
NVIDIA-NeMo
NVIDIA의 엔터프라이즈급 생성형 AI 프레임워크 - ASR, LLM, TTS 통합