Trending

PaddleSpeech

PaddlePaddleApache License 2.02026.03.23

STT12.6K Stars2.0K Forks7.4천 조회

PaddleSpeech는 PaddlePaddle 플랫폼 기반의 종합 음성 처리 오픈소스 툴킷입니다. NAACL2022 최고 데모상을 수상했으며, 음성 인식(ASR), 텍스트-음성 합성(TTS), 음성 번역, 화자 검증, 음성 분류 등 다양한 음성 작업을 지원합니다. 스트리밍 ASR/TTS 시스템, 규칙 기반 중국어 프론트엔드(텍스트 정규화, 음소 변환), 다언어 지원을 특징으로 합니다. CLI, 서버, 웹 데모를 통해 사용이 간편하며, LibriSpeech, AIShell 등 주요 데이터셋을 포함합니다.

주요 특징

음성 인식(ASR), TTS, 음성 번역, 화자 검증, 음성 분류 지원
스트리밍 ASR/TTS 시스템 (프로덕션 레벨)
규칙 기반 중국어 프론트엔드 (텍스트 정규화, G2P, 음운 변동)
Whisper, Conformer, WavLM 등 최신 모델 통합
CLI, 서버, Gradio 웹 데모를 통한 쉬운 사용성

Open Source

PaddleSpeech

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper