Trending

ESPnet

espnetApache License 2.02026.03.23

STT9.8K Stars2.4K Forks7.8천 조회

ESPnet은 음성 처리를 위한 엔드-투-엔드 오픈소스 툴킷입니다. 음성 인식(ASR), 텍스트-음성 합성(TTS), 음성 번역, 음성 강화, 화자 인식(Speaker Diarization) 등 다양한 음성 처리 작업을 지원합니다. PyTorch 기반으로 구축되었으며 Kaldi의 데이터 처리 및 레시피 방식을 따릅니다. Conformer, Transformer 등 최신 신경망 아키텍처와 CTC/Attention 기반 하이브리드 모델을 지원하여 산업용 수준의 성능을 제공합니다.

주요 특징

Hybrid CTC/Attention 기반 음성 인식
Transducer 기반 스트리밍 ASR
Conformer, Branchformer 등 최신 인코더 아키텍처
여러 언어 및 음성 처리 작업(TTS, 음성 번역, 강화) 지원
배치 GPU 디코딩 및 데이터 증강

Open Source

ESPnet

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper