Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
ESPnet은 음성 처리를 위한 엔드-투-엔드 오픈소스 툴킷입니다. 음성 인식(ASR), 텍스트-음성 합성(TTS), 음성 번역, 음성 강화, 화자 인식(Speaker Diarization) 등 다양한 음성 처리 작업을 지원합니다. PyTorch 기반으로 구축되었으며 Kaldi의 데이터 처리 및 레시피 방식을 따릅니다. Conformer, Transformer 등 최신 신경망 아키텍처와 CTC/Attention 기반 하이브리드 모델을 지원하여 산업용 수준의 성능을 제공합니다.

microsoft
60분 음성 단일 패스 처리 보이스 AI

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱
NVIDIA-NeMo
NVIDIA의 엔터프라이즈급 생성형 AI 프레임워크 - ASR, LLM, TTS 통합