Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

ModelScope(알리바바)이 개발한 ClearerVoice-Studio는 AI 기반 음성 처리 올인원 툴킷입니다. 음성 향상(Speech Enhancement), 음성 분리(Speech Separation), 대상 화자 추출(Target Speaker Extraction), 음성 초해상도(Speech Super-Resolution) 등 다양한 음성 처리 기능을 SOTA 수준의 사전 훈련 모델과 함께 제공합니다. PyTorch 기반으로 구현되어 연구자와 개발자 모두 쉽게 활용할 수 있으며, 노이즈 제거, 대역폭 확장, 음성 품질 평가 등 실용적인 기능을 포함하고 있습니다. 특히 MossFormer 아키텍처 기반의 모델들이 여러 벤치마크에서 최고 성능을 기록하고 있습니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음

nari-labs
초현실적 대화형 음성 생성 1.6B TTS 모델
jamiepine
23개 언어 지원, 다중 TTS 엔진 기반의 로컬 음성 합성 스튜디오