Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

ModelScope(알리바바)이 개발한 ClearerVoice-Studio는 AI 기반 음성 처리 올인원 툴킷입니다. 음성 향상(Speech Enhancement), 음성 분리(Speech Separation), 대상 화자 추출(Target Speaker Extraction), 음성 초해상도(Speech Super-Resolution) 등 다양한 음성 처리 기능을 SOTA 수준의 사전 훈련 모델과 함께 제공합니다. PyTorch 기반으로 구현되어 연구자와 개발자 모두 쉽게 활용할 수 있으며, 노이즈 제거, 대역폭 확장, 음성 품질 평가 등 실용적인 기능을 포함하고 있습니다. 특히 MossFormer 아키텍처 기반의 모델들이 여러 벤치마크에서 최고 성능을 기록하고 있습니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함