Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
SVoice는 Meta(Facebook) AI Research에서 개발한 음성 분리 모델입니다. 여러 사람이 동시에 말하는 혼합 오디오에서 개별 화자의 음성을 분리하는 게이트 신경망 기반 기술을 구현했습니다. 가장 큰 특징은 화자 수를 사전에 알 수 없는 상황에서도 동작한다는 점으로, 실제 환경에서의 활용성이 높습니다. 다단계 처리 과정에서 각 출력 채널의 화자를 고정적으로 유지하는 방식으로 높은 분리 품질을 달성합니다. 회의 녹음 분리, 화상통화 음성 향상, 음성인식 전처리 등에 활용되며, PyTorch로 구현되어 확장이 용이합니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음

nari-labs
초현실적 대화형 음성 생성 1.6B TTS 모델
jamiepine
23개 언어 지원, 다중 TTS 엔진 기반의 로컬 음성 합성 스튜디오