Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
AudioSep은 자연어 쿼리를 사용해 오디오에서 원하는 소리를 분리하는 파운데이션 모델입니다. 'Separate Anything You Describe' 논문의 공식 구현체로, 텍스트로 설명한 소리를 혼합 오디오에서 정확하게 추출합니다. 음악에서 특정 악기만 분리하거나, 환경 소음에서 특정 소리만 추출하는 등 다양한 오디오 분리 작업을 하나의 모델로 처리할 수 있습니다. 제로샷 일반화 능력이 뛰어나 학습하지 않은 새로운 유형의 소리도 분리 가능하며, 오디오 이벤트 분리, 악기 분리, 음성 향상 등 폭넓은 활용이 가능합니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음

nari-labs
초현실적 대화형 음성 생성 1.6B TTS 모델
jamiepine
23개 언어 지원, 다중 TTS 엔진 기반의 로컬 음성 합성 스튜디오