Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Boson AI가 개발한 대규모 텍스트-오디오 파운데이션 모델입니다. 1,000만 시간 이상의 오디오 데이터로 학습되었으며, 제로샷 음성 클로닝, 다국어 지원, 다화자 대화 생성 등 다양한 기능을 제공합니다. DualFFN 아키텍처를 활용한 향상된 음향 모델링과 자동화된 어노테이션 파이프라인 'AudioVerse'를 통해 고품질 오디오를 생성합니다. 음성과 함께 배경 음악을 동시에 합성할 수 있으며, 감정 표현과 운율 적응이 가능합니다. vLLM 기반 API 서버 배포를 지원하여 프로덕션 환경에서도 활용할 수 있습니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음

nari-labs
초현실적 대화형 음성 생성 1.6B TTS 모델
jamiepine
23개 언어 지원, 다중 TTS 엔진 기반의 로컬 음성 합성 스튜디오