Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
디프퓨전 모델을 사용한 오디오 생성을 위한 완전한 PyTorch 라이브러리입니다. 무조건부 오디오 생성, 텍스트 조건부 오디오 생성, 디프퓨전 자동인코더, 업샘플링, 보코더 등 다양한 오디오 생성 작업을 지원합니다. 파형 기반의 음성과 음악 생성에 특화되어 있으며, U-Net 기반 커스터마이징 가능한 아키텍처로 연구자들이 자신만의 오디오 디프퓨전 모델을 구축할 수 있습니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음

nari-labs
초현실적 대화형 음성 생성 1.6B TTS 모델
jamiepine
23개 언어 지원, 다중 TTS 엔진 기반의 로컬 음성 합성 스튜디오