Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
음성, 음악, 사운드, 토킹 헤드를 이해하고 생성하는 종합 오디오 AI 시스템입니다. 텍스트-음성 변환, 음성 스타일 전이, 음성 인식, 음악 생성, 오디오 합성, 얼굴 애니메이션 등 다양한 멀티모달 오디오 작업을 단일 인터페이스에서 수행할 수 있습니다. FastSpeech, VITS, Whisper, DiffSinger, Make-An-Audio 등 최신 AI 모델을 통합하여 복잡한 오디오 처리 작업을 자동화합니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함