Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
ebook2audiobook(E2A)는 epub·mobi·azw3·pdf·docx·txt 등 다양한 전자책 포맷을 챕터와 메타데이터가 살아있는 고품질 오디오북으로 변환하는 오픈소스 도구입니다. XTTSv2, Bark, Fairseq, VITS, Tacotron2, Tortoise, GlowTTS, YourTTS 등 8가지 TTS 엔진을 선택할 수 있고 사용자가 직접 녹음한 짧은 음성 파일로 음성 클로닝을 적용할 수 있습니다. Meta의 MMS 기반으로 1158개 언어와 방언을 지원해 글로벌 출판물을 동일한 파이프라인으로 처리할 수 있고, 텍스트가 이미지로 들어간 페이지에는 OCR을 자동 적용합니다. m4b·mp3·flac·wav·ogg·aac 등 주요 오디오북 포맷으로 모노 또는 스테레오 출력이 가능하며 SML 태그로 일시 정지·음성 전환 등을 세밀하게 제어합니다. 최소 2GB RAM과 1GB VRAM에서도 동작하고 Gradio 웹 UI, 헤드리스 CLI, Docker, Hugging Face Spaces, Google Colab, Kaggle 환경에서 자유롭게 실행할 수 있습니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함