Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Bark는 Suno AI가 개발한 트랜스포머 기반 텍스트-오디오 생성 모델입니다. 매우 사실적인 다국어 음성 합성은 물론, 음악, 배경 소음, 효과음까지 생성할 수 있는 범용 오디오 모델입니다. 웃음, 한숨, 울음 같은 비언어적 표현도 자연스럽게 생성하며, 텍스트 프롬프트에 특수 태그를 넣어 화자 스타일과 감정을 제어할 수 있습니다. 10개 이상의 언어를 지원하며 별도의 파인튜닝 없이도 고품질 음성을 생성합니다. 연구 및 데모 목적으로 공개되어 AI 오디오 생성 분야의 대표적인 오픈소스 프로젝트로 자리잡았습니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함

nari-labs
초현실적 대화형 음성 생성 1.6B TTS 모델