Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
SongGeneration은 Tencent AI Lab이 개발한 오픈소스 음악 파운데이션 모델로, 상업급 품질의 노래 생성을 목표로 한다. 2026년 3월 1일 공개된 v2-large 모델은 4B 파라미터 규모로, 다중 선호도 정렬(Multi-Preference Alignment) 기법인 LeVo를 적용하여 음악성과 가사 정확도를 동시에 최적화했다. 음소 오류율(PER) 8.55%로 오픈소스 베이스라인을 크게 상회하며, 최대 4분 30초 길이의 풀 곡 생성을 지원한다. 텍스트와 오디오 프롬프트를 통한 멀티모달 제어가 가능하고, 보컬/반주/분리 트랙 개별 생성 기능을 제공한다. 중국어, 영어, 스페인어, 일본어 등 다국어 가사를 지원하여 글로벌 음악 제작에 활용할 수 있다. 기존 음악 생성 모델 대비 가사 발음 정확도와 음악적 품질 모두에서 뛰어난 성능을 보여준다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음

nari-labs
초현실적 대화형 음성 생성 1.6B TTS 모델
jamiepine
23개 언어 지원, 다중 TTS 엔진 기반의 로컬 음성 합성 스튜디오