Trending

SongGeneration

tencent-ailabCustom2026.03.09

Audio1.4K Stars170 Forks8.4천 조회

SongGeneration은 Tencent AI Lab이 개발한 오픈소스 음악 파운데이션 모델로, 상업급 품질의 노래 생성을 목표로 한다. 2026년 3월 1일 공개된 v2-large 모델은 4B 파라미터 규모로, 다중 선호도 정렬(Multi-Preference Alignment) 기법인 LeVo를 적용하여 음악성과 가사 정확도를 동시에 최적화했다. 음소 오류율(PER) 8.55%로 오픈소스 베이스라인을 크게 상회하며, 최대 4분 30초 길이의 풀 곡 생성을 지원한다. 텍스트와 오디오 프롬프트를 통한 멀티모달 제어가 가능하고, 보컬/반주/분리 트랙 개별 생성 기능을 제공한다. 중국어, 영어, 스페인어, 일본어 등 다국어 가사를 지원하여 글로벌 음악 제작에 활용할 수 있다. 기존 음악 생성 모델 대비 가사 발음 정확도와 음악적 품질 모두에서 뛰어난 성능을 보여준다.

주요 특징

4B 파라미터 규모의 상업급 음악 생성 모델 (v2-large)
음소 오류율 8.55%의 높은 가사 정확도
최대 4분 30초 풀 곡 생성 및 보컬/반주 분리 트랙 출력
텍스트/오디오 멀티모달 프롬프트 제어
중국어, 영어, 스페인어, 일본어 등 다국어 가사 지원

Open Source

SongGeneration

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)