Trending

VoxCPM2

OpenBMBApache-2.02026.04.18

TTS14.1K Stars1.7K Forks7.1천 조회

VoxCPM2는 OpenBMB가 개발한 토크나이저 없는(Tokenizer-Free) 텍스트-음성 변환 모델로, 확산 자기회귀(Diffusion Autoregressive) 아키텍처를 기반으로 합니다. 200만 시간 이상의 다국어 음성 데이터로 훈련된 20억 파라미터 모델이며, 언어 태그 없이 30개 언어를 지원합니다. 텍스트 설명만으로 새로운 목소리를 생성하는 Voice Design 기능과 스타일 가이던스를 활용한 음성 복제(Voice Cloning)를 지원하며, 48kHz 스튜디오급 음질과 실시간 스트리밍(RTF ~0.3)을 제공합니다. Apache-2.0 라이선스로 상업적 활용도 가능합니다.

주요 특징

30개 언어 다국어 음성 생성 (언어 태그 불필요)
텍스트 설명 기반 음성 디자인(Voice Design)
스타일 가이던스 음성 복제(Voice Cloning)
48kHz 스튜디오급 고음질 출력
실시간 스트리밍 지원 (RTF ~0.3)

Open Source

VoxCPM2

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

OpenVoice