Trending

Higgs Audio

boson-aiApache-2.02026.03.17

Audio8.0K Stars613 Forks8.0천 조회

Boson AI가 개발한 대규모 텍스트-오디오 파운데이션 모델입니다. 1,000만 시간 이상의 오디오 데이터로 학습되었으며, 제로샷 음성 클로닝, 다국어 지원, 다화자 대화 생성 등 다양한 기능을 제공합니다. DualFFN 아키텍처를 활용한 향상된 음향 모델링과 자동화된 어노테이션 파이프라인 'AudioVerse'를 통해 고품질 오디오를 생성합니다. 음성과 함께 배경 음악을 동시에 합성할 수 있으며, 감정 표현과 운율 적응이 가능합니다. vLLM 기반 API 서버 배포를 지원하여 프로덕션 환경에서도 활용할 수 있습니다.

주요 특징

제로샷 음성 클로닝 - 최소한의 참조 오디오로 음성 복제
다화자 대화 생성 - 자동 화자 할당으로 자연스러운 대화 합성
다국어 지원 - 언어 간 크로스 음성 생성 가능
배경 음악 동시 합성 - 음성과 음악을 함께 생성
DualFFN 아키텍처 - 향상된 음향 모델링 기술
vLLM 기반 API 서버 배포 지원

Open Source

Higgs Audio

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)