Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Tencent AI가 공개한 7B 파라미터 규모의 엔드투엔드 대형 오디오 언어 모델로, 연속 오디오 입력과 출력을 단일 통합 아키텍처에서 직접 처리합니다. 기존 ASR-LLM-TTS 캐스케이드 파이프라인의 오류 전파와 정보 손실 문제를 제거하기 위해 설계되었으며, 계층적 트라이모달 인터리빙(Hierarchical Tri-modal Interleaving) 기법으로 연속 음향 특징, 이산 음성 토큰, 자연어 텍스트를 하나의 시퀀스에 통합합니다. 또한 Intelligence-Speaker Decoupling 기술로 화자 정보와 대화 지능을 분리해 다중 화자 학습 후 컨텍스트 적응을 통해 고품질 TTS 음색을 전이·공유할 수 있습니다. 7B의 컴팩트한 규모임에도 MMAU, MMSU, URO-Bench 등 핵심 벤치마크에서 32B급 모델과 대등하거나 능가하는 성능을 보이며 실시간 풀-듀플렉스 음성 대화도 네이티브로 지원합니다.
CorentinJ
5초 음성으로 즉시 목소리 복제 가능한 실시간 TTS 시스템
RVC-Boss
1분 음성으로 고품질 TTS 모델 훈련 가능한 음성 변환 웹UI
2noise
대화형 AI를 위한 자연스러운 음성 생성, 중영 이중언어 지원
myshell-ai
제로샷 크로스링귀얼 목소리 복제 기술로 정확한 톤 컬러 재현