Trending

Covo-Audio

TencentCC-BY-4.02026.06.06

TTS160 Stars16 Forks4.7천 조회

Tencent AI가 공개한 7B 파라미터 규모의 엔드투엔드 대형 오디오 언어 모델로, 연속 오디오 입력과 출력을 단일 통합 아키텍처에서 직접 처리합니다. 기존 ASR-LLM-TTS 캐스케이드 파이프라인의 오류 전파와 정보 손실 문제를 제거하기 위해 설계되었으며, 계층적 트라이모달 인터리빙(Hierarchical Tri-modal Interleaving) 기법으로 연속 음향 특징, 이산 음성 토큰, 자연어 텍스트를 하나의 시퀀스에 통합합니다. 또한 Intelligence-Speaker Decoupling 기술로 화자 정보와 대화 지능을 분리해 다중 화자 학습 후 컨텍스트 적응을 통해 고품질 TTS 음색을 전이·공유할 수 있습니다. 7B의 컴팩트한 규모임에도 MMAU, MMSU, URO-Bench 등 핵심 벤치마크에서 32B급 모델과 대등하거나 능가하는 성능을 보이며 실시간 풀-듀플렉스 음성 대화도 네이티브로 지원합니다.

주요 특징

7B 파라미터의 엔드투엔드 통합 오디오 언어 모델 아키텍처
계층적 트라이모달 인터리빙으로 음향-토큰-텍스트 통합 처리
Intelligence-Speaker Decoupling 기반 컨텍스트 음색 전이
네이티브 풀-듀플렉스 실시간 음성 대화 지원
MMAU·MMSU·URO-Bench에서 32B 모델과 대등한 SOTA 성능

Open Source

Covo-Audio

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

OpenVoice