Trending

TADA

HumeAIMIT2026.06.06

TTS986 Stars107 Forks5.1천 조회

Hume AI가 공개한 최초의 오픈소스 텍스트-투-스피치(TTS) 모델로, Text-Audio Dual Alignment(TADA) 아키텍처를 기반으로 한 음성-언어 통합 모델입니다. 텍스트와 오디오를 1:1 토큰 정렬로 동기화 생성하여 자동회귀(autoregressive) 한 스텝당 하나의 텍스트 토큰을 처리하며, 모델이 해당 토큰의 길이와 운율을 동적으로 결정합니다. 이 구조 덕분에 토큰 단위 환각(hallucination)을 사실상 0으로 줄이고, 0.09의 실시간 팩터(RTF)로 기존 LLM 기반 TTS 대비 5배 이상 빠른 추론 속도를 제공합니다. 최대 700초에 달하는 장문 오디오 생성을 지원하며 9개 이상의 언어로 자연스러운 음성을 합성합니다. bf16 추론, torch.compile 최적화, 프롬프트 캐싱을 통해 온디바이스 배포에도 최적화되어 있어 보이스 에이전트와 실시간 음성 응용에 활용도가 높습니다.

주요 특징

Text-Audio Dual Alignment 아키텍처로 1:1 토큰 정렬 합성
0.09 RTF의 초저지연 추론과 5배 이상 빨라진 생성 속도
최대 700초 장문 오디오 합성 및 9개 이상 다국어 지원
토큰 단위 환각을 사실상 0으로 줄이는 동기화 스트림 생성
bf16, torch.compile, 프롬프트 캐싱 등 온디바이스 최적화

Open Source

TADA

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

OpenVoice