Trending

FireRedTTS2

FireRedTeamApache-2.02026.04.27

TTS1.4K Stars122 Forks7.2천 조회

샤오훙슈(Xiaohongshu) 산하 FireRedTeam이 공개한 장형 스트리밍 다중 화자 대화 생성용 TTS 시스템입니다. 3분 이상의 확장된 대화형 음성을 안정적이고 자연스럽게 생성하며, 신뢰성 있는 화자 전환과 문맥 인식 운율 제어를 제공하는 것이 특징입니다. 영어, 중국어, 일본어, 한국어, 프랑스어, 독일어, 러시아어 등 다국어를 지원하고 교차 언어 코드 스위칭을 포함한 제로샷 보이스 클로닝이 가능합니다. 12.5Hz 토크나이저 기반의 초저지연 스트리밍을 제공해 L20 GPU에서 첫 패킷 지연이 140ms에 불과하며, bf16 추론 지원으로 VRAM 요구량을 줄여 팟캐스트, AI 라디오, 가상 비서 등 실시간 응용 분야에 적합합니다.

주요 특징

3분 이상의 장형 다중 화자 대화 음성 생성
7개 언어 지원 및 교차 언어 코드 스위칭
제로샷 보이스 클로닝과 자연스러운 화자 전환
12.5Hz 토크나이저 기반 140ms 초저지연 스트리밍
bf16 추론으로 VRAM 절감 및 Gradio Web UI 제공

Open Source

FireRedTTS2

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

MockingBird