Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
샤오훙슈(Xiaohongshu) 산하 FireRedTeam이 공개한 장형 스트리밍 다중 화자 대화 생성용 TTS 시스템입니다. 3분 이상의 확장된 대화형 음성을 안정적이고 자연스럽게 생성하며, 신뢰성 있는 화자 전환과 문맥 인식 운율 제어를 제공하는 것이 특징입니다. 영어, 중국어, 일본어, 한국어, 프랑스어, 독일어, 러시아어 등 다국어를 지원하고 교차 언어 코드 스위칭을 포함한 제로샷 보이스 클로닝이 가능합니다. 12.5Hz 토크나이저 기반의 초저지연 스트리밍을 제공해 L20 GPU에서 첫 패킷 지연이 140ms에 불과하며, bf16 추론 지원으로 VRAM 요구량을 줄여 팟캐스트, AI 라디오, 가상 비서 등 실시간 응용 분야에 적합합니다.
CorentinJ
5초 음성으로 즉시 목소리 복제 가능한 실시간 TTS 시스템
RVC-Boss
1분 음성으로 고품질 TTS 모델 훈련 가능한 음성 변환 웹UI
2noise
대화형 AI를 위한 자연스러운 음성 생성, 중영 이중언어 지원
myshell-ai
제로샷 크로스링귀얼 목소리 복제 기술로 정확한 톤 컬러 재현