Trending

F5-TTS

SWividMIT2026.04.15

TTS14.3K Stars2.1K Forks7.0천 조회

SWivid가 개발한 Flow Matching 기반 텍스트-음성 변환 시스템입니다. Diffusion Transformer와 ConvNeXt V2 아키텍처를 결합하여 빠른 학습과 추론 속도를 달성합니다. 10만 시간 이상의 공개 다국어 데이터셋으로 학습되어 뛰어난 자연스러움과 표현력의 제로샷 음성 합성을 제공합니다. 중국어와 영어를 기본 지원하며 커스텀 추론으로 추가 언어 확장이 가능합니다. 멀티 스타일·멀티 스피커 생성, Sway Sampling을 통한 추론 단계 최적화, 청크 추론 등을 지원합니다. NVIDIA, AMD(ROCm), Intel(XPU), Apple Silicon 등 다양한 GPU 환경에서 동작하며 Docker, Gradio, CLI, Triton/TensorRT-LLM 배포를 지원합니다.

주요 특징

Diffusion Transformer + ConvNeXt V2 고속 학습·추론
10만 시간 다국어 데이터 기반 제로샷 합성
멀티 스타일·멀티 스피커 음성 생성
Sway Sampling 추론 단계 최적화
NVIDIA/AMD/Intel/Apple Silicon 다중 GPU 지원

Open Source

F5-TTS

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

OpenVoice