Trending

Fish Speech

fishaudioApache-2.02026.03.10

TTS25.2K Stars2.1K Forks8.3천 조회

Fish Speech는 FishAudio에서 개발한 최첨단 오픈소스 텍스트-음성 변환(TTS) 및 음성 복제 모델입니다. FishAudio-S1이라는 이름으로도 알려진 이 프로젝트는 자연스럽고 감정이 풍부한 음성을 생성하는 데 초점을 맞추고 있습니다. 4B 파라미터의 풀 모델과 0.5B 파라미터의 경량 모델을 제공하며, 10~30초의 짧은 음성 샘플만으로도 제로샷 음성 복제가 가능합니다. 40가지 이상의 감정 마커를 통한 세밀한 감정 제어를 지원하고, 13개 이상의 언어를 별도의 음소 처리 없이 지원합니다. TTS-Arena2 벤치마크에서 1위를 차지했으며, RTX 4090 기준 1:7의 실시간 비율을 달성하여 상용 수준의 품질과 속도를 겸비하고 있습니다.

주요 특징

10~30초 음성 샘플로 제로샷 음성 복제
40가지 이상의 감정 마커를 통한 세밀한 감정 제어
13개 이상 언어 지원 (음소 전처리 불필요)
TTS-Arena2 벤치마크 1위 달성
RTX 4090에서 1:7 실시간 비율의 고속 추론

Open Source

Fish Speech

주요 특징

태그

관련 프로젝트

Real-Time-Voice-Cloning

GPT-SoVITS

ChatTTS

OpenVoice