Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Fish Speech는 FishAudio에서 개발한 최첨단 오픈소스 텍스트-음성 변환(TTS) 및 음성 복제 모델입니다. FishAudio-S1이라는 이름으로도 알려진 이 프로젝트는 자연스럽고 감정이 풍부한 음성을 생성하는 데 초점을 맞추고 있습니다. 4B 파라미터의 풀 모델과 0.5B 파라미터의 경량 모델을 제공하며, 10~30초의 짧은 음성 샘플만으로도 제로샷 음성 복제가 가능합니다. 40가지 이상의 감정 마커를 통한 세밀한 감정 제어를 지원하고, 13개 이상의 언어를 별도의 음소 처리 없이 지원합니다. TTS-Arena2 벤치마크에서 1위를 차지했으며, RTX 4090 기준 1:7의 실시간 비율을 달성하여 상용 수준의 품질과 속도를 겸비하고 있습니다.
CorentinJ
5초 음성으로 즉시 목소리 복제 가능한 실시간 TTS 시스템
RVC-Boss
1분 음성으로 고품질 TTS 모델 훈련 가능한 음성 변환 웹UI
2noise
대화형 AI를 위한 자연스러운 음성 생성, 중영 이중언어 지원
myshell-ai
제로샷 크로스링귀얼 목소리 복제 기술로 정확한 톤 컬러 재현