Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Ultravox는 fixie-ai가 공개한 실시간 음성 처리에 특화된 멀티모달 LLM이다. 음성을 별도의 STT(음성 인식) 단계로 텍스트화하지 않고, 오디오 인코더가 추출한 음성 표현을 LLM에 직접 입력으로 연결해 처리한다. 이 구조 덕분에 음성 인식과 언어 이해 사이의 변환 지연을 줄여 낮은 지연(latency)으로 대화형 음성 응답을 생성할 수 있다. Llama 계열 등 공개 LLM을 백본으로 사용하며, 음성 비서·콜센터·실시간 통역 같은 대화형 음성 애플리케이션에 활용할 수 있다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
RVC-Project
10분 이하 음성으로 학습하는 retrieval 기반 음성 변환 WebUI