Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
StepFun AI가 개발한 최초의 프로덕션 레디 오픈소스 지능형 음성 상호작용 프레임워크입니다. 130B 파라미터 규모의 멀티모달 모델로, 음성 인식(ASR), 의미 이해, 대화, 음성 클로닝, 합성을 하나의 프레임워크로 통합합니다. 감정, 방언, 보컬 스타일에 대한 세밀한 제어가 가능하며, 중국어·영어·일본어를 지원합니다. 투코드북 오디오 토크나이제이션과 추측적 응답 생성 기술로 실시간 추론 파이프라인을 구현했습니다. Step-Audio2, Step-Audio-R1 등 후속 모델도 공개되어 활발히 발전 중입니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음

nari-labs
초현실적 대화형 음성 생성 1.6B TTS 모델
jamiepine
23개 언어 지원, 다중 TTS 엔진 기반의 로컬 음성 합성 스튜디오