Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
StepFun AI가 개발한 최초의 프로덕션 레디 오픈소스 지능형 음성 상호작용 프레임워크입니다. 130B 파라미터 규모의 멀티모달 모델로, 음성 인식(ASR), 의미 이해, 대화, 음성 클로닝, 합성을 하나의 프레임워크로 통합합니다. 감정, 방언, 보컬 스타일에 대한 세밀한 제어가 가능하며, 중국어·영어·일본어를 지원합니다. 투코드북 오디오 토크나이제이션과 추측적 응답 생성 기술로 실시간 추론 파이프라인을 구현했습니다. Step-Audio2, Step-Audio-R1 등 후속 모델도 공개되어 활발히 발전 중입니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함