Trending

Step-Audio

stepfun-aiApache-2.02026.03.17

Audio4.6K Stars370 Forks7.8천 조회

StepFun AI가 개발한 최초의 프로덕션 레디 오픈소스 지능형 음성 상호작용 프레임워크입니다. 130B 파라미터 규모의 멀티모달 모델로, 음성 인식(ASR), 의미 이해, 대화, 음성 클로닝, 합성을 하나의 프레임워크로 통합합니다. 감정, 방언, 보컬 스타일에 대한 세밀한 제어가 가능하며, 중국어·영어·일본어를 지원합니다. 투코드북 오디오 토크나이제이션과 추측적 응답 생성 기술로 실시간 추론 파이프라인을 구현했습니다. Step-Audio2, Step-Audio-R1 등 후속 모델도 공개되어 활발히 발전 중입니다.

주요 특징

음성 인식·합성·클로닝을 통합한 130B 파라미터 멀티모달 모델
감정·방언·보컬 스타일 세밀 제어 가능
중국어·영어·일본어 다국어 실시간 대화 지원
투코드북 오디오 토크나이제이션 프레임워크
추측적 응답 생성으로 40% 커밋율 달성
오디오 편집(Step-Audio-EditX) 기능 지원

Open Source

Step-Audio

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)