Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Amphion은 OpenMMLab에서 개발한 오디오, 음악, 음성 생성을 위한 통합 툴킷입니다. 연구 재현성을 지원하고 오디오 생성 분야에 입문하는 연구자와 엔지니어를 돕는 것을 목표로 합니다. TTS(텍스트-투-스피치), 음성 변환, 음악 생성, 오디오 코덱 등 다양한 태스크를 하나의 프레임워크로 통합했습니다. 최근에는 Metis(통합 음성 생성 파운데이션 모델), Vevo1.5(음성 및 노래 생성), DualCodec(저프레임레이트 고품질 오디오 코덱) 등 혁신적인 모델들을 연이어 공개하며 오디오 AI 연구의 핵심 인프라로 자리매김하고 있습니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음

nari-labs
초현실적 대화형 음성 생성 1.6B TTS 모델
jamiepine
23개 언어 지원, 다중 TTS 엔진 기반의 로컬 음성 합성 스튜디오