Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Amphion은 OpenMMLab에서 개발한 오디오, 음악, 음성 생성을 위한 통합 툴킷입니다. 연구 재현성을 지원하고 오디오 생성 분야에 입문하는 연구자와 엔지니어를 돕는 것을 목표로 합니다. TTS(텍스트-투-스피치), 음성 변환, 음악 생성, 오디오 코덱 등 다양한 태스크를 하나의 프레임워크로 통합했습니다. 최근에는 Metis(통합 음성 생성 파운데이션 모델), Vevo1.5(음성 및 노래 생성), DualCodec(저프레임레이트 고품질 오디오 코덱) 등 혁신적인 모델들을 연이어 공개하며 오디오 AI 연구의 핵심 인프라로 자리매김하고 있습니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함