Trending

Amphion

open-mmlabMIT2026.03.22

Audio9.7K Stars793 Forks7.9천 조회

Amphion은 OpenMMLab에서 개발한 오디오, 음악, 음성 생성을 위한 통합 툴킷입니다. 연구 재현성을 지원하고 오디오 생성 분야에 입문하는 연구자와 엔지니어를 돕는 것을 목표로 합니다. TTS(텍스트-투-스피치), 음성 변환, 음악 생성, 오디오 코덱 등 다양한 태스크를 하나의 프레임워크로 통합했습니다. 최근에는 Metis(통합 음성 생성 파운데이션 모델), Vevo1.5(음성 및 노래 생성), DualCodec(저프레임레이트 고품질 오디오 코덱) 등 혁신적인 모델들을 연이어 공개하며 오디오 AI 연구의 핵심 인프라로 자리매김하고 있습니다.

주요 특징

TTS, 음성 변환, 음악 생성 등 멀티태스크 통합 프레임워크
Metis: 제로샷 TTS, 음성 변환, 음성 향상을 지원하는 파운데이션 모델
Vevo1.5: 음성과 노래 생성을 통합한 제어 가능한 생성 모델
DualCodec: 12.5Hz 저프레임레이트 고품질 뉴럴 오디오 코덱
다양한 보코더 및 평가 메트릭 내장으로 일관된 연구 지원
NaturalSpeech2 등 최신 TTS 모델 구현 포함

Open Source

Amphion

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)