Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
PyTorch 기반 오디오 신호 처리 및 변환을 위한 머신러닝 라이브러리입니다. 스펙트로그램, MelSpectrogram, MFCC, 음성 리샘플링 등 핵심 오디오 변환 기능을 제공하며, Kaldi 호환 구현으로 음성 처리의 표준을 따릅니다. 강제 정렬(forced alignment), 공통 오디오 데이터셋 지원으로 음성 인식 및 오디오 ML 프로젝트를 빠르게 개발할 수 있습니다. PyTorch 생태계와 완벽 통합되어 있습니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함