Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
OpenAI가 개발한 범용 음성 인식 모델로, 대규모 다양한 오디오 데이터셋에서 학습되었습니다. 99개 이상의 언어를 지원하는 다국어 음성 인식, 영어 번역, 음성 언어 감지, 음성 활동 감지 등을 수행합니다. tiny부터 turbo까지 6가지 모델 크기를 제공하여 속도와 정확도 간 트레이드오프를 선택할 수 있습니다. Transformer 시퀀스-투-시퀀스 아키텍처 기반으로, 특수 토큰을 활용한 멀티태스크 학습으로 전통적인 음성 처리 파이프라인을 단일 모델로 대체합니다. pip으로 간편하게 설치 가능하며, 96,000개 이상의 GitHub 스타를 기록한 사실상의 음성 인식 표준 프로젝트입니다.
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함

nari-labs
초현실적 대화형 음성 생성 1.6B TTS 모델