Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
OpenAI가 개발한 범용 음성 인식 모델로, 대규모 다양한 오디오 데이터셋에서 학습되었습니다. 99개 이상의 언어를 지원하는 다국어 음성 인식, 영어 번역, 음성 언어 감지, 음성 활동 감지 등을 수행합니다. tiny부터 turbo까지 6가지 모델 크기를 제공하여 속도와 정확도 간 트레이드오프를 선택할 수 있습니다. Transformer 시퀀스-투-시퀀스 아키텍처 기반으로, 특수 토큰을 활용한 멀티태스크 학습으로 전통적인 음성 처리 파이프라인을 단일 모델로 대체합니다. pip으로 간편하게 설치 가능하며, 96,000개 이상의 GitHub 스타를 기록한 사실상의 음성 인식 표준 프로젝트입니다.
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음

nari-labs
초현실적 대화형 음성 생성 1.6B TTS 모델
jamiepine
23개 언어 지원, 다중 TTS 엔진 기반의 로컬 음성 합성 스튜디오
AIGC-Audio
다중 음성/음악/오디오 생성 및 이해를 위한 종합 AI 시스템