TrendingFeatured

Whisper

openaiMIT2026.03.17

Audio96.1K Stars11.9K Forks7.9천 조회

OpenAI가 개발한 범용 음성 인식 모델로, 대규모 다양한 오디오 데이터셋에서 학습되었습니다. 99개 이상의 언어를 지원하는 다국어 음성 인식, 영어 번역, 음성 언어 감지, 음성 활동 감지 등을 수행합니다. tiny부터 turbo까지 6가지 모델 크기를 제공하여 속도와 정확도 간 트레이드오프를 선택할 수 있습니다. Transformer 시퀀스-투-시퀀스 아키텍처 기반으로, 특수 토큰을 활용한 멀티태스크 학습으로 전통적인 음성 처리 파이프라인을 단일 모델로 대체합니다. pip으로 간편하게 설치 가능하며, 96,000개 이상의 GitHub 스타를 기록한 사실상의 음성 인식 표준 프로젝트입니다.

주요 특징

99개 이상 언어 다국어 음성 인식(ASR)
음성-텍스트 변환 및 영어 번역 지원
음성 언어 자동 감지 및 음성 활동 감지
tiny~turbo 6가지 모델 크기로 속도/정확도 선택
Transformer 기반 멀티태스크 학습 아키텍처
pip 한 줄 설치 및 FFmpeg 기반 간편 사용

Open Source

Whisper

주요 특징

태그

관련 프로젝트

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)

Retrieval-based Voice Conversion WebUI