Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
NVIDIA NeMo는 대규모 언어 모델(LLM), 멀티모달 모델, 자동 음성 인식(ASR), 텍스트-음성 변환(TTS)을 위한 확장 가능한 생성형 AI 프레임워크입니다. Conformer-Transducer, Citrinet, QuartzNet, Parakeet TDT 등 최신 음성 인식 아키텍처를 포함하며, 특히 Parakeet TDT 0.6B 모델은 Open ASR 리더보드에서 RTFx 2,000 이상의 초고속 추론 성능을 달성하여 Whisper 대비 월등한 처리 속도를 보여줍니다. 엔터프라이즈급 클라우드 및 GPU 가속 환경에 최적화되어 있으며, 사전 학습된 체크포인트를 활용한 커스터마이징과 파인튜닝이 용이합니다. 50개 이상의 언어를 지원하는 다국어 모델도 제공하여 글로벌 서비스 구축에 적합합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리