Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
NVIDIA NeMo는 대규모 언어 모델(LLM), 멀티모달 모델, 자동 음성 인식(ASR), 텍스트-음성 변환(TTS)을 위한 확장 가능한 생성형 AI 프레임워크입니다. Conformer-Transducer, Citrinet, QuartzNet, Parakeet TDT 등 최신 음성 인식 아키텍처를 포함하며, 특히 Parakeet TDT 0.6B 모델은 Open ASR 리더보드에서 RTFx 2,000 이상의 초고속 추론 성능을 달성하여 Whisper 대비 월등한 처리 속도를 보여줍니다. 엔터프라이즈급 클라우드 및 GPU 가속 환경에 최적화되어 있으며, 사전 학습된 체크포인트를 활용한 커스터마이징과 파인튜닝이 용이합니다. 50개 이상의 언어를 지원하는 다국어 모델도 제공하여 글로벌 서비스 구축에 적합합니다.

microsoft
60분 음성 단일 패스 처리 보이스 AI

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱

modelscope
31개 언어 지원 산업용 종합 음성 인식(ASR) 툴킷