Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

Alibaba Cloud Qwen 팀이 개발한 오픈소스 음성 인식(ASR) 모델 시리즈입니다. 52개 언어 및 방언의 음성/음악/노래 인식, 언어 감지, 타임스탬프 예측을 지원합니다. 1.7B 버전은 오픈소스 ASR 모델 중 최고 성능을 달성하며, 최강의 상용 API와도 경쟁력 있는 정확도를 보여줍니다. 0.6B 경량 버전은 동시 128 요청 기준 2000배 처리량을 달성하여 비용 효율적 배포에 적합합니다. 스트리밍/오프라인 통합 추론을 단일 모델로 지원하며, 장시간 오디오 전사도 가능합니다. 2026년 1월 출시 이후 빠르게 주목받고 있습니다.

microsoft
60분 음성 단일 패스 처리 보이스 AI

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱
NVIDIA-NeMo
NVIDIA의 엔터프라이즈급 생성형 AI 프레임워크 - ASR, LLM, TTS 통합