Trending

Qwen3-ASR

QwenLMApache-2.02026.02.26

STT1.7K Stars145 Forks8.6천 조회

Alibaba Cloud Qwen 팀이 개발한 오픈소스 음성 인식(ASR) 모델 시리즈입니다. 52개 언어 및 방언의 음성/음악/노래 인식, 언어 감지, 타임스탬프 예측을 지원합니다. 1.7B 버전은 오픈소스 ASR 모델 중 최고 성능을 달성하며, 최강의 상용 API와도 경쟁력 있는 정확도를 보여줍니다. 0.6B 경량 버전은 동시 128 요청 기준 2000배 처리량을 달성하여 비용 효율적 배포에 적합합니다. 스트리밍/오프라인 통합 추론을 단일 모델로 지원하며, 장시간 오디오 전사도 가능합니다. 2026년 1월 출시 이후 빠르게 주목받고 있습니다.

주요 특징

52개 언어 지원 - 다국어 음성/음악/노래 인식
1.7B 모델 - 오픈소스 ASR 최고 성능 달성
0.6B 경량 모델 - 동시 128 요청 기준 2000배 처리량
스트리밍/오프라인 통합 - 단일 모델로 두 가지 모드 지원
타임스탬프 예측 - 단어 수준 정밀 타이밍 제공
장시간 오디오 - 긴 음성 파일 전사 지원

Open Source

Qwen3-ASR

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper