Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

FunASR는 ModelScope에서 개발한 종합 음성 인식 툴킷으로, ASR, VAD, 구두점 복원, 화자 인식 등 다양한 음성 처리 기능을 제공합니다. 최신 Fun-ASR-Nano 모델은 수천만 시간의 실제 음성 데이터로 학습되어 31개 언어를 지원하며, 저지연 실시간 전사가 가능합니다. 교육, 금융 등 전문 도메인의 용어도 정확하게 인식합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리