Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
WeNet은 프로덕션 환경을 최우선으로 설계된 엔드투엔드(E2E) 음성 인식(STT) 툴킷입니다. 연구와 실제 서비스 배포 사이의 간극을 메우는 것을 목표로, 모델 학습부터 추론, 서빙까지 하나의 통합된 파이프라인으로 제공합니다. Conformer·Transformer 기반의 최신 음성 인식 아키텍처를 지원하며, U2/U2++ 구조를 통해 스트리밍과 비스트리밍 인식을 동시에 처리할 수 있습니다. LibTorch 기반의 런타임으로 x86 서버, ARM 임베디드, 안드로이드, iOS 등 다양한 플랫폼에 배포 가능하며, 언어 모델 융합과 양자화도 지원합니다. 중국어·영어 등 다국어 환경에서 폭넓게 검증되어 실서비스 음성 인식 구축에 널리 활용됩니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리