Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Kaldi는 C++로 작성된 세계에서 가장 널리 사용되는 오픈소스 음성 인식 툴킷입니다. 2009년 존스홉킨스 대학 워크샵에서 시작된 이 프로젝트는 학계와 산업계 모두에서 자동 음성 인식(ASR) 시스템 개발의 표준 도구로 자리잡았습니다. HMM-GMM 기반 음향 모델부터 DNN(딥 뉴럴 네트워크) 기반 최신 아키텍처까지 다양한 모델을 지원하며, MFCC·FBANK·fMLLR 등 다양한 특징 추출 기능을 내장하고 있습니다. 유한 상태 변환기(FST)와의 코드 레벨 통합, BLAS/LAPACK 행렬 라이브러리 래핑, MMI·boosted MMI·MCE 판별 학습 등 고급 기능을 제공합니다.

microsoft
60분 음성 단일 패스 처리 보이스 AI

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱
NVIDIA-NeMo
NVIDIA의 엔터프라이즈급 생성형 AI 프레임워크 - ASR, LLM, TTS 통합