Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Insanely Fast Whisper는 OpenAI Whisper 모델을 Flash Attention 2, 배치 처리, fp16 최적화로 극한의 속도로 실행하는 CLI 도구입니다. A100 GPU에서 2.5시간 분량의 오디오를 98초 이내에 전사할 수 있으며, 기존 fp32 대비 약 20배 빠른 처리 속도를 자랑합니다. Hugging Face Transformers와 Optimum 라이브러리를 기반으로 하며, PyAnnote.audio를 통한 화자 분리(diarization), 단어 수준 타임스탬프 생성, NVIDIA CUDA 및 Apple Silicon(MPS) 지원을 제공합니다. 간단한 pip 설치와 CLI 명령 하나로 즉시 사용 가능하며, 파일 경로 또는 URL을 직접 입력해 빠르게 전사할 수 있습니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리