Trending

insanely-fast-whisper

Vaibhavs10Apache-2.02026.06.29

STT13.0K Stars952 Forks87 조회

Insanely Fast Whisper는 OpenAI Whisper 모델을 Flash Attention 2, 배치 처리, fp16 최적화로 극한의 속도로 실행하는 CLI 도구입니다. A100 GPU에서 2.5시간 분량의 오디오를 98초 이내에 전사할 수 있으며, 기존 fp32 대비 약 20배 빠른 처리 속도를 자랑합니다. Hugging Face Transformers와 Optimum 라이브러리를 기반으로 하며, PyAnnote.audio를 통한 화자 분리(diarization), 단어 수준 타임스탬프 생성, NVIDIA CUDA 및 Apple Silicon(MPS) 지원을 제공합니다. 간단한 pip 설치와 CLI 명령 하나로 즉시 사용 가능하며, 파일 경로 또는 URL을 직접 입력해 빠르게 전사할 수 있습니다.

주요 특징

A100 GPU에서 2.5시간 오디오를 98초 이내 전사 (기존 fp32 대비 약 20배 가속)
Flash Attention 2 + fp16 + 배치 처리로 최대 성능 최적화
PyAnnote.audio 기반 화자 분리(Speaker Diarization) 내장
단어 및 청크 수준 타임스탬프 자동 생성
NVIDIA CUDA 및 Apple Silicon(MPS) 멀티 하드웨어 지원

Open Source

insanely-fast-whisper

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper