Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
WhisperLive는 Collabora에서 개발한 실시간 음성 인식 애플리케이션으로, OpenAI의 Whisper 모델을 기반으로 거의 실시간에 가까운 음성-텍스트 변환을 제공합니다. 마이크를 통한 라이브 오디오 입력과 사전 녹음된 오디오 파일 모두를 지원하며, faster-whisper, TensorRT, OpenVINO 등 3가지 백엔드를 선택할 수 있어 다양한 하드웨어 환경에 최적화된 추론이 가능합니다. Chrome과 Firefox 브라우저 확장 프로그램을 통해 웹 브라우저에서 직접 오디오를 트랜스크립션할 수 있으며, iOS 네이티브 클라이언트도 지원합니다. WebSocket 기반 서버-클라이언트 아키텍처로 설계되어 확장성이 뛰어나고, Intel CPU/iGPU/dGPU에서도 OpenVINO를 통해 효율적인 추론이 가능합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리