Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
WhisperLive는 Collabora에서 개발한 실시간 음성 인식 애플리케이션으로, OpenAI의 Whisper 모델을 기반으로 거의 실시간에 가까운 음성-텍스트 변환을 제공합니다. 마이크를 통한 라이브 오디오 입력과 사전 녹음된 오디오 파일 모두를 지원하며, faster-whisper, TensorRT, OpenVINO 등 3가지 백엔드를 선택할 수 있어 다양한 하드웨어 환경에 최적화된 추론이 가능합니다. Chrome과 Firefox 브라우저 확장 프로그램을 통해 웹 브라우저에서 직접 오디오를 트랜스크립션할 수 있으며, iOS 네이티브 클라이언트도 지원합니다. WebSocket 기반 서버-클라이언트 아키텍처로 설계되어 확장성이 뛰어나고, Intel CPU/iGPU/dGPU에서도 OpenVINO를 통해 효율적인 추론이 가능합니다.

microsoft
60분 음성 단일 패스 처리 보이스 AI

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱
NVIDIA-NeMo
NVIDIA의 엔터프라이즈급 생성형 AI 프레임워크 - ASR, LLM, TTS 통합