Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
FluidAudio는 Apple 생태계(iOS/macOS) 앱에 최첨단 오디오 AI 기능을 통합할 수 있는 Swift 라이브러리입니다. CoreML과 Apple Neural Engine(ANE)에 최적화되어 음성 인식(STT), 음성 합성(TTS), 음성 활동 감지(VAD), 화자 분리(Speaker Diarization)를 모두 온디바이스로 처리합니다. NVIDIA Parakeet 같은 SOTA 오픈소스 모델을 CoreML로 변환하여 제공하며, 실시간 스트리밍 인식과 화자 식별/검증 기능을 통해 클라우드 의존 없이 프라이버시 친화적인 음성 앱을 구축할 수 있습니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리