Trending

FluidAudio

FluidInferenceApache-2.02026.05.27

STT2.1K Stars288 Forks5.3천 조회

FluidAudio는 Apple 생태계(iOS/macOS) 앱에 최첨단 오디오 AI 기능을 통합할 수 있는 Swift 라이브러리입니다. CoreML과 Apple Neural Engine(ANE)에 최적화되어 음성 인식(STT), 음성 합성(TTS), 음성 활동 감지(VAD), 화자 분리(Speaker Diarization)를 모두 온디바이스로 처리합니다. NVIDIA Parakeet 같은 SOTA 오픈소스 모델을 CoreML로 변환하여 제공하며, 실시간 스트리밍 인식과 화자 식별/검증 기능을 통해 클라우드 의존 없이 프라이버시 친화적인 음성 앱을 구축할 수 있습니다.

주요 특징

CoreML과 Apple Neural Engine(ANE) 최적화로 온디바이스 추론
Parakeet 등 SOTA 모델 기반 실시간 음성 인식(STT)
Swift 네이티브 API로 iOS/macOS 앱에 손쉬운 통합
화자 분리·화자 임베딩·화자 식별까지 통합 제공
음성 활동 감지(VAD)와 스트리밍 파이프라인 내장

Open Source

FluidAudio

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper