Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
SenseVoice는 FunAudioLLM이 개발한 멀티모달 음성 이해 파운데이션 모델로, 자동 음성 인식(ASR), 언어 식별(LID), 음성 감정 인식(SER), 오디오 이벤트 감지(AED)를 하나의 모델에서 처리합니다. 50개 이상의 언어를 지원하며 Whisper보다 우수한 다국어 인식 성능을 자랑합니다. 10초 오디오 기준 Whisper-Large 대비 15배 빠른 추론 속도를 제공하며, 박수·웃음·울음·기침 등 인간-컴퓨터 상호작용 관련 오디오 이벤트도 감지합니다. Python, C++, Java, C# 등 다양한 언어에서 배포 가능하며 파인튜닝 스크립트를 공식 제공합니다.

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱