Trending

SenseVoice

FunAudioLLMApache-2.02026.04.16

STT8.0K Stars729 Forks7.1천 조회

SenseVoice는 FunAudioLLM이 개발한 멀티모달 음성 이해 파운데이션 모델로, 자동 음성 인식(ASR), 언어 식별(LID), 음성 감정 인식(SER), 오디오 이벤트 감지(AED)를 하나의 모델에서 처리합니다. 50개 이상의 언어를 지원하며 Whisper보다 우수한 다국어 인식 성능을 자랑합니다. 10초 오디오 기준 Whisper-Large 대비 15배 빠른 추론 속도를 제공하며, 박수·웃음·울음·기침 등 인간-컴퓨터 상호작용 관련 오디오 이벤트도 감지합니다. Python, C++, Java, C# 등 다양한 언어에서 배포 가능하며 파인튜닝 스크립트를 공식 제공합니다.

주요 특징

50개 이상 언어 지원, Whisper 대비 우수한 다국어 음성 인식 성능
음성 감정 인식(SER) — 여러 벤치마크에서 최고 수준 정확도
오디오 이벤트 감지(AED) — 박수·웃음·울음·기침·재채기 인식
Whisper-Large 대비 15배 빠른 초저지연 추론 속도
Python/C++/Java/C# 다언어 배포 지원 및 공식 파인튜닝 스크립트 제공

Open Source

SenseVoice

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper