Trending

Diffusion-ASR

liuzhan22Apache 2.02026.03.25

STT4 Stars7.4천 조회

ICASSP 2026 논문 기반의 음성 인식 연구 프로젝트입니다. Whisper 음성 인코더와 LLaDA 확산 기반 언어 모델을 결합하여, 직접 디코딩과 세미-자동회귀 디코딩을 지원합니다. LibriSpeech 테스트에서 2.25%/4.94% WER 성능을 달성하며, 토론/정정 기능으로 생성된 트랜스크립트를 자동 개선할 수 있습니다. 속도와 정확도의 균형을 조정 가능한 설정으로 다양한 응용에 대응합니다.

주요 특징

Whisper 음성 인코더 통합
LLaDA 확산 기반 디코더
직접 디코딩 (빠른 추론)
세미-자동회귀 디코딩
논의/정정 기능으로 자동 개선
양방향 어텐션 기반 정밀화
Python 기반 구현
LibriSpeech 벤치마크 최적화
설정 기반 성능 조정

Open Source

Diffusion-ASR

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper