Trending

OpenSpeech

openspeech-teamMIT2026.04.11

STT714 Stars116 Forks7.2천 조회

OpenSpeech는 PyTorch-Lightning과 Hydra를 기반으로 한 엔드-투-엔드 음성 인식 오픈소스 툴킷입니다. 다양한 최신 ASR 논문의 참조 구현체를 제공하며, 한국어·영어·중국어 3개 언어에 대한 훈련 레시피를 포함하고 있습니다. LAS(Listen, Attend and Spell), Transformer, Conformer, RNN-T 등 주요 E2E ASR 아키텍처를 지원하며, Hydra 설정 시스템을 통해 실험 관리가 용이합니다. 연구자와 개발자가 최신 음성 인식 모델을 빠르게 실험하고 비교할 수 있도록 설계된 학습 친화적인 프레임워크로, 모듈화된 구조 덕분에 커스텀 모델 통합도 간단합니다.

주요 특징

LAS, Transformer, Conformer, RNN-T 등 주요 E2E ASR 아키텍처 지원
PyTorch-Lightning 기반 간결하고 재현 가능한 실험 관리
Hydra 설정 시스템으로 유연한 하이퍼파라미터 관리
한국어·영어·중국어 3개 언어 훈련 레시피 내장
최신 ASR 논문의 참조 구현체 모음 제공

Open Source

OpenSpeech

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper