Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
SpeechBrain은 PyTorch 기반의 오픈소스 대화형 AI 툴킷으로, 음성 인식(ASR), 화자 인식, 음성 향상, 음성 분리, 텍스트-음성 변환(TTS), 언어 모델링, 대화 시스템 등 음성 및 텍스트 처리의 거의 모든 영역을 포괄합니다. 140명 이상의 개발자가 기여하고 있으며, PyPI에서 월 20만 회 이상의 다운로드를 기록하고 있습니다. 사전 학습된 모델과 레시피를 통해 연구자와 개발자 모두 빠르게 최신 음성 처리 시스템을 구축할 수 있으며, HuggingFace Hub과 긴밀하게 통합되어 모델 공유와 배포가 용이합니다. 음성 어시스턴트, 챗봇, 회의 전사 등 다양한 실무 애플리케이션에 활용할 수 있는 포괄적인 프레임워크입니다.

microsoft
60분 음성 단일 패스 처리 보이스 AI

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리
cjpais
개인정보 보호형 로컬 음성인식 데스크톱 앱
NVIDIA-NeMo
NVIDIA의 엔터프라이즈급 생성형 AI 프레임워크 - ASR, LLM, TTS 통합