Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Scriberr는 프라이버시와 성능을 중시하는 셀프 호스터를 위해 설계된 오픈소스 오프라인 오디오 트랜스크립션 애플리케이션입니다. 모든 처리가 로컬에서 이루어지므로 음성 메모, 회의 녹음, 인터뷰 등 민감한 오디오 데이터가 외부 클라우드로 전송되지 않습니다. NVIDIA Parakeet, Canary 같은 최신 ASR 모델과 검증된 Whisper 모델을 함께 지원하며 단어 단위 타임스탬프와 화자 분리(diarization)로 누가 무슨 말을 했는지 자동 라벨링합니다. Ollama와 OpenAI 호환 API를 연결해 트랜스크립트로 요약을 생성하거나 대화형 질의응답을 할 수 있고, 폴더 워처가 새 파일을 자동 처리해 n8n 같은 자동화에 통합하기 좋습니다. PWA 설치를 지원해 데스크톱과 모바일에서 네이티브 앱처럼 사용할 수 있고 내장 녹음기와 노트 기능까지 갖춰 음성 워크플로우를 한곳에서 처리합니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
facebookresearch
Meta의 오디오 생성 딥러닝 라이브러리 - MusicGen, AudioGen, EnCodec 포함