Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
LLaMA-Omni는 중국과학원 자연어처리연구실(ICT NLP)이 공개한 엔드투엔드 음성 상호작용 모델로, Llama-3.1-8B-Instruct 위에 음성 인코더와 스트리밍 음성 디코더를 결합해 GPT-4o 수준의 실시간 음성 대화를 목표로 합니다. 별도의 ASR 단계를 거치지 않고 음성 입력에서 곧바로 텍스트·음성 응답을 생성해 200ms 안팎의 낮은 지연을 실현하며, InstructS2S-200K라는 전용 음성 지시 데이터셋으로 학습되어 자연스러운 대화체 응답을 만들어 냅니다. 음성 인터페이스를 갖춘 로컬 어시스턴트나 보이스 에이전트를 구축하려는 연구자·개발자에게 강력한 오픈소스 베이스라인을 제공합니다.
ggml-org
OpenAI Whisper의 C/C++ 포팅 - 로컬 STT의 사실상 표준

microsoft
60분 음성 단일 패스 처리 보이스 AI
m-bain
단어 수준 타임스탬프와 화자 분리를 지원하는 70배 빠른 Whisper 기반 ASR 라이브러리

SYSTRAN
CTranslate2 기반 Whisper 4배 고속 음성 인식 라이브러리