Trending

LLaMA-Omni

ictnlpApache-2.02026.05.13

STT3.1K Stars223 Forks5.1천 조회

LLaMA-Omni는 중국과학원 자연어처리연구실(ICT NLP)이 공개한 엔드투엔드 음성 상호작용 모델로, Llama-3.1-8B-Instruct 위에 음성 인코더와 스트리밍 음성 디코더를 결합해 GPT-4o 수준의 실시간 음성 대화를 목표로 합니다. 별도의 ASR 단계를 거치지 않고 음성 입력에서 곧바로 텍스트·음성 응답을 생성해 200ms 안팎의 낮은 지연을 실현하며, InstructS2S-200K라는 전용 음성 지시 데이터셋으로 학습되어 자연스러운 대화체 응답을 만들어 냅니다. 음성 인터페이스를 갖춘 로컬 어시스턴트나 보이스 에이전트를 구축하려는 연구자·개발자에게 강력한 오픈소스 베이스라인을 제공합니다.

주요 특징

Llama-3.1-8B-Instruct 기반 엔드투엔드 음성-텍스트/음성-음성 모델
별도 ASR 없이 음성 입력에서 직접 응답 생성, 약 200ms 저지연 달성
스트리밍 음성 디코더로 응답 생성과 음성 합성을 동시 수행
InstructS2S-200K 음성 지시 데이터셋으로 학습된 대화형 모델
추론·학습 코드와 사전학습 가중치, 데모 UI까지 모두 오픈소스 공개

Open Source

LLaMA-Omni

주요 특징

태그

관련 프로젝트

whisper.cpp

VibeVoice

WhisperX

faster-whisper