TrendingFeatured

Moshi

kyutai-labsApache-2.02026.02.26

멀티모달9.7K Stars894 Forks8.7천 조회

Kyutai Labs가 개발한 음성-텍스트 파운데이션 모델이자 전이중(full-duplex) 음성 대화 프레임워크입니다. 세계 최초의 실시간 전이중 음성 LLM으로, 이론적 지연 시간 160ms, 실제 200ms의 초저지연을 달성합니다. Mimi 스트리밍 신경 오디오 코덱을 사용하여 자신의 음성과 사용자의 음성을 병렬 스트림으로 모델링하며, 명시적 화자 턴 없이 자연스러운 대화 역학을 구현합니다. MoshiVis 확장을 통해 이미지에 대한 시각적 대화도 지원하며, Hibiki-Zero를 통한 실시간 음성 번역(4개 언어에서 영어)도 가능합니다. Apache 2.0 라이선스로 공개되어 상업적 활용이 자유롭습니다.

주요 특징

전이중 대화 - 명시적 턴 전환 없이 자연스러운 동시 대화
초저지연 - 이론 160ms, 실제 200ms 응답 시간
Mimi 코덱 - 스트리밍 신경 오디오 코덱 기반
MoshiVis - 이미지 기반 시각적 대화 확장
Hibiki-Zero - 4개 언어에서 영어로 실시간 음성 번역
Python/Rust 지원 - 연구용 PyTorch 및 프로덕션용 Rust 구현

Open Source

Moshi

주요 특징

태그

관련 프로젝트

LLaVA

MiniCPM-o

UniLM

Jina Serve