Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

Kyutai Labs가 개발한 음성-텍스트 파운데이션 모델이자 전이중(full-duplex) 음성 대화 프레임워크입니다. 세계 최초의 실시간 전이중 음성 LLM으로, 이론적 지연 시간 160ms, 실제 200ms의 초저지연을 달성합니다. Mimi 스트리밍 신경 오디오 코덱을 사용하여 자신의 음성과 사용자의 음성을 병렬 스트림으로 모델링하며, 명시적 화자 턴 없이 자연스러운 대화 역학을 구현합니다. MoshiVis 확장을 통해 이미지에 대한 시각적 대화도 지원하며, Hibiki-Zero를 통한 실시간 음성 번역(4개 언어에서 영어)도 가능합니다. Apache 2.0 라이선스로 공개되어 상업적 활용이 자유롭습니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크