Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
VITA-1.5는 GPT-4o 수준의 실시간 비전-음성 상호작용을 목표로 개발된 오픈소스 옴니 멀티모달 LLM입니다. NeurIPS 2025에서 발표된 이 모델은 혁신적인 3단계 학습 방법을 통해 비전-언어 학습, 오디오 입력 처리, 엔드투엔드 음성 생성을 단계적으로 통합합니다. 별도의 ASR(음성인식)과 TTS(텍스트-음성 변환) 모듈 없이 엔드투엔드 음성 대화가 가능하여, 멀티모달 응답 속도를 획기적으로 단축했습니다. 이미지 이해 작업에서 MiniCPM-V 2.6, InternVL2 등 선도적 오픈소스 MLLM과 동등한 성능을 달성하며, GPT-4V와 GPT-4o-mini를 종합 지표에서 능가합니다. 음성 인식에서도 중국어 8.4 CER, 영어 3.4 WER의 우수한 성능을 보여줍니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크