Trending

VITA-1.5

VITA-MLLMApache-2.02026.03.31

멀티모달2.5K Stars183 Forks5.0천 조회

VITA-1.5는 GPT-4o 수준의 실시간 비전-음성 상호작용을 목표로 개발된 오픈소스 옴니 멀티모달 LLM입니다. NeurIPS 2025에서 발표된 이 모델은 혁신적인 3단계 학습 방법을 통해 비전-언어 학습, 오디오 입력 처리, 엔드투엔드 음성 생성을 단계적으로 통합합니다. 별도의 ASR(음성인식)과 TTS(텍스트-음성 변환) 모듈 없이 엔드투엔드 음성 대화가 가능하여, 멀티모달 응답 속도를 획기적으로 단축했습니다. 이미지 이해 작업에서 MiniCPM-V 2.6, InternVL2 등 선도적 오픈소스 MLLM과 동등한 성능을 달성하며, GPT-4V와 GPT-4o-mini를 종합 지표에서 능가합니다. 음성 인식에서도 중국어 8.4 CER, 영어 3.4 WER의 우수한 성능을 보여줍니다.

주요 특징

3단계 점진적 학습으로 비전-언어-음성 통합
별도 ASR/TTS 없이 엔드투엔드 음성 대화 지원
실시간 비전-음성 상호작용으로 1.5초 이내 응답
GPT-4V, GPT-4o-mini 능가하는 이미지 이해 성능
중국어와 영어 음성 인식 모두 높은 정확도 달성

Open Source

VITA-1.5

주요 특징

태그

관련 프로젝트

LLaVA

MiniCPM-o

UniLM

Jina Serve