Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
LLaVA(Large Language and Vision Assistant)는 시각적 지시 조정을 기반으로 한 멀티모달 AI 모델로, GPT-4V 수준의 기능을 목표로 개발되었습니다. 이미지와 텍스트를 동시에 이해하고 처리할 수 있으며, 다양한 비전-언어 작업(이미지 설명, 시각적 질문 답변, 객체 인식 등)을 수행합니다. NeurIPS'23 구두 발표 논문 기반의 최첨단 오픈소스 멀티모달 모델입니다.

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크

moeru-ai
자체 호스팅 AI 음성 동반자 (실시간 채팅, 게임 플레이, 20+ LLM 통합)