Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.

Meta AI Research가 개발한 멀티모달 인코더+LLM 통합 프로젝트입니다. Perception Encoder(PE)는 이미지, 비디오, 오디오를 인코딩하고, Perception Language Model(PLM)은 이를 디코딩하여 이해합니다. PE Core(CLIP 기반 제로샷 분류), PE Lang(LLM 정렬 인코더), PE Spatial(객체 감지/깊이 추정), PE Audio-Visual(오디오/비디오/텍스트 통합 임베딩) 등 4가지 특화 인코더를 제공하며, 완전 공개 데이터로 학습되어 재현 가능합니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크