Trending

Perception Models

facebookresearchApache-2.02026.02.07

멀티모달2.1K Stars120 Forks7.4천 조회

Meta AI Research가 개발한 멀티모달 인코더+LLM 통합 프로젝트입니다. Perception Encoder(PE)는 이미지, 비디오, 오디오를 인코딩하고, Perception Language Model(PLM)은 이를 디코딩하여 이해합니다. PE Core(CLIP 기반 제로샷 분류), PE Lang(LLM 정렬 인코더), PE Spatial(객체 감지/깊이 추정), PE Audio-Visual(오디오/비디오/텍스트 통합 임베딩) 등 4가지 특화 인코더를 제공하며, 완전 공개 데이터로 학습되어 재현 가능합니다.

주요 특징

PE Core - 이미지/비디오 제로샷 분류를 위한 CLIP 모델
PE Lang - LLM 정렬 인코더로 멀티모달 이해 구현
PE Spatial - 객체 감지, 깊이 추정, 추적 등 공간 인식 특화
PE Audio-Visual - 오디오/비디오/텍스트 통합 임베딩 공간
PLM - 멀티모달 LLM으로 경쟁 모델 대비 높은 벤치마크 성능

Open Source

Perception Models

주요 특징

태그

관련 프로젝트

LLaVA

MiniCPM-o

UniLM

Jina Serve