Trending

lmms-eval

EvolvingLMMs-LabNOASSERTION2026.05.28

멀티모달4.2K Stars593 Forks5.2천 조회

EvolvingLMMs-Lab가 개발한 lmms-eval은 텍스트·이미지·비디오·오디오 전 영역의 멀티모달 모델을 하나의 파이프라인으로 평가할 수 있는 "One-for-All" 평가 툴킷입니다. v0.7 릴리스(2026년 2월)에서 8개 도메인에 걸친 25개 이상의 신규 태스크, 새로운 모델 백엔드 2종, 에이전트형 태스크 평가, TorchCodec 기반 비디오 I/O 오버홀(최대 3.58배 빠른 처리) 등 운영성과 파이프라인 성숙도를 크게 끌어올렸습니다. GPT-4o, Claude, Gemini 같은 상용 모델부터 LLaVA·Qwen-VL·InternVL 등 오픈소스 멀티모달 모델까지 동일한 코드 경로로 벤치마크할 수 있어, 연구·산업 양쪽에서 사실상 멀티모달 평가의 표준으로 자리잡았습니다.

주요 특징

텍스트·이미지·비디오·오디오 전 도메인 통합 평가 파이프라인
v0.7 기준 8개 도메인 25개 이상 신규 태스크 및 에이전트형 평가 지원
TorchCodec 기반 비디오 I/O 오버홀로 최대 3.58배 처리 속도 향상
상용(GPT-4o, Claude, Gemini)·오픈소스(LLaVA, Qwen-VL, InternVL) 모델 동시 지원
재현 가능한 벤치마크·리더보드 제출을 위한 표준화된 메트릭과 로깅

Open Source

lmms-eval

주요 특징

태그

관련 프로젝트

MiniCPM-V

LLaVA

MiniCPM-o

UniLM