Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
InfiniteVL은 기존 Transformer 기반 비전-언어 모델(VLM)의 연산 병목을 해결하기 위해 설계된 선형 복잡도 멀티모달 모델입니다. 슬라이딩 윈도우 어텐션(SWA)으로 세밀한 로컬 인식을, Gated DeltaNet으로 효율적인 장기 메모리를 동시에 구현하는 혁신적인 하이브리드 아키텍처를 채택했습니다. FlashAttention-2 대비 3.6배 이상의 추론 속도 향상과 상수 메모리 사용량을 달성하며, 단일 NVIDIA RTX 4090에서 24 FPS의 안정적인 연속 비디오 이해가 가능합니다. 50만 토큰 이상의 초장문 시퀀스도 OOM 없이 처리할 수 있어, 실시간 멀티모달 스트리밍 분야에서 주목받고 있습니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크