Trending

OpenFlamingo

mlfoundationsMIT2026.03.31

멀티모달4.1K Stars318 Forks7.3천 조회

OpenFlamingo는 ML Foundations에서 개발한 대규모 멀티모달 모델 학습을 위한 오픈소스 프레임워크입니다. DeepMind의 Flamingo 아키텍처를 오픈소스로 재구현하여, Perceiver 리샘플러와 크로스 어텐션 레이어를 활용한 인터리브 이미지-텍스트 학습을 지원합니다. Multimodal C4 데이터셋 500만 샘플과 LAION-2B 1,000만 샘플로 학습되었으며, 이미지와 텍스트가 교차하는 대규모 웹 코퍼스에서 훈련되어 강력한 인컨텍스트 퓨샷 학습 능력을 갖추고 있습니다. 이미지 캡셔닝, 시각적 질의응답, 이미지 기반 텍스트 생성 등 다양한 비전-언어 작업에 활용할 수 있으며, 비전-언어 태스크를 위한 인컨텍스트 학습 평가 벤치마크도 함께 제공합니다. 워싱턴대, 스탠포드, AI2, Google 등 세계적 연구기관이 참여한 프로젝트입니다.

주요 특징

Flamingo 아키텍처 기반 인터리브 이미지-텍스트 학습
인컨텍스트 퓨샷 학습으로 소량 예제만으로 태스크 수행
Multimodal C4 및 LAION-2B 대규모 데이터셋 학습
이미지 캡셔닝과 시각적 질의응답 지원
비전-언어 인컨텍스트 학습 평가 벤치마크 포함

Open Source

OpenFlamingo

주요 특징

태그

관련 프로젝트

LLaVA

MiniCPM-o

UniLM

Jina Serve