Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
OpenFlamingo는 ML Foundations에서 개발한 대규모 멀티모달 모델 학습을 위한 오픈소스 프레임워크입니다. DeepMind의 Flamingo 아키텍처를 오픈소스로 재구현하여, Perceiver 리샘플러와 크로스 어텐션 레이어를 활용한 인터리브 이미지-텍스트 학습을 지원합니다. Multimodal C4 데이터셋 500만 샘플과 LAION-2B 1,000만 샘플로 학습되었으며, 이미지와 텍스트가 교차하는 대규모 웹 코퍼스에서 훈련되어 강력한 인컨텍스트 퓨샷 학습 능력을 갖추고 있습니다. 이미지 캡셔닝, 시각적 질의응답, 이미지 기반 텍스트 생성 등 다양한 비전-언어 작업에 활용할 수 있으며, 비전-언어 태스크를 위한 인컨텍스트 학습 평가 벤치마크도 함께 제공합니다. 워싱턴대, 스탠포드, AI2, Google 등 세계적 연구기관이 참여한 프로젝트입니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크