Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
OpenVLA는 로봇 조작 작업을 위한 비전-언어-액션(VLA) 모델의 학습과 미세조정을 위한 간단하고 확장 가능한 코드베이스입니다. 1B부터 34B 파라미터까지 다양한 규모의 모델을 지원하며, RLDS 형식의 임의 데이터셋과 Open X-Embodiment 데이터를 혼합하여 처리할 수 있습니다. PyTorch FSDP와 Flash-Attention을 활용한 분산 학습으로 효율적인 훈련이 가능하며, LoRA 기반의 매개변수 효율적 미세조정도 지원합니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크