Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Penguin-VL은 텍스트 전용 LLM으로 초기화된 비전 인코더로 효율성을 극대화하는 컴팩트 비전-언어 모델 계열입니다. 데이터 확장이나 단순 모델 크기 증가 대신 비전 인코더를 재설계하여 효율성을 개선합니다. Qwen3-0.6B 같은 경량 LLM을 기반으로 양방향 어텐션과 2D-RoPE를 적용하며, 혼합 감독 사전학습과 동적 토큰 할당으로 이미지와 영상 모두에 최적화됩니다.

Comfy-Org
노드 기반 디퓨전 모델 GUI
hacksider
단 한 장의 이미지로 실시간 얼굴 교체 및 딥페이크 구현 - 84K 스타 인기 프로젝트

opendatalab
PDF를 AI 워크플로우용 마크다운/JSON으로 변환하는 비전-언어 기반 문서 파싱 엔진

ultralytics
엣지 최적화 실시간 객체 감지 YOLO 프레임워크