Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
TII(Technology Innovation Institute)가 공개한 네이티브 멀티모달, 밀집 자기회귀 트랜스포머 모델로, 자연어 쿼리만으로 객체 탐지, 인스턴스 세그멘테이션, OCR을 동시에 수행할 수 있습니다. 이미지 패치와 텍스트 토큰을 첫 레이어부터 공유 파라미터 공간에서 처리하는 얼리 퓨전(early-fusion) 아키텍처를 채택했으며, 하이브리드 어텐션 마스크로 이미지 토큰은 양방향, 텍스트 토큰은 인과적으로 디코딩합니다. 함께 공개된 Falcon-OCR(300M 파라미터)은 문서 이미지에서 일반 텍스트, LaTeX 수식, HTML 표를 출력 형식에 따라 추출할 수 있습니다. 페이지드 추론, CUDA 그래프 캡처, MLX 백엔드(Apple Silicon)까지 지원하며 A100에서 초당 5,825 토큰의 처리량을 보여줍니다.

Comfy-Org
노드 기반 디퓨전 모델 GUI
hacksider
단 한 장의 이미지로 실시간 얼굴 교체 및 딥페이크 구현 - 84K 스타 인기 프로젝트

opendatalab
PDF를 AI 워크플로우용 마크다운/JSON으로 변환하는 비전-언어 기반 문서 파싱 엔진

ultralytics
엣지 최적화 실시간 객체 감지 YOLO 프레임워크