Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
실시간 음성 및 멀티모달 대화형 AI 에이전트를 구축하기 위한 오픈소스 Python 프레임워크로, 오디오, 비디오, AI 서비스 및 대화 파이프라인을 조율합니다. 30개 이상의 STT, 17개 이상의 LLM, 24개 이상의 TTS 서비스를 지원합니다.
haotian-liu
GPT-4V 수준의 시각적 지시 조정 멀티모달 AI 모델

OpenBMB
스마트폰에서 실행 가능한 멀티모달 AI 모델
microsoft
작업, 언어, 모달리티 전반의 통일된 사전학습 모델
jina-ai
클라우드 네이티브 멀티모달 AI 애플리케이션 구축 프레임워크