Trending

Qwen3-Omni

QwenLMApache-2.02026.04.29

멀티모달3.7K Stars253 Forks7.1천 조회

Qwen3-Omni은 Alibaba Cloud의 Qwen 팀이 개발한 네이티브 엔드투엔드 옴니모달 대형 언어 모델입니다. 텍스트, 오디오, 이미지, 비디오를 단일 통합 아키텍처에서 동시에 이해하고, 실시간으로 자연스러운 음성을 생성하는 획기적인 능력을 제공합니다. Thinker-Talker 듀얼 모듈 구조를 통해 멀티모달 추론과 저지연 음성 합성을 분리하여 최적화했으며, 30개 이상의 언어로 텍스트와 음성 입력, 다국어 음성 출력을 지원합니다. Apache 2.0 라이선스로 공개되어 연구자와 개발자가 자유롭게 활용할 수 있는 오픈소스 옴니모달 모델의 새로운 기준을 제시합니다.

주요 특징

텍스트, 오디오, 이미지, 비디오를 단일 모델에서 동시 처리하는 네이티브 옴니모달 아키텍처
Thinker-Talker 듀얼 모듈 구조로 멀티모달 추론과 실시간 음성 생성을 분리 최적화
30개 이상 언어의 텍스트/음성 입력 지원, 다국어 실시간 음성 응답 생성
긴 컨텍스트 윈도우와 멀티턴 대화 처리로 자연스러운 음성 비서 구축 가능
Apache 2.0 라이선스로 상업적 이용까지 자유로운 완전 오픈소스 공개

Open Source

Qwen3-Omni

주요 특징

태그

관련 프로젝트

MiniCPM-V

LLaVA

MiniCPM-o

UniLM