Trending

Qwen2-Audio

QwenLM2026.06.24

Audio2.1K Stars165 Forks30 조회

Qwen2-Audio는 Alibaba Cloud가 공개한 대규모 오디오-언어 모델(LALM)로, 다양한 오디오 신호를 입력으로 받아 음성 명령에 직접 텍스트로 응답하거나 오디오를 분석합니다. 텍스트 입력 없이 자유롭게 음성으로 대화하는 '보이스 챗' 모드와, 오디오와 텍스트 지시를 함께 제공해 분석하는 '오디오 분석' 모드 두 가지 상호작용 방식을 지원합니다. 음성 인식뿐 아니라 음악·환경음 등 일반 오디오의 내용을 이해하고 추론할 수 있으며, Qwen2-Audio-7B와 명령 튜닝된 Qwen2-Audio-7B-Instruct 두 가지 체크포인트가 ModelScope와 Hugging Face에 공개되어 있습니다. 멀티모달 음성 비서, 오디오 이해 연구 등에 활용할 수 있는 오픈 모델입니다.

주요 특징

텍스트 없이 음성으로 대화하는 보이스 챗 모드
오디오와 텍스트 지시를 결합한 오디오 분석 모드
음성·음악·환경음 등 일반 오디오 이해 및 추론
Qwen2-Audio-7B / 7B-Instruct 두 가지 체크포인트 공개
ModelScope·Hugging Face 연동으로 손쉬운 추론

Open Source

Qwen2-Audio

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI