Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Qwen2-Audio는 Alibaba Cloud가 공개한 대규모 오디오-언어 모델(LALM)로, 다양한 오디오 신호를 입력으로 받아 음성 명령에 직접 텍스트로 응답하거나 오디오를 분석합니다. 텍스트 입력 없이 자유롭게 음성으로 대화하는 '보이스 챗' 모드와, 오디오와 텍스트 지시를 함께 제공해 분석하는 '오디오 분석' 모드 두 가지 상호작용 방식을 지원합니다. 음성 인식뿐 아니라 음악·환경음 등 일반 오디오의 내용을 이해하고 추론할 수 있으며, Qwen2-Audio-7B와 명령 튜닝된 Qwen2-Audio-7B-Instruct 두 가지 체크포인트가 ModelScope와 Hugging Face에 공개되어 있습니다. 멀티모달 음성 비서, 오디오 이해 연구 등에 활용할 수 있는 오픈 모델입니다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음
suno-ai
Suno AI의 텍스트-오디오 생성 모델 - 다국어 음성, 음악, 효과음 생성
RVC-Project
10분 음성으로 학습하는 검색 기반 음성 변환 웹 UI