Trending

Kimi-Audio

MoonshotAIMIT / Apache-2.02026.03.09

Audio4.5K Stars335 Forks8.3천 조회

Kimi-Audio는 Moonshot AI가 개발한 오픈소스 오디오 파운데이션 모델로, 오디오 이해와 생성, 대화를 하나의 모델에서 처리한다. 1,300만 시간 이상의 음성, 음악, 환경음 데이터로 사전학습되었으며, 음성 인식(ASR), 오디오 질의응답(AQA), 오디오 캡셔닝(AAC), 감정 인식(SER), 사운드 이벤트 분류(SEC), 음향 장면 분류(ASC) 등 다양한 태스크를 수행한다. 연속 음향 벡터와 이산 시맨틱 토큰을 결합한 하이브리드 오디오 입력 시스템을 채택하여 풍부한 음향 정보를 보존하면서도 효율적인 처리가 가능하다. 트랜스포머 기반 LLM 코어에서 텍스트와 오디오 토큰을 병렬 생성하는 구조이며, 청크 단위 스트리밍 디토크나이저로 저지연 오디오 출력을 실현한다. 다수 오디오 벤치마크에서 최고 수준의 성능을 달성했다.

주요 특징

1,300만 시간 이상의 다양한 오디오/텍스트 데이터로 사전학습
ASR, 오디오 QA, 캡셔닝, 감정 인식, 음향 분류 등 멀티태스크 지원
연속 음향 벡터와 이산 시맨틱 토큰 결합 하이브리드 입력 시스템
텍스트-오디오 병렬 생성 트랜스포머 아키텍처
청크 단위 스트리밍 디토크나이저로 저지연 실시간 출력

Open Source

Kimi-Audio

주요 특징

태그

관련 프로젝트

Whisper

Coqui TTS

Bark

Retrieval-based Voice Conversion WebUI (RVC)