Open Source
GitHub, HuggingFace의 최신 AI 오픈소스 프로젝트를 탐색하세요.
Kimi-Audio는 Moonshot AI가 개발한 오픈소스 오디오 파운데이션 모델로, 오디오 이해와 생성, 대화를 하나의 모델에서 처리한다. 1,300만 시간 이상의 음성, 음악, 환경음 데이터로 사전학습되었으며, 음성 인식(ASR), 오디오 질의응답(AQA), 오디오 캡셔닝(AAC), 감정 인식(SER), 사운드 이벤트 분류(SEC), 음향 장면 분류(ASC) 등 다양한 태스크를 수행한다. 연속 음향 벡터와 이산 시맨틱 토큰을 결합한 하이브리드 오디오 입력 시스템을 채택하여 풍부한 음향 정보를 보존하면서도 효율적인 처리가 가능하다. 트랜스포머 기반 LLM 코어에서 텍스트와 오디오 토큰을 병렬 생성하는 구조이며, 청크 단위 스트리밍 디토크나이저로 저지연 오디오 출력을 실현한다. 다수 오디오 벤치마크에서 최고 수준의 성능을 달성했다.
openai
99개+ 언어 지원 범용 음성 인식 모델 - GitHub 96K 스타
coqui-ai
1100개 이상 언어를 지원하는 오픈소스 음성 합성 딥러닝 도구 모음

nari-labs
초현실적 대화형 음성 생성 1.6B TTS 모델
jamiepine
23개 언어 지원, 다중 TTS 엔진 기반의 로컬 음성 합성 스튜디오