2026.05.03
37
0
0
기타 LLMNEW

xAI, Grok 4.3 출시와 동시에 음성 클로닝 API 공개: 가격 40% 인하

xAI가 2026년 4월 30일 Grok 4.3과 Custom Voices(음성 클로닝) API를 동시에 출시했다. API 가격을 최대 58% 인하하고 에이전틱 성능을 대폭 강화했다.

#xAI#Grok#Grok4.3#음성클로닝#CustomVoices
xAI, Grok 4.3 출시와 동시에 음성 클로닝 API 공개: 가격 40% 인하
AI 핵심 요약

xAI가 2026년 4월 30일 Grok 4.3과 Custom Voices(음성 클로닝) API를 동시에 출시했다. API 가격을 최대 58% 인하하고 에이전틱 성능을 대폭 강화했다.

핵심 요약

xAI가 2026년 4월 30일 Grok 4.3을 공식 출시하며 동시에 개발자용 Custom Voices(음성 클로닝) API를 공개했다. API 입력 가격을 37.5%, 출력 가격을 58.3% 인하하는 공격적인 가격 정책을 내세웠다.

Grok 4.3 주요 변화

에이전틱 성능 향상

Grok 4.3은 실세계 에이전틱 작업 성능이 크게 향상됐다. Artificial Analysis Intelligence Index에서 53점을 기록, Gemini 3.1 Pro와 Claude Sonnet 4.6을 웃돌지만 GPT-5.5(60점)나 Claude Opus 4.7(57점)에는 미치지 못한다.

가장 눈에 띄는 성과는 τ²-Bench Telecom에서 98%를 기록한 것으로, 고객 지원 및 명령어 준수 작업에서 특히 강점을 보인다. IFBench(명령어 준수) 81%, GDPval-AA ELO 1500(+321) 등 에이전틱 지표에서 전작 대비 뚜렷한 개선이 확인됐다.

공격적인 가격 인하

Grok 4.3의 API 가격은 입력 $1.25/백만 토큰, 출력 $2.50/백만 토큰으로 책정됐다. 이전 Grok 4.20 0309 v2 대비 입력 37.5%, 출력 58.3% 인하된 수준이다. 벤치마크를 실행하는 총 비용이 약 20% 줄어들어 비용 효율성이 크게 개선됐다.

컨텍스트 윈도우는 200만 토큰을 유지하며, 16-에이전트 Heavy 시스템도 그대로 유지됐다. 이는 서양 클로즈드 모델 가운데 최대 컨텍스트에 해당한다.

새로운 멀티모달 기능

Grok 4.3은 PDF 생성, 스프레드시트, PowerPoint 파일을 대화 중 직접 생성하고 다운로드하는 기능이 추가됐다. 동영상 콘텐츠를 이해하고 대화하는 능력도 강화됐다. SuperGrok Heavy 구독자는 월 $300에 해당 기능을 이용할 수 있다.

Custom Voices: 음성 클로닝 API

기능 개요

xAI가 Custom Voices API를 같은 날 출시했다. 120초 이상의 참조 오디오 클립만 제출하면 화자의 음색뿐만 아니라 억양 패턴과 발화 리듬까지 복제한 커스텀 음성을 생성한다. 생성된 음성에는 8자리 고유 식별자가 부여되어 Text-to-Speech 및 Voice Agent API에서 재사용할 수 있다.

가격 및 지원 범위

음성 클로닝 자체에는 추가 요금이 없다. 기본 API 요금인 Text-to-Speech $4.20/백만 문자, Voice Agent API $0.05/분($3.00/시간)만 부과된다. 기본 제공 음성 카탈로그는 28개 언어 80개 이상 음성으로 구성됐다.

보안 검증

xAI는 무단 음성 복제를 방지하기 위해 2단계 인증 프로세스를 적용했다. 화자가 실시간으로 검증 문구를 읽으면 STT 엔진이 텍스트를 인식해 일치 여부를 확인하고, 이후 검증 클립과 전체 녹음의 화자 임베딩을 비교해 동일 인물임을 확인한다.

경쟁 모델과의 비교

모델Intelligence IndexAPI 입력가API 출력가
GPT-5.560$5.00/M$30.00/M
Claude Opus 4.757$5.00/M$25.00/M
Grok 4.353$1.25/M$2.50/M
Gemini 3.1 Pro52$7.00/M$21.00/M

성능 지수는 GPT-5.5와 Claude Opus 4.7에 미치지 못하지만, API 가격은 동급 모델 대비 현저히 낮다.

활용 가능한 시나리오

Grok 4.3의 음성 클로닝 API는 오디오북 내레이션, 게임 캐릭터 음성, 고객 지원 음성 에이전트에 특히 유용하다. 에이전틱 성능 향상으로 고객 지원 봇, 명령어 준수 워크플로우 자동화, 비디오 요약 애플리케이션에도 적합하다.

전망

xAI의 이번 전략은 성능 경쟁보다 가격 공세로 시장 점유율을 확대하는 방식이다. Custom Voices API는 ElevenLabs, OpenAI의 TTS API와 직접 경쟁하며 음성 AI 시장에 진입하는 포석이다. 컨텍스트 윈도우 200만 토큰 유지와 에이전틱 개선이 맞물려 대규모 데이터 처리 기업 고객을 공략할 것으로 보인다.

결론

Grok 4.3은 최상위 모델과의 성능 격차는 여전히 존재하지만, 가격 효율성과 에이전틱 능력 개선으로 비용 민감한 기업 고객에게 매력적인 선택지다. Custom Voices API의 동시 출시로 텍스트 AI를 넘어 음성 AI 플랫폼으로의 확장을 선언했다.

장점

  • 동급 최저 수준의 API 가격 (GPT-5.5 대비 출력 가격 12분의 1)
  • 에이전틱 지표에서 전작 대비 뚜렷한 개선 (GDPval-AA +321 ELO)
  • 서양 클로즈드 모델 최대 200만 토큰 컨텍스트 유지
  • Custom Voices로 음성 AI 플랫폼으로 영역 확장
  • 2단계 보안 검증으로 무단 음성 복제 방지

단점/한계

  • Intelligence Index 53점으로 GPT-5.5(60)와 Claude Opus 4.7(57)에 성능 열위
  • AA-Omniscience 비환각률이 8점 하락해 정확성 측면에서 퇴보
  • SuperGrok Heavy 구독 $300/월로 일반 소비자 접근 장벽이 높음
  • Custom Voices 음성 클로닝 악용 가능성에 대한 업계 우려 존재

댓글0

주요 기능/특징

1. API 가격 입력 37.5%, 출력 58.3% 인하 (입력 $1.25/M, 출력 $2.50/M) 2. GDPval-AA ELO 1500(+321), τ²-Bench Telecom 98% 달성 3. 200만 토큰 컨텍스트 윈도우 유지, 16-에이전트 Heavy 시스템 4. Custom Voices API: 120초 오디오로 음성 클로닝, 28개 언어 80개 이상 기본 음성 5. PDF/스프레드시트/PowerPoint 직접 생성, 동영상 이해 기능 추가

핵심 인사이트

  • xAI는 성능이 아닌 가격 경쟁력으로 시장 점유율을 공략하는 전략을 택했다.
  • 출력 토큰 가격 58.3% 인하는 장문 응답이 많은 에이전틱 워크플로우에서 비용을 크게 절감시킨다.
  • Custom Voices는 ElevenLabs 등 기존 음성 AI 서비스와 직접 경쟁하며 xAI의 플랫폼 다각화를 보여준다.
  • τ²-Bench Telecom 98%는 고객 지원 특화 에이전틱 작업에서 업계 최고 수준의 성능이다.
  • 200만 토큰 컨텍스트는 서양 클로즈드 모델 중 최대로 대규모 문서 처리에 강점을 가진다.
  • GDPval-AA ELO +321 상승은 전작 대비 실세계 지시 이행 능력이 뚜렷이 개선됐음을 입증한다.
  • 2단계 음성 검증 시스템 도입으로 딥페이크 목소리 남용 우려에 선제 대응했다.

이 리뷰가 유용했나요?

공유하기