2026.03.07
4.2천
0
0
Gemini

Gemini 3.1 Flash-Lite 출시: 45% 빠른 속도에 입력 토큰당 $0.25

Google이 2026년 3월 3일 Gemini 3.1 Flash-Lite를 프리뷰로 공개했다. Gemini 2.5 Flash 대비 답변 생성 속도 45% 향상, 첫 토큰 응답 시간 2.5배 단축을 달성했다. 입력 100만 토큰당 $0.25로 업계 최저 수준의 가격을 제시했다.

#Google#Gemini#FlashLite#MoE#경량모델
Gemini 3.1 Flash-Lite 출시: 45% 빠른 속도에 입력 토큰당 $0.25
AI 핵심 요약

Google이 2026년 3월 3일 Gemini 3.1 Flash-Lite를 프리뷰로 공개했다. Gemini 2.5 Flash 대비 답변 생성 속도 45% 향상, 첫 토큰 응답 시간 2.5배 단축을 달성했다. 입력 100만 토큰당 $0.25로 업계 최저 수준의 가격을 제시했다.

Gemini 3 시리즈의 가장 빠르고 저렴한 모델

Google은 2026년 3월 3일 Gemini 3.1 Flash-Lite를 프리뷰로 공개했다. Gemini 3 시리즈에서 가장 빠르고 비용 효율적인 모델로, 대규모 API 호출이 필요한 개발자와 기업을 겨냥했다. Google AI Studio의 Gemini API와 Vertex AI를 통해 이용할 수 있다.

Flash-Lite는 Gemini 3 Pro 기반의 MoE(Mixture of Experts) 아키텍처를 채택했다. 필요한 매개변수만 선택적으로 활성화하여 연산 비용을 절감하면서도 성능을 유지하는 구조다.

핵심 기능 1: 압도적 속도 향상

Gemini 3.1 Flash-Lite의 가장 눈에 띄는 개선점은 속도다.

지표Gemini 2.5 Flash 대비
답변 생성 속도45% 향상
첫 번째 출력 토큰 대기 시간2.5배 단축

첫 토큰 응답 시간(TTFT)의 2.5배 단축은 실시간 대화형 애플리케이션에서 체감 차이가 크다. 사용자가 질문을 입력한 후 AI가 응답을 시작하기까지의 대기 시간이 대폭 줄어든다.

핵심 기능 2: 업계 최저 수준 가격

모델입력 (100만 토큰)출력 (100만 토큰)
Gemini 3.1 Flash-Lite$0.25$1.50
Gemini 3.1 Pro$2.00$18.00
GPT-5.4$2.50$15.00

입력 100만 토큰당 $0.25는 GPT-5.4($2.50)의 10분의 1 수준이다. 대규모 텍스트 처리가 필요한 엔터프라이즈 애플리케이션에서 비용 차이가 극적으로 벌어진다.

핵심 기능 3: 100만 토큰 멀티모달 입력

Flash-Lite는 최대 100만 토큰의 멀티모달 프롬프트를 처리할 수 있다. 텍스트뿐 아니라 이미지, 오디오, 비디오를 포함한 프롬프트를 입력받아 최대 64,000 토큰의 텍스트를 생성한다.

벤치마크 성능

11개 주요 벤치마크 중 6개에서 최고 점수를 기록했다. GPT-5 mini와 Claude 4.5 Haiku를 능가하며, 같은 가격대의 경량 모델 중 최강의 성능을 입증했다.

벤치마크성과
11개 테스트 중 최고점6개
GPAQ Diamond (박사급 과학)상위 성과
HLA16% (참고: Pro는 44.4%)
경쟁 모델 대비GPT-5 mini, Claude 4.5 Haiku 능가

다만 HLA 벤치마크에서 16%로 Pro 모델(44.4%)과 큰 격차를 보여, 고난도 추론 작업에서는 한계가 있다.

코드 기반 시각 자산 생성

Flash-Lite는 자연어 지시만으로 대시보드, 차트 등의 시각적 자산을 코드로 생성할 수 있다. "매출 추이를 보여주는 대시보드를 만들어줘"와 같은 요청에 HTML/CSS/JavaScript 코드를 직접 생성하여 실행 가능한 시각화를 제공한다.

경량 모델 시장의 지각 변동

Gemini 3.1 Flash-Lite의 출시는 경량 AI 모델 시장에 새로운 기준을 제시한다. 기존에 성능과 비용은 반비례 관계였으나, MoE 아키텍처의 발전으로 낮은 비용에서도 경쟁력 있는 성능을 달성할 수 있게 됐다.

특히 대량 API 호출이 필요한 챗봇, 콘텐츠 분류, 실시간 번역 등의 서비스에서 Flash-Lite의 가격 경쟁력은 결정적이다. 입력 토큰당 $0.25는 스타트업이 AI 서비스를 구축하는 진입 장벽을 크게 낮춘다.

결론: 가격 대비 성능의 새로운 왕

Gemini 3.1 Flash-Lite는 "빠르고 저렴하면 성능이 떨어진다"는 통념을 깨뜨렸다. 11개 벤치마크 중 6개에서 최고점을 기록하면서도 GPT-5.4의 10분의 1 가격을 제시한다. 프리뷰 단계이지만, 정식 출시 시 경량 모델 시장의 판도를 뒤흔들 잠재력이 충분하다.

장점

  • 입력 100만 토큰당 $0.25로 업계 최저 수준의 가격 경쟁력
  • Gemini 2.5 Flash 대비 답변 생성 속도 45% 향상, TTFT 2.5배 단축
  • 11개 벤치마크 중 6개에서 최고 점수로 경량 모델 최강 성능
  • 100만 토큰 멀티모달 입력으로 텍스트, 이미지, 오디오, 비디오 처리
  • 자연어 기반 코드 생성으로 대시보드 등 시각 자산 제작 가능

단점/한계

  • 프리뷰 단계로 아직 정식 출시되지 않아 프로덕션 환경 적용에 제한
  • HLA 벤치마크 16%로 고난도 추론 작업에서는 Pro 모델(44.4%)과 큰 격차
  • 출력 토큰 한도 64,000으로 장문 생성 작업에서 제약이 있을 수 있음

댓글0

주요 기능/특징

Google이 2026년 3월 3일 Gemini 3.1 Flash-Lite를 프리뷰로 공개했다. Gemini 2.5 Flash 대비 답변 생성 속도 45% 향상, 첫 토큰 응답 시간 2.5배 단축을 달성했다. 입력 100만 토큰당 $0.25로 GPT-5.4의 10분의 1 수준이다. MoE 아키텍처로 11개 벤치마크 중 6개에서 최고 점수를 기록하며 GPT-5 mini와 Claude 4.5 Haiku를 능가했다.

핵심 인사이트

  • 입력 토큰당 $0.25는 GPT-5.4($2.50)의 10분의 1 수준으로, 대규모 AI 서비스 구축 비용을 획기적으로 낮춘다.
  • MoE 아키텍처의 발전으로 경량 모델에서도 프리미엄급 성능 달성이 가능해졌다.
  • 첫 토큰 응답 시간 2.5배 단축은 실시간 대화형 서비스의 사용자 경험을 직접적으로 개선한다.
  • 11개 벤치마크 중 6개에서 최고점을 기록하며 같은 가격대 모델 중 최강의 성능을 입증했다.
  • 자연어로 시각적 자산을 코드 생성하는 기능은 비개발자의 데이터 시각화 접근성을 높인다.
  • Google의 경량 모델 라인업 확장은 API 시장에서의 가격 경쟁을 더욱 가속화할 전망이다.
  • 프리뷰 단계 출시는 개발자 피드백을 반영한 정식 버전 개선을 예고한다.

이 리뷰가 유용했나요?

공유하기