Gemini 3.1 Flash-Lite 출시: 45% 빠른 속도에 입력 토큰당 $0.25
Google이 2026년 3월 3일 Gemini 3.1 Flash-Lite를 프리뷰로 공개했다. Gemini 2.5 Flash 대비 답변 생성 속도 45% 향상, 첫 토큰 응답 시간 2.5배 단축을 달성했다. 입력 100만 토큰당 $0.25로 업계 최저 수준의 가격을 제시했다.
Google이 2026년 3월 3일 Gemini 3.1 Flash-Lite를 프리뷰로 공개했다. Gemini 2.5 Flash 대비 답변 생성 속도 45% 향상, 첫 토큰 응답 시간 2.5배 단축을 달성했다. 입력 100만 토큰당 $0.25로 업계 최저 수준의 가격을 제시했다.
Gemini 3 시리즈의 가장 빠르고 저렴한 모델
Google은 2026년 3월 3일 Gemini 3.1 Flash-Lite를 프리뷰로 공개했다. Gemini 3 시리즈에서 가장 빠르고 비용 효율적인 모델로, 대규모 API 호출이 필요한 개발자와 기업을 겨냥했다. Google AI Studio의 Gemini API와 Vertex AI를 통해 이용할 수 있다.
Flash-Lite는 Gemini 3 Pro 기반의 MoE(Mixture of Experts) 아키텍처를 채택했다. 필요한 매개변수만 선택적으로 활성화하여 연산 비용을 절감하면서도 성능을 유지하는 구조다.
핵심 기능 1: 압도적 속도 향상
Gemini 3.1 Flash-Lite의 가장 눈에 띄는 개선점은 속도다.
| 지표 | Gemini 2.5 Flash 대비 |
|---|---|
| 답변 생성 속도 | 45% 향상 |
| 첫 번째 출력 토큰 대기 시간 | 2.5배 단축 |
첫 토큰 응답 시간(TTFT)의 2.5배 단축은 실시간 대화형 애플리케이션에서 체감 차이가 크다. 사용자가 질문을 입력한 후 AI가 응답을 시작하기까지의 대기 시간이 대폭 줄어든다.
핵심 기능 2: 업계 최저 수준 가격
| 모델 | 입력 (100만 토큰) | 출력 (100만 토큰) |
|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 |
| Gemini 3.1 Pro | $2.00 | $18.00 |
| GPT-5.4 | $2.50 | $15.00 |
입력 100만 토큰당 $0.25는 GPT-5.4($2.50)의 10분의 1 수준이다. 대규모 텍스트 처리가 필요한 엔터프라이즈 애플리케이션에서 비용 차이가 극적으로 벌어진다.
핵심 기능 3: 100만 토큰 멀티모달 입력
Flash-Lite는 최대 100만 토큰의 멀티모달 프롬프트를 처리할 수 있다. 텍스트뿐 아니라 이미지, 오디오, 비디오를 포함한 프롬프트를 입력받아 최대 64,000 토큰의 텍스트를 생성한다.
벤치마크 성능
11개 주요 벤치마크 중 6개에서 최고 점수를 기록했다. GPT-5 mini와 Claude 4.5 Haiku를 능가하며, 같은 가격대의 경량 모델 중 최강의 성능을 입증했다.
| 벤치마크 | 성과 |
|---|---|
| 11개 테스트 중 최고점 | 6개 |
| GPAQ Diamond (박사급 과학) | 상위 성과 |
| HLA | 16% (참고: Pro는 44.4%) |
| 경쟁 모델 대비 | GPT-5 mini, Claude 4.5 Haiku 능가 |
다만 HLA 벤치마크에서 16%로 Pro 모델(44.4%)과 큰 격차를 보여, 고난도 추론 작업에서는 한계가 있다.
코드 기반 시각 자산 생성
Flash-Lite는 자연어 지시만으로 대시보드, 차트 등의 시각적 자산을 코드로 생성할 수 있다. "매출 추이를 보여주는 대시보드를 만들어줘"와 같은 요청에 HTML/CSS/JavaScript 코드를 직접 생성하여 실행 가능한 시각화를 제공한다.
경량 모델 시장의 지각 변동
Gemini 3.1 Flash-Lite의 출시는 경량 AI 모델 시장에 새로운 기준을 제시한다. 기존에 성능과 비용은 반비례 관계였으나, MoE 아키텍처의 발전으로 낮은 비용에서도 경쟁력 있는 성능을 달성할 수 있게 됐다.
특히 대량 API 호출이 필요한 챗봇, 콘텐츠 분류, 실시간 번역 등의 서비스에서 Flash-Lite의 가격 경쟁력은 결정적이다. 입력 토큰당 $0.25는 스타트업이 AI 서비스를 구축하는 진입 장벽을 크게 낮춘다.
결론: 가격 대비 성능의 새로운 왕
Gemini 3.1 Flash-Lite는 "빠르고 저렴하면 성능이 떨어진다"는 통념을 깨뜨렸다. 11개 벤치마크 중 6개에서 최고점을 기록하면서도 GPT-5.4의 10분의 1 가격을 제시한다. 프리뷰 단계이지만, 정식 출시 시 경량 모델 시장의 판도를 뒤흔들 잠재력이 충분하다.
장점
- 입력 100만 토큰당 $0.25로 업계 최저 수준의 가격 경쟁력
- Gemini 2.5 Flash 대비 답변 생성 속도 45% 향상, TTFT 2.5배 단축
- 11개 벤치마크 중 6개에서 최고 점수로 경량 모델 최강 성능
- 100만 토큰 멀티모달 입력으로 텍스트, 이미지, 오디오, 비디오 처리
- 자연어 기반 코드 생성으로 대시보드 등 시각 자산 제작 가능
단점/한계
- 프리뷰 단계로 아직 정식 출시되지 않아 프로덕션 환경 적용에 제한
- HLA 벤치마크 16%로 고난도 추론 작업에서는 Pro 모델(44.4%)과 큰 격차
- 출력 토큰 한도 64,000으로 장문 생성 작업에서 제약이 있을 수 있음
참고 자료
댓글0개
주요 기능/특징
Google이 2026년 3월 3일 Gemini 3.1 Flash-Lite를 프리뷰로 공개했다. Gemini 2.5 Flash 대비 답변 생성 속도 45% 향상, 첫 토큰 응답 시간 2.5배 단축을 달성했다. 입력 100만 토큰당 $0.25로 GPT-5.4의 10분의 1 수준이다. MoE 아키텍처로 11개 벤치마크 중 6개에서 최고 점수를 기록하며 GPT-5 mini와 Claude 4.5 Haiku를 능가했다.
핵심 인사이트
- 입력 토큰당 $0.25는 GPT-5.4($2.50)의 10분의 1 수준으로, 대규모 AI 서비스 구축 비용을 획기적으로 낮춘다.
- MoE 아키텍처의 발전으로 경량 모델에서도 프리미엄급 성능 달성이 가능해졌다.
- 첫 토큰 응답 시간 2.5배 단축은 실시간 대화형 서비스의 사용자 경험을 직접적으로 개선한다.
- 11개 벤치마크 중 6개에서 최고점을 기록하며 같은 가격대 모델 중 최강의 성능을 입증했다.
- 자연어로 시각적 자산을 코드 생성하는 기능은 비개발자의 데이터 시각화 접근성을 높인다.
- Google의 경량 모델 라인업 확장은 API 시장에서의 가격 경쟁을 더욱 가속화할 전망이다.
- 프리뷰 단계 출시는 개발자 피드백을 반영한 정식 버전 개선을 예고한다.
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Gemini Live 대화형 뉴스 브리핑: 헤드라인 나열을 넘어선 AI 뉴스 경험
Google이 Gemini Live에 대화형 뉴스 브리핑 기능을 추가했다. 단순 헤드라인 나열 대신 후속 질문, 심층 탐색, 개인화된 뉴스 소비가 가능한 새로운 AI 뉴스 경험을 제공한다.
Google Gemini, ChatGPT/Claude 대화 기록 이전 도구 출시: AI 전환 장벽 제거
Google이 Gemini 앱에 경쟁 AI 플랫폼의 대화 기록과 메모리를 직접 가져올 수 있는 '스위칭 도구'를 출시했다. ChatGPT와 Claude에서 최대 5GB ZIP 파일로 대화 이력을 이전할 수 있다.
Gap, Google Gemini에서 직접 결제 도입: AI 커머스 시대의 시작
Gap이 Google Gemini 내에서 직접 상품 결제가 가능한 서비스를 출시했다. Google의 Universal Commerce Protocol을 채택한 첫 대형 패션 기업으로, AI 플랫폼 기반 쇼핑의 새로운 모델을 제시한다.
Google Personal Intelligence 무료 개방: Gemini가 당신의 Gmail을 읽는다
Google이 유료 전용이던 Personal Intelligence 기능을 미국 전체 사용자에게 무료로 확대했다. Gmail, Photos, YouTube 등 Google 앱 데이터를 연결해 맞춤형 AI 응답을 제공한다.
