GPT-5.4 Thinking 출시: 컴퓨터를 직접 조작하는 최초의 범용 AI 모델
OpenAI가 3월 5일 GPT-5.4를 출시했다. 네이티브 컴퓨터 사용 기능과 100만 토큰 컨텍스트를 갖춘 이 모델은 허위 주장 33% 감소, GDPval 83.0%를 달성했다.
OpenAI가 3월 5일 GPT-5.4를 출시했다. 네이티브 컴퓨터 사용 기능과 100만 토큰 컨텍스트를 갖춘 이 모델은 허위 주장 33% 감소, GDPval 83.0%를 달성했다.
핵심 요약
OpenAI가 2026년 3월 5일 GPT-5.4를 공식 출시했다. '전문 업무를 위한 가장 강력하고 효율적인 프론티어 모델'로 소개된 GPT-5.4는 세 가지 버전(Standard, Thinking, Pro)으로 제공된다. 가장 주목할 점은 범용 모델 최초로 네이티브 컴퓨터 사용(computer use) 기능을 탑재했다는 것이다. 기존 GPT-5.2 대비 허위 주장이 33% 감소하고 전체 오류가 18% 줄어든 정확성 향상도 인상적이다.
세 가지 모델 변형
GPT-5.4는 용도에 따라 세 가지 버전으로 나뉜다.
| 모델 | 용도 | API 가격 (입력/출력) |
|---|---|---|
| GPT-5.4 Standard | 전문가용 범용 | $2.50 / $15 per 1M 토큰 |
| GPT-5.4 Thinking | 사전 계획 및 추론 강화 | Plus, Teams, Pro 제공 |
| GPT-5.4 Pro | 최고 품질 출력 | $30 / $180 per 1M 토큰 |
Thinking 버전은 응답 전 계획을 세우고 응답 중간에 방향을 수정하는 기능을 갖추고 있어, 복잡한 추론 작업에 특화되어 있다. Pro 버전은 Enterprise와 Edu 구독자에게 API를 통해 제공되며, 최고 수준의 출력 품질을 목표로 한다.
네이티브 컴퓨터 사용 기능
GPT-5.4의 가장 파격적인 혁신은 네이티브 컴퓨터 사용 기능이다. 이 모델은 Playwright 같은 자동화 라이브러리를 통해 컴퓨터를 자율적으로 제어할 수 있다. 스크린샷을 인식하고, 마우스 클릭과 키보드 입력을 직접 실행하며, 여러 애플리케이션을 넘나들며 작업을 수행한다.
이는 Anthropic의 Claude가 먼저 선보인 computer use 기능에 대한 OpenAI의 응답이다. 그러나 GPT-5.4는 이를 별도 기능이 아닌 모델 자체에 내장하여, 코드 작성을 통한 프로그래밍적 제어와 시각적 화면 조작을 결합한 점이 차별화된다.
실제 활용 시나리오로는 브라우저에서 정보를 검색하고, 스프레드시트에 데이터를 입력하며, 프레젠테이션을 편집하는 등의 복합 업무 자동화가 가능하다.
벤치마크 성능
GPT-5.4는 주요 벤치마크에서 높은 성적을 기록했다.
| 벤치마크 | 점수 |
|---|---|
| GDPval | 83.0% |
| SWE-Bench Pro | 57.7% |
| BrowseComp | 82.7% |
| MMMU-Pro | 81.2% |
GDPval 83.0%는 경제적으로 가치 있는 작업에서 인간 전문가 수준에 도달했음을 의미한다. BrowseComp 82.7%는 웹 브라우징과 정보 종합 능력이 크게 향상되었음을 보여준다.
100만 토큰 컨텍스트 윈도우
API 버전에서 최대 100만 토큰 컨텍스트 윈도우를 지원한다. 이는 OpenAI 모델 중 역대 최대 규모다. 방대한 코드베이스 분석, 긴 문서 처리, 대규모 데이터셋 분석 등에서 유리하다. 다만 현재는 테스트 단계로, 안정적인 성능이 확보된 후 정식 배포될 예정이다.
정확성 향상
기존 GPT-5.2 대비 개별 주장의 허위 확률이 33% 감소했고, 전체 응답에 오류가 포함될 확률이 18% 줄었다. 이는 할루시네이션 문제를 해결하기 위한 OpenAI의 지속적인 노력의 결과다. 또한 1024만 픽셀의 고해상도 이미지 처리를 지원하여 멀티모달 작업의 정밀도도 높아졌다.
기존 모델 퇴역
3월 11일부터 GPT-5.1 시리즈(Instant, Thinking, Pro)가 ChatGPT에서 퇴역했다. 기존 GPT-5.1 대화는 자동으로 GPT-5.3 Instant, GPT-5.4 Thinking, GPT-5.4 Pro로 각각 전환된다. OpenAI의 빠른 모델 교체 주기는 기업 고객에게 마이그레이션 부담을 줄 수 있다는 우려도 존재한다.
전망
GPT-5.4의 컴퓨터 사용 기능은 AI 에이전트가 디지털 환경에서 인간처럼 작업하는 시대를 앞당긴다. Anthropic Claude, Google Gemini와의 경쟁이 computer use 영역으로 확대되면서, 2026년 하반기에는 AI가 독립적으로 컴퓨터 업무를 수행하는 것이 표준이 될 가능성이 높다. 다만 보안 우려와 의도치 않은 동작에 대한 안전장치 마련이 선행되어야 한다.
장점
- 범용 모델 최초 네이티브 컴퓨터 사용 기능으로 업무 자동화 범위 확대
- 허위 주장 33% 감소로 엔터프라이즈 환경에서의 신뢰성 향상
- 100만 토큰 컨텍스트로 대규모 코드/문서 분석 가능
- Standard 버전 $2.50/M 입력 토큰으로 합리적인 가격
단점/한계
- Pro 버전 API 가격이 매우 높아 소규모 기업에는 부담
- 컴퓨터 사용 기능의 보안 리스크와 의도치 않은 동작 우려
- 100만 토큰 컨텍스트가 아직 테스트 단계로 안정성 미검증
- GPT-5.1 빠른 퇴역으로 기업 고객의 마이그레이션 부담 증가
참고 자료
댓글0개
주요 기능/특징
1. 네이티브 컴퓨터 사용: 스크린샷 인식, 마우스/키보드 제어로 애플리케이션 자율 조작 2. 100만 토큰 컨텍스트: OpenAI 역대 최대 규모, API에서 테스트 중 3. 정확성 33% 향상: 허위 주장 33% 감소, 전체 오류 18% 감소 4. 세 가지 모델: Standard($2.50/M), Thinking(추론 강화), Pro($30/M) 선택 가능 5. 멀티모달 강화: 1024만 픽셀 고해상도 이미지 처리 지원
핵심 인사이트
- 범용 AI 모델에 컴퓨터 사용 기능이 내장되면서 AI 에이전트의 실용성이 크게 높아졌다
- GDPval 83.0% 달성은 AI가 경제적으로 의미 있는 작업에서 인간 전문가 수준에 근접했음을 의미한다
- Anthropic Claude에 이어 OpenAI도 computer use를 도입하면서 업계 표준으로 자리잡고 있다
- 100만 토큰 컨텍스트는 Google Gemini와의 직접적인 경쟁 포인트가 된다
- GPT-5.1의 빠른 퇴역은 OpenAI의 공격적인 모델 교체 전략을 보여준다
- 허위 주장 33% 감소는 엔터프라이즈 도입의 핵심 장벽을 낮추는 효과가 있다
- Pro 버전의 높은 API 가격($30/$180)은 고부가가치 전문 작업 시장을 겨냥한다
- 컴퓨터 사용 기능의 보안 문제가 대규모 도입의 최대 과제로 남아 있다
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
ChatGPT 개인 금융 대시보드 출시: 은행 계좌 직접 연동, Pro 전용
OpenAI가 2026년 5월 15일 ChatGPT Pro 사용자를 위한 개인 금융 대시보드를 출시했다. Plaid를 통해 1만 2천 개 이상의 금융기관과 연동되며, 지출 분석·자산 현황·예산 조언 기능을 AI로 제공한다.
OpenAI AI 에이전트 폰 2027 출시 가속화: 앱을 대체하는 AI 폰의 실체
OpenAI가 2027년 상반기 양산을 목표로 AI 에이전트 기반 스마트폰 개발을 가속화하고 있다. MediaTek Dimensity 9600 커스텀 칩과 Luxshare 제조 파트너십으로 기존 앱 생태계를 AI 에이전트로 대체하는 새로운 기기를 준비 중이다.
OpenAI, 음성 AI 3종 동시 출시: GPT-Realtime-2·번역·받아쓰기
OpenAI가 5월 7일 실시간 음성 API용 모델 3종을 공개했다. GPT-5급 추론의 GPT-Realtime-2, 70개 언어 번역, 스트리밍 받아쓰기 모델이 동시 출시됐다.
GPT-5.5 Instant, ChatGPT 기본 모델 교체: 환각 52.5% 감소·Gmail 연동 개인화
OpenAI가 2026년 5월 5일 GPT-5.5 Instant를 ChatGPT의 새 기본 모델로 출시했다. 기존 GPT-5.3 Instant 대비 환각을 52.5% 줄이고 Gmail·과거 대화를 활용한 맞춤형 답변 기능을 추가했다.
