GPT-5.4 Thinking 출시: 컴퓨터를 직접 조작하는 최초의 범용 AI 모델
OpenAI가 3월 5일 GPT-5.4를 출시했다. 네이티브 컴퓨터 사용 기능과 100만 토큰 컨텍스트를 갖춘 이 모델은 허위 주장 33% 감소, GDPval 83.0%를 달성했다.
OpenAI가 3월 5일 GPT-5.4를 출시했다. 네이티브 컴퓨터 사용 기능과 100만 토큰 컨텍스트를 갖춘 이 모델은 허위 주장 33% 감소, GDPval 83.0%를 달성했다.
핵심 요약
OpenAI가 2026년 3월 5일 GPT-5.4를 공식 출시했다. '전문 업무를 위한 가장 강력하고 효율적인 프론티어 모델'로 소개된 GPT-5.4는 세 가지 버전(Standard, Thinking, Pro)으로 제공된다. 가장 주목할 점은 범용 모델 최초로 네이티브 컴퓨터 사용(computer use) 기능을 탑재했다는 것이다. 기존 GPT-5.2 대비 허위 주장이 33% 감소하고 전체 오류가 18% 줄어든 정확성 향상도 인상적이다.
세 가지 모델 변형
GPT-5.4는 용도에 따라 세 가지 버전으로 나뉜다.
| 모델 | 용도 | API 가격 (입력/출력) |
|---|---|---|
| GPT-5.4 Standard | 전문가용 범용 | $2.50 / $15 per 1M 토큰 |
| GPT-5.4 Thinking | 사전 계획 및 추론 강화 | Plus, Teams, Pro 제공 |
| GPT-5.4 Pro | 최고 품질 출력 | $30 / $180 per 1M 토큰 |
Thinking 버전은 응답 전 계획을 세우고 응답 중간에 방향을 수정하는 기능을 갖추고 있어, 복잡한 추론 작업에 특화되어 있다. Pro 버전은 Enterprise와 Edu 구독자에게 API를 통해 제공되며, 최고 수준의 출력 품질을 목표로 한다.
네이티브 컴퓨터 사용 기능
GPT-5.4의 가장 파격적인 혁신은 네이티브 컴퓨터 사용 기능이다. 이 모델은 Playwright 같은 자동화 라이브러리를 통해 컴퓨터를 자율적으로 제어할 수 있다. 스크린샷을 인식하고, 마우스 클릭과 키보드 입력을 직접 실행하며, 여러 애플리케이션을 넘나들며 작업을 수행한다.
이는 Anthropic의 Claude가 먼저 선보인 computer use 기능에 대한 OpenAI의 응답이다. 그러나 GPT-5.4는 이를 별도 기능이 아닌 모델 자체에 내장하여, 코드 작성을 통한 프로그래밍적 제어와 시각적 화면 조작을 결합한 점이 차별화된다.
실제 활용 시나리오로는 브라우저에서 정보를 검색하고, 스프레드시트에 데이터를 입력하며, 프레젠테이션을 편집하는 등의 복합 업무 자동화가 가능하다.
벤치마크 성능
GPT-5.4는 주요 벤치마크에서 높은 성적을 기록했다.
| 벤치마크 | 점수 |
|---|---|
| GDPval | 83.0% |
| SWE-Bench Pro | 57.7% |
| BrowseComp | 82.7% |
| MMMU-Pro | 81.2% |
GDPval 83.0%는 경제적으로 가치 있는 작업에서 인간 전문가 수준에 도달했음을 의미한다. BrowseComp 82.7%는 웹 브라우징과 정보 종합 능력이 크게 향상되었음을 보여준다.
100만 토큰 컨텍스트 윈도우
API 버전에서 최대 100만 토큰 컨텍스트 윈도우를 지원한다. 이는 OpenAI 모델 중 역대 최대 규모다. 방대한 코드베이스 분석, 긴 문서 처리, 대규모 데이터셋 분석 등에서 유리하다. 다만 현재는 테스트 단계로, 안정적인 성능이 확보된 후 정식 배포될 예정이다.
정확성 향상
기존 GPT-5.2 대비 개별 주장의 허위 확률이 33% 감소했고, 전체 응답에 오류가 포함될 확률이 18% 줄었다. 이는 할루시네이션 문제를 해결하기 위한 OpenAI의 지속적인 노력의 결과다. 또한 1024만 픽셀의 고해상도 이미지 처리를 지원하여 멀티모달 작업의 정밀도도 높아졌다.
기존 모델 퇴역
3월 11일부터 GPT-5.1 시리즈(Instant, Thinking, Pro)가 ChatGPT에서 퇴역했다. 기존 GPT-5.1 대화는 자동으로 GPT-5.3 Instant, GPT-5.4 Thinking, GPT-5.4 Pro로 각각 전환된다. OpenAI의 빠른 모델 교체 주기는 기업 고객에게 마이그레이션 부담을 줄 수 있다는 우려도 존재한다.
전망
GPT-5.4의 컴퓨터 사용 기능은 AI 에이전트가 디지털 환경에서 인간처럼 작업하는 시대를 앞당긴다. Anthropic Claude, Google Gemini와의 경쟁이 computer use 영역으로 확대되면서, 2026년 하반기에는 AI가 독립적으로 컴퓨터 업무를 수행하는 것이 표준이 될 가능성이 높다. 다만 보안 우려와 의도치 않은 동작에 대한 안전장치 마련이 선행되어야 한다.
장점
- 범용 모델 최초 네이티브 컴퓨터 사용 기능으로 업무 자동화 범위 확대
- 허위 주장 33% 감소로 엔터프라이즈 환경에서의 신뢰성 향상
- 100만 토큰 컨텍스트로 대규모 코드/문서 분석 가능
- Standard 버전 $2.50/M 입력 토큰으로 합리적인 가격
단점/한계
- Pro 버전 API 가격이 매우 높아 소규모 기업에는 부담
- 컴퓨터 사용 기능의 보안 리스크와 의도치 않은 동작 우려
- 100만 토큰 컨텍스트가 아직 테스트 단계로 안정성 미검증
- GPT-5.1 빠른 퇴역으로 기업 고객의 마이그레이션 부담 증가
참고 자료
댓글0개
주요 기능/특징
1. 네이티브 컴퓨터 사용: 스크린샷 인식, 마우스/키보드 제어로 애플리케이션 자율 조작 2. 100만 토큰 컨텍스트: OpenAI 역대 최대 규모, API에서 테스트 중 3. 정확성 33% 향상: 허위 주장 33% 감소, 전체 오류 18% 감소 4. 세 가지 모델: Standard($2.50/M), Thinking(추론 강화), Pro($30/M) 선택 가능 5. 멀티모달 강화: 1024만 픽셀 고해상도 이미지 처리 지원
핵심 인사이트
- 범용 AI 모델에 컴퓨터 사용 기능이 내장되면서 AI 에이전트의 실용성이 크게 높아졌다
- GDPval 83.0% 달성은 AI가 경제적으로 의미 있는 작업에서 인간 전문가 수준에 근접했음을 의미한다
- Anthropic Claude에 이어 OpenAI도 computer use를 도입하면서 업계 표준으로 자리잡고 있다
- 100만 토큰 컨텍스트는 Google Gemini와의 직접적인 경쟁 포인트가 된다
- GPT-5.1의 빠른 퇴역은 OpenAI의 공격적인 모델 교체 전략을 보여준다
- 허위 주장 33% 감소는 엔터프라이즈 도입의 핵심 장벽을 낮추는 효과가 있다
- Pro 버전의 높은 API 가격($30/$180)은 고부가가치 전문 작업 시장을 겨냥한다
- 컴퓨터 사용 기능의 보안 문제가 대규모 도입의 최대 과제로 남아 있다
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
OpenAI GPT-5.5 'Spud' 사전훈련 완료: 2년 연구의 결실, 수주 내 출시
OpenAI의 차세대 모델 GPT-5.5(코드명 Spud)가 3월 24일 사전훈련을 완료했다. 2년간의 연구가 투입되었으며, Sora 중단 후 자원을 집중한 결과물로 Q2 출시가 예상된다.
OpenAI, $1,220억 펀딩 완료: $8,520억 기업가치로 '1조 클럽' 눈앞
OpenAI가 Amazon $500억, Nvidia $300억, SoftBank $300억 등 사상 최대 $1,220억 펀딩 라운드를 완료했다. 월 매출 $20억, 주간 활성 사용자 9억 명을 기록하며 AI 슈퍼앱 전략을 가속한다.
OpenAI, Sora 종료 선언: 일 $100만 손실과 Disney $10억 딜 붕괴의 전말
OpenAI가 AI 영상 생성 서비스 Sora를 출시 6개월 만에 종료했다. 일일 $100만 운영 비용, 사용자 반감, Disney $10억 투자 무산까지, 로보틱스 전환의 배경을 분석한다.
GPT-5.4 출시: 100만 토큰 컨텍스트와 에이전트 기능 통합
OpenAI가 2026년 3월 5일 GPT-5.4를 출시했다. 100만 토큰 컨텍스트 윈도우, OSWorld 75% 달성, 오류율 33% 감소가 핵심이다. 표준·Thinking·Pro 세 버전으로 제공된다.
