OpenAI GeneBench-Pro 공개: 최고 AI도 생물학 판단력 31.5%에 그쳐
OpenAI가 계산생물학 벤치마크 GeneBench-Pro를 공개했다. GPT-5.6 Sol Pro가 31.5% 통과율로 1위, Claude Opus 4.8은 16.0%를 기록했다. 최고 모델도 다수 문제에서 판단력 한계를 보였다.
OpenAI가 계산생물학 벤치마크 GeneBench-Pro를 공개했다. GPT-5.6 Sol Pro가 31.5% 통과율로 1위, Claude Opus 4.8은 16.0%를 기록했다. 최고 모델도 다수 문제에서 판단력 한계를 보였다.
핵심 요약
OpenAI가 2026년 6월 30일, AI 에이전트의 계산생물학(computational biology) 판단력을 평가하는 신규 벤치마크 GeneBench-Pro를 공식 발표했다. 유전체학(genomics), 정량생물학(quantitative biology), 중개의학(translational medicine) 전반을 아우르는 총 129개 문제로 구성되며, 이 중 82개 문제는 대학원생, 박사후연구원, 업계 과학자 등 외부 전문가의 검증을 거쳤다.
테스트 결과 OpenAI 자사 모델인 GPT-5.6 Sol Pro가 31.5% 통과율로 전체 1위를 기록했다. Anthropic의 Claude Opus 4.8은 16.0% 통과율로 OpenAI 외 모델 중 최고 성능을 보였다. 두 수치 모두 절반에 크게 못 미쳐, 현재 최상위 AI 모델도 실제 생물학 연구 판단 작업 대부분을 통과하지 못한다는 점이 드러났다.
벤치마크 구성
GeneBench-Pro는 생물학 연구 현장에서 실제로 마주치는 판단형 문제를 다룬다. OpenAI에 따르면 문제 영역은 다음 세 갈래로 나뉜다.
- 유전체학(genomics): 유전자 서열·변이 해석 관련 판단
- 정량생물학(quantitative biology): 데이터 기반 정량 분석 판단
- 중개의학(translational medicine): 연구 결과를 임상 적용으로 옮기는 판단
전체 129개 문제 가운데 82개는 외부 전문가 검증을 거쳤다는 점이 특징이다. 대학원생, 박사후연구원, 업계 과학자가 문제의 타당성과 정답 기준을 확인해, 벤치마크가 실제 연구 현장의 판단 기준에 부합하도록 설계됐다.
결과 분석
공식 발표된 통과율은 다음과 같다.
| 모델 | 개발사 | 통과율 |
|---|---|---|
| GPT-5.6 Sol Pro | OpenAI | 31.5% |
| Claude Opus 4.8 | Anthropic | 16.0% |
GPT-5.6 Sol Pro는 전체 1위를 차지했지만 통과율 자체는 31.5%에 그쳤다. 이는 100%에서 31.5%를 뺀 68.5%포인트에 해당하는 문제를, 현재 가장 앞선 AI 모델조차 통과하지 못했다는 의미다. Claude Opus 4.8은 16.0%로 OpenAI 외 모델 중 최고 성능이었으나, GPT-5.6 Sol Pro와의 격차는 15.5%포인트에 달한다.
시사점과 한계
GeneBench-Pro의 결과가 시사하는 바는 명확하다. 코딩이나 일반 언어 이해 벤치마크에서 고득점을 기록하는 최신 모델도, 실제 생물학 연구자가 내리는 판단 작업에서는 여전히 큰 격차를 보인다는 점이다. OpenAI는 이번 벤치마크를 공개하며 이 격차를 수치로 드러냈다.
다만 이번에 공개된 정보만으로는 문제 유형별 세부 정답률, 채점 기준의 구체적 방법론, GPT-5.6 Sol Pro와 Claude Opus 4.8 외 다른 모델들의 점수는 확인되지 않는다. 벤치마크가 다루는 129개 문제가 계산생물학 전 영역을 대표하는지에 대한 판단도 추가 검증이 필요하다.
전망
OpenAI는 GeneBench-Pro를 통해 AI 모델의 과학 연구 적용 가능성을 지속적으로 추적할 것으로 보인다. 계산생물학 분야에서 AI 에이전트를 연구 보조 도구로 활용하려는 시도가 늘어나는 가운데, 이런 도메인 특화 벤치마크는 모델의 실질적 신뢰도를 검증하는 기준점 역할을 할 수 있다. 다른 AI 개발사들이 유사한 벤치마크에 자사 모델을 테스트해 결과를 공개할지 주목된다.
결론
GeneBench-Pro는 AI 모델의 계산생물학 연구 판단력을 정량적으로 측정하는 새로운 도구다. 최고 성능 모델인 GPT-5.6 Sol Pro조차 31.5% 통과율에 그쳤다는 결과는, AI가 생물학 연구 현장에서 아직 전문가를 대체할 수준에 이르지 못했음을 보여준다. 연구자, AI 개발자, 정책 결정자 모두에게 AI의 과학 연구 적용 수준을 가늠하는 참고 자료로 유용하다.
장점
- 대학원생, 박사후연구원, 업계 과학자 등 실제 연구 현장 전문가의 검증을 거친 문제 구성
- 유전체학부터 중개의학까지 계산생물학 전 영역을 아우르는 폭넓은 평가 범위
- AI 모델의 과학 연구 적용 가능성을 구체적 수치로 드러낸 벤치마크
- OpenAI 자사 모델뿐 아니라 경쟁사 모델(Claude Opus 4.8)도 함께 평가해 비교 가능성 확보
단점/한계
- 문제 유형별 세부 정답률과 채점 방법론이 상세히 공개되지 않아 추가 검증 여지가 있다
- OpenAI가 자체 개발한 벤치마크로, 설계 과정에서의 공정성 검증이 외부적으로 이루어지지 않았다
- 현재 공개된 결과는 GPT-5.6 Sol Pro와 Claude Opus 4.8 두 모델에 국한된다
참고 자료
댓글0개
주요 기능/특징
1. 유전체학·정량생물학·중개의학을 아우르는 총 129개 문제로 구성 2. 82개 문제는 대학원생, 박사후연구원, 업계 과학자 등 외부 전문가 검증 완료 3. GPT-5.6 Sol Pro가 31.5% 통과율로 전체 1위 (OpenAI 공식 발표, 2026-06-30) 4. Claude Opus 4.8은 16.0% 통과율로 OpenAI 외 모델 중 최고 성능 5. 실제 생물학 연구 현장의 판단 작업 기준으로 문제를 설계
핵심 인사이트
- GPT-5.6 Sol Pro가 31.5% 통과율로 1위를 차지했지만, 이는 전체 문제의 절반에도 크게 못 미치는 수준이다.
- Claude Opus 4.8은 16.0% 통과율로 OpenAI 외 모델 중 최고 성능을 기록했다.
- GPT-5.6 Sol Pro와 Claude Opus 4.8의 통과율 격차는 15.5%포인트에 달한다.
- 129개 문제 중 82개가 외부 전문가 검증을 거쳐 실제 연구 현장의 판단 기준을 반영했다.
- 유전체학, 정량생물학, 중개의학 세 영역을 아우르는 도메인 특화 벤치마크다.
- 최고 성능 모델도 100%에서 31.5%를 뺀 68.5%포인트에 해당하는 문제를 통과하지 못했다.
- 코딩·언어 벤치마크에서의 고득점이 생물학 연구 판단력과 곧바로 연결되지 않는다는 점을 보여준다.
- AI의 과학 연구 도구화 논의에서 실질적 신뢰도를 측정하는 기준점을 제시한다.
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Anthropic 경제 지수 리포트: 근로자 35%, AI가 1년 내 대부분 업무 대체할 것으로 전망
Anthropic이 2026년 6월 경제 지수 리포트 'Cadences'를 발표했다. 9,700명 설문에서 35% 이상이 AI가 12개월 내 대부분 업무를 수행할 것으로 예상했으며, Claude 사용 패턴이 일상 리듬과 긴밀히 연결됨을 확인했다.
Goldman Sachs, AI 인프라 투자 7.6조 달러 전망: 칩·데이터센터·전력 레이어 분석
Goldman Sachs가 2026~2031년 글로벌 AI 인프라 누적 투자액을 7.6조 달러로 전망했다. 컴퓨트 5.1조·데이터센터 2.15조·전력 3,580억 달러로 구성되며, NVIDIA가 컴퓨트 레이어의 75%를 차지할 전망이다.
AI가 80년 수학 난제를 풀었다: OpenAI 모델의 에르되시 추측 반증
OpenAI의 내부 범용 추론 모델이 1946년 헝가리 수학자 폴 에르되시가 제시한 이산기하학의 핵심 추측을 자율적으로 반증했다. 필즈상 수상자 팀 고워스는 이를 'AI 수학의 이정표'라 평가했다.
Goodfire의 Silico: AI 모델 내부를 들여다보고 수정하는 최초의 상용 LLM 해석 도구
샌프란시스코 스타트업 Goodfire가 LLM 내부 구조를 실시간으로 분석·수정할 수 있는 해석 도구 'Silico'를 출시했다. 메커니스틱 인터프리터빌리티 기술을 활용해 AI 환각을 줄이고 모델 동작을 제어한다.
