2026.07.02
79
0
0
연구NEW

OpenAI GeneBench-Pro 공개: 최고 AI도 생물학 판단력 31.5%에 그쳐

OpenAI가 계산생물학 벤치마크 GeneBench-Pro를 공개했다. GPT-5.6 Sol Pro가 31.5% 통과율로 1위, Claude Opus 4.8은 16.0%를 기록했다. 최고 모델도 다수 문제에서 판단력 한계를 보였다.

#OpenAI#GeneBench-Pro#계산생물학#AI 벤치마크#유전체학
OpenAI GeneBench-Pro 공개: 최고 AI도 생물학 판단력 31.5%에 그쳐
AI 핵심 요약

OpenAI가 계산생물학 벤치마크 GeneBench-Pro를 공개했다. GPT-5.6 Sol Pro가 31.5% 통과율로 1위, Claude Opus 4.8은 16.0%를 기록했다. 최고 모델도 다수 문제에서 판단력 한계를 보였다.

핵심 요약

OpenAI가 2026년 6월 30일, AI 에이전트의 계산생물학(computational biology) 판단력을 평가하는 신규 벤치마크 GeneBench-Pro를 공식 발표했다. 유전체학(genomics), 정량생물학(quantitative biology), 중개의학(translational medicine) 전반을 아우르는 총 129개 문제로 구성되며, 이 중 82개 문제는 대학원생, 박사후연구원, 업계 과학자 등 외부 전문가의 검증을 거쳤다.

테스트 결과 OpenAI 자사 모델인 GPT-5.6 Sol Pro가 31.5% 통과율로 전체 1위를 기록했다. Anthropic의 Claude Opus 4.8은 16.0% 통과율로 OpenAI 외 모델 중 최고 성능을 보였다. 두 수치 모두 절반에 크게 못 미쳐, 현재 최상위 AI 모델도 실제 생물학 연구 판단 작업 대부분을 통과하지 못한다는 점이 드러났다.

벤치마크 구성

GeneBench-Pro는 생물학 연구 현장에서 실제로 마주치는 판단형 문제를 다룬다. OpenAI에 따르면 문제 영역은 다음 세 갈래로 나뉜다.

  • 유전체학(genomics): 유전자 서열·변이 해석 관련 판단
  • 정량생물학(quantitative biology): 데이터 기반 정량 분석 판단
  • 중개의학(translational medicine): 연구 결과를 임상 적용으로 옮기는 판단

전체 129개 문제 가운데 82개는 외부 전문가 검증을 거쳤다는 점이 특징이다. 대학원생, 박사후연구원, 업계 과학자가 문제의 타당성과 정답 기준을 확인해, 벤치마크가 실제 연구 현장의 판단 기준에 부합하도록 설계됐다.

결과 분석

공식 발표된 통과율은 다음과 같다.

모델개발사통과율
GPT-5.6 Sol ProOpenAI31.5%
Claude Opus 4.8Anthropic16.0%

GPT-5.6 Sol Pro는 전체 1위를 차지했지만 통과율 자체는 31.5%에 그쳤다. 이는 100%에서 31.5%를 뺀 68.5%포인트에 해당하는 문제를, 현재 가장 앞선 AI 모델조차 통과하지 못했다는 의미다. Claude Opus 4.8은 16.0%로 OpenAI 외 모델 중 최고 성능이었으나, GPT-5.6 Sol Pro와의 격차는 15.5%포인트에 달한다.

시사점과 한계

GeneBench-Pro의 결과가 시사하는 바는 명확하다. 코딩이나 일반 언어 이해 벤치마크에서 고득점을 기록하는 최신 모델도, 실제 생물학 연구자가 내리는 판단 작업에서는 여전히 큰 격차를 보인다는 점이다. OpenAI는 이번 벤치마크를 공개하며 이 격차를 수치로 드러냈다.

다만 이번에 공개된 정보만으로는 문제 유형별 세부 정답률, 채점 기준의 구체적 방법론, GPT-5.6 Sol Pro와 Claude Opus 4.8 외 다른 모델들의 점수는 확인되지 않는다. 벤치마크가 다루는 129개 문제가 계산생물학 전 영역을 대표하는지에 대한 판단도 추가 검증이 필요하다.

전망

OpenAI는 GeneBench-Pro를 통해 AI 모델의 과학 연구 적용 가능성을 지속적으로 추적할 것으로 보인다. 계산생물학 분야에서 AI 에이전트를 연구 보조 도구로 활용하려는 시도가 늘어나는 가운데, 이런 도메인 특화 벤치마크는 모델의 실질적 신뢰도를 검증하는 기준점 역할을 할 수 있다. 다른 AI 개발사들이 유사한 벤치마크에 자사 모델을 테스트해 결과를 공개할지 주목된다.

결론

GeneBench-Pro는 AI 모델의 계산생물학 연구 판단력을 정량적으로 측정하는 새로운 도구다. 최고 성능 모델인 GPT-5.6 Sol Pro조차 31.5% 통과율에 그쳤다는 결과는, AI가 생물학 연구 현장에서 아직 전문가를 대체할 수준에 이르지 못했음을 보여준다. 연구자, AI 개발자, 정책 결정자 모두에게 AI의 과학 연구 적용 수준을 가늠하는 참고 자료로 유용하다.

장점

  • 대학원생, 박사후연구원, 업계 과학자 등 실제 연구 현장 전문가의 검증을 거친 문제 구성
  • 유전체학부터 중개의학까지 계산생물학 전 영역을 아우르는 폭넓은 평가 범위
  • AI 모델의 과학 연구 적용 가능성을 구체적 수치로 드러낸 벤치마크
  • OpenAI 자사 모델뿐 아니라 경쟁사 모델(Claude Opus 4.8)도 함께 평가해 비교 가능성 확보

단점/한계

  • 문제 유형별 세부 정답률과 채점 방법론이 상세히 공개되지 않아 추가 검증 여지가 있다
  • OpenAI가 자체 개발한 벤치마크로, 설계 과정에서의 공정성 검증이 외부적으로 이루어지지 않았다
  • 현재 공개된 결과는 GPT-5.6 Sol Pro와 Claude Opus 4.8 두 모델에 국한된다

댓글0

주요 기능/특징

1. 유전체학·정량생물학·중개의학을 아우르는 총 129개 문제로 구성 2. 82개 문제는 대학원생, 박사후연구원, 업계 과학자 등 외부 전문가 검증 완료 3. GPT-5.6 Sol Pro가 31.5% 통과율로 전체 1위 (OpenAI 공식 발표, 2026-06-30) 4. Claude Opus 4.8은 16.0% 통과율로 OpenAI 외 모델 중 최고 성능 5. 실제 생물학 연구 현장의 판단 작업 기준으로 문제를 설계

핵심 인사이트

  • GPT-5.6 Sol Pro가 31.5% 통과율로 1위를 차지했지만, 이는 전체 문제의 절반에도 크게 못 미치는 수준이다.
  • Claude Opus 4.8은 16.0% 통과율로 OpenAI 외 모델 중 최고 성능을 기록했다.
  • GPT-5.6 Sol Pro와 Claude Opus 4.8의 통과율 격차는 15.5%포인트에 달한다.
  • 129개 문제 중 82개가 외부 전문가 검증을 거쳐 실제 연구 현장의 판단 기준을 반영했다.
  • 유전체학, 정량생물학, 중개의학 세 영역을 아우르는 도메인 특화 벤치마크다.
  • 최고 성능 모델도 100%에서 31.5%를 뺀 68.5%포인트에 해당하는 문제를 통과하지 못했다.
  • 코딩·언어 벤치마크에서의 고득점이 생물학 연구 판단력과 곧바로 연결되지 않는다는 점을 보여준다.
  • AI의 과학 연구 도구화 논의에서 실질적 신뢰도를 측정하는 기준점을 제시한다.

이 리뷰가 유용했나요?

공유하기

관련 AI 리뷰

Anthropic 경제 지수 리포트: 근로자 35%, AI가 1년 내 대부분 업무 대체할 것으로 전망
NEW연구
213

Anthropic 경제 지수 리포트: 근로자 35%, AI가 1년 내 대부분 업무 대체할 것으로 전망

2026.07.01
Goldman Sachs, AI 인프라 투자 7.6조 달러 전망: 칩·데이터센터·전력 레이어 분석
연구
2.5천

Goldman Sachs, AI 인프라 투자 7.6조 달러 전망: 칩·데이터센터·전력 레이어 분석

2026.06.16
AI가 80년 수학 난제를 풀었다: OpenAI 모델의 에르되시 추측 반증
연구
4.7천

AI가 80년 수학 난제를 풀었다: OpenAI 모델의 에르되시 추측 반증

2026.05.24
Goodfire의 Silico: AI 모델 내부를 들여다보고 수정하는 최초의 상용 LLM 해석 도구
연구
5.4천

Goodfire의 Silico: AI 모델 내부를 들여다보고 수정하는 최초의 상용 LLM 해석 도구

2026.05.08