GeneBench-Pro 공개: AI 에이전트의 과학적 판단력을 어떻게 평가할까

AI 모델이 코드를 잘 짜는지 보는 벤치마크는 많습니다. 하지만 실제 연구 현장에서 중요한 질문은 조금 다릅니다. 데이터가 이 질문을 답할 수 있는지, 어떤 분석 경로가 맞는지, 중간 진단 결과를 보고 가정을 바꿔야 하는지 판단할 수 있느냐입니다. OpenAI가 공개한 GeneBench-Pro는 이 지점을 정면으로 겨냥한 연구형 벤치마크입니다.

이 글은 GeneBench-Pro, AI 과학 벤치마크, 연구 에이전트 평가, computational biology AI를 검색하는 개발자를 위한 정리입니다. 단순히 “모델 점수가 올랐다”는 뉴스가 아니라, 실무에서 에이전트 평가를 설계할 때 어떤 기준을 빌려올 수 있는지에 초점을 맞춥니다.

왜 GeneBench-Pro가 중요한가

기존 벤치마크의 상당수는 정답이 비교적 명확한 문제를 풉니다. 알고리즘 문제, 문서 QA, 단일 함수 수정, 수학 풀이처럼 결과를 채점하기 쉽습니다. 반면 연구 업무는 정답만큼 과정이 중요합니다. 같은 데이터라도 어떤 결측치를 버릴지, 어떤 통계 모델을 쓸지, 관찰된 패턴을 신호로 볼지 노이즈로 볼지 결정해야 합니다.

OpenAI는 GeneBench-Pro에서 이 능력을 “research taste”라고 설명합니다. 번역하면 연구 감각에 가깝습니다. 여기서 감각은 막연한 직관이 아닙니다. 데이터가 지지할 수 있는 질문의 범위를 정하고, 초반 진단 결과에 따라 분석 방법을 바꾸고, 결과가 의사결정에 충분한지 판단하는 연쇄적 선택입니다.

실무 개발자에게 중요한 포인트는 명확합니다. 에이전트 평가를 “최종 답이 맞았는가”로만 두면 위험합니다. 실제 제품에서는 잘못된 중간 판단이 고객 데이터, 비용, 의사결정에 영향을 줍니다. 평가도 중간 경로를 봐야 합니다.

벤치마크 구성: 129개 문제와 합성 데이터

GeneBench-Pro는 genomics, quantitative biology, translational medicine 등 computational biology 영역의 129개 질문으로 구성됐습니다. 각 문제는 데이터 파일, 실험 맥락, downstream decision과 연결된 target estimand를 제공합니다. 모델은 데이터를 탐색하고, 분석 접근법을 고르고, 반복 실험을 거쳐 최종 답을 내야 합니다.

특히 눈에 띄는 점은 합성 데이터 사용입니다. 실제 역사적 데이터만 쓰면 평가가 애매해집니다. 어떤 cutoff를 고르느냐에 따라 여러 답이 방어 가능할 수 있고, 반대로 분석을 크게 틀려도 숫자가 우연히 맞을 수 있습니다. OpenAI는 데이터 생성 과정을 직접 통제해 causal structure를 알고, 합리적 선택은 허용하되 잘못된 분석은 실패하도록 문제를 조정했다고 설명합니다.

이 방식은 일반 서비스의 에이전트 평가에도 참고할 만합니다. 운영 로그만 평가 데이터로 쓰면 정답이 불분명한 경우가 많습니다. 반대로 synthetic case를 잘 만들면 의도한 실패 유형을 정확히 찌를 수 있습니다. 예를 들어 “사용자가 중간에 배송지를 바꿨을 때 최종 주문 정보가 바뀌는가”처럼 실패 조건을 명확히 둔 케이스를 만들 수 있습니다.

결과 수치가 말하는 것

OpenAI 공개 자료에 따르면 GPT-5.6 Sol은 GeneBench-Pro에서 highest reasoning level 기준 28.7% pass rate, Pro mode 사용 시 31.5%를 기록했습니다. 같은 글에서 초기 GeneBench 구축 당시 GPT-5가 5% 미만이었다고 언급한 점을 보면 발전 속도는 큽니다. 하지만 절대 점수만 보면 아직 어려운 문제입니다.

이 수치는 두 가지를 동시에 말합니다. 첫째, frontier model은 단순 질의응답을 넘어 장시간 분석형 업무로 이동하고 있습니다. 둘째, 연구 수준의 판단 자동화는 아직 완성된 영역이 아닙니다. 제품에서 “AI가 분석해줍니다”라고 말할 때, 어떤 범위까지 자동화하고 어디서 사람 검토를 넣을지 구분해야 합니다.

또 하나 중요한 점은 test-time compute입니다. OpenAI는 낮은 reasoning level에서는 한 자릿수 pass rate에 그쳤고, 높은 reasoning level에서 성능이 크게 올라갔다고 설명합니다. 즉 어려운 분석 업무에서는 빠른 응답 모델만으로는 부족할 수 있습니다. 비용과 지연시간을 감수하고 깊은 추론을 쓸지 결정하는 라우팅이 필요합니다.

개발팀이 가져갈 평가 설계 원칙

GeneBench-Pro를 그대로 서비스 평가에 가져올 수는 없습니다. 하지만 원칙은 가져올 수 있습니다. 첫째, synthetic scenario를 만들어야 합니다. 실제 사용 로그는 중요하지만, 특정 실패 유형을 반복 측정하기 어렵습니다. 결제, 권한, 정책 위반, 중간 조건 변경, 외부 API 실패처럼 놓치면 비싼 케이스는 별도 synthetic suite로 만들어야 합니다.

둘째, 결과뿐 아니라 경로를 채점해야 합니다. 에이전트가 최종 답을 맞혔더라도 잘못된 도구를 호출했거나, 금지된 데이터를 읽었거나, 우연히 맞춘 것이라면 통과로 보면 안 됩니다. tool call sequence, intermediate state, refusal, retry, human escalation을 평가 항목에 넣어야 합니다.

셋째, ambiguity를 설계해야 합니다. 실무 요청은 모호합니다. 사용자가 “지난달 성과 정리해줘”라고 하면 어떤 지표를 볼지, 어떤 기간 기준을 쓸지, 어떤 시스템에서 데이터를 가져올지 결정해야 합니다. 평가 데이터도 항상 깔끔한 정답지만 주면 production gap이 커집니다.

제품 적용 예시: 데이터 분석 에이전트

사내 BI 에이전트를 예로 들어보겠습니다. 사용자가 “이번 분기 리텐션이 왜 떨어졌는지 분석해줘”라고 요청합니다. 나쁜 평가는 최종 보고서가 그럴듯한지만 봅니다. 좋은 평가는 다음을 봅니다.

기간 정의를 명확히 했는가.
cohort 기준을 잘못 섞지 않았는가.
데이터 누락과 이벤트 스키마 변경을 확인했는가.
상관관계를 원인처럼 말하지 않았는가.
불확실한 결론을 불확실하다고 표시했는가.
다음 액션이 데이터로 지지되는가.

이런 항목은 정답 문자열 비교로는 잡히지 않습니다. trace 기반 평가, 루브릭 평가, 사람이 검토한 golden case가 필요합니다. GeneBench-Pro가 보여주는 방향도 같습니다. 어려운 업무일수록 “무엇을 답했는가”보다 “어떻게 판단했는가”가 중요합니다.

운영 체크리스트

고위험 에이전트 업무를 최종 답 기준만으로 평가하고 있지 않은지 확인합니다.
실제 로그와 별도로 synthetic failure case를 20~50개부터 만듭니다.
tool call, state transition, intermediate reasoning artifact를 평가 가능한 형태로 남깁니다.
빠른 모델과 깊은 reasoning 모델을 업무 난이도에 따라 라우팅합니다.
ambiguity, missing data, schema drift, policy conflict 케이스를 평가 세트에 포함합니다.
pass rate 하나만 보지 말고 refusal rate, escalation rate, retry rate, correction rate를 함께 봅니다.
“맞았지만 위험한 경로”를 실패로 처리하는 기준을 문서화합니다.

GeneBench-Pro의 핵심은 생물학 벤치마크 자체보다 평가 철학입니다. 앞으로 AI 에이전트 제품을 운영하려면, 모델이 답을 생성하는 능력뿐 아니라 판단을 관리하는 능력을 측정해야 합니다. 그 차이가 데모와 production의 차이를 만듭니다.