OpenAI가 4월 23일 GPT-5.5를 공개했고, 하루 뒤 API 제공 계획까지 업데이트했습니다. 많은 요약 글이 벤치마크 숫자만 옮기지만, 실무 개발자 입장에서 더 중요한 포인트는 따로 있습니다. 이번 발표의 핵심은 "더 좋은 답"이 아니라 "긴 작업을 덜 망치고, 같은 시간 안에 더 적은 토큰으로 끝낸다"에 가깝습니다. 에이전트 기반 제품을 붙여 본 팀이라면 이 차이가 왜 중요한지 바로 감이 옵니다.
지금 현업에서 문제 되는 건 단순한 질문응답 품질이 아닙니다. 코드를 건드리고, 도구를 호출하고, 실패하면 다시 시도하고, 여러 파일과 문맥을 붙잡은 채 끝까지 마무리하는 능력입니다. OpenAI가 GPT-5.5 소개 글에서 강조한 것도 정확히 이 지점입니다. Terminal-Bench 2.0, SWE-Bench 계열, OSWorld-Verified 같은 평가를 전면에 둔 이유는 채팅이 아니라 작업 완수율을 팔겠다는 뜻으로 읽어야 합니다.
GPT-5.5 발표문을 보면 문장이 꽤 노골적입니다. 사용자가 지저분하고 여러 단계가 섞인 작업을 던져도, 모델이 스스로 계획하고 도구를 쓰고 결과를 검증하며 끝까지 간다고 설명합니다. 이건 단순 홍보 문구가 아니라 제품 포지셔닝 변경에 가깝습니다. 이제 모델 경쟁은 “누가 더 그럴듯한 문장을 쓰는가”보다 “누가 더 오래, 덜 흔들리며, 도구를 섞어 일할 수 있는가”로 옮겨가고 있습니다.
실제 서비스에서는 이 차이가 장애율로 드러납니다. 예를 들어 리팩터링 요청 하나를 처리할 때 기존 모델은 중간까지는 잘 가도 마지막 검증 단계에서 멈추거나, 일부 파일만 고치고 끝났다고 선언하는 경우가 많았습니다. 반면 장기 실행 성능이 좋은 모델은 작업 범위를 더 안정적으로 유지하고, 테스트나 확인 절차를 먼저 제안하는 빈도가 높습니다. 사용자는 이걸 “똑똑하다”보다 “덜 불안하다”로 체감합니다.
OpenAI는 GPT-5.5가 GPT-5.4와 비슷한 per-token latency를 유지하면서도 더 높은 수준의 작업 성능을 낸다고 설명했습니다. 이 문장을 그냥 지나치면 안 됩니다. 실무에서 모델 교체를 막는 가장 큰 장벽 중 하나가 속도입니다. 더 잘하는 모델이 있어도 응답 시간이 2배로 늘어나면, 채팅형 UI든 백그라운드 자동화든 체감 품질이 떨어집니다.
더 중요한 건 토큰 효율입니다. 발표문에는 GPT-5.5가 같은 Codex 작업을 더 적은 토큰으로 끝내는 경향이 있다고 적혀 있습니다. 이것은 두 가지 의미를 갖습니다. 첫째, 직접적인 비용 절감입니다. 둘째, 재시도와 컨텍스트 누적에 더 유리하다는 점입니다. 에이전트 시스템은 한 번의 호출보다 반복 호출에서 비용이 커집니다. 도구 선택, 중간 요약, 에러 복구, 최종 정리까지 거치면 토큰 사용량이 금방 불어납니다. 같은 품질을 더 적은 토큰으로 끝낼 수 있다면 운영 여지가 크게 넓어집니다.
간단히 말해, GPT-5.5의 가치는 “가끔 엄청난 답을 준다”가 아니라 “평균적인 실행비를 낮추면서 끝까지 갈 확률을 올린다”에 있습니다. 스타트업이나 사내 툴 팀이 바로 계산해야 할 것은 벤치마크 1~2점 차이가 아니라 작업당 총비용과 실패 재시도 횟수입니다.
OpenAI가 내세운 수치 중 개발팀이 바로 옮겨서 볼 만한 것은 세 가지입니다. 첫째, 장기 명령행 작업을 보는 Terminal-Bench 계열. 둘째, 실제 이슈 해결 성격의 SWE 계열. 셋째, 컴퓨터 조작과 지식 작업을 묶어서 보는 OSWorld-Verified나 GDPval 성격의 평가입니다. 이 세 축을 같이 봐야 하는 이유는 하나의 서비스 안에서도 실패 유형이 다르기 때문입니다.
많은 팀이 아직도 “정답을 맞혔는가”만 측정합니다. 하지만 에이전트는 정답 이전에 절차를 망칩니다. 그래서 이번 발표를 볼 때도 단순한 모델 IQ 경쟁처럼 읽으면 놓치는 게 많습니다. 오히려 우리 제품의 핵심 작업이 무엇인지 분해한 뒤, 그 작업이 어떤 평가축과 닮았는지 매핑해야 합니다.
추천하는 내부 검증 질문은 단순합니다.
이 체크리스트에서 개선이 보이면, 그 모델은 채팅 점수가 아니라 운영 점수에서 가치가 있습니다.
모델만 바꾸고 프롬프트와 런타임을 그대로 두면 기대한 체감이 안 나옵니다. 이유는 단순합니다. 더 자율적인 모델은 더 넓게 행동하려는 경향이 있고, 그만큼 경계가 분명해야 합니다. 즉, GPT-5.5 같은 모델을 붙일수록 시스템 프롬프트는 장식이 아니라 작업 계약서가 되어야 합니다.
최소한 아래 네 가지는 같이 손봐야 합니다.
첫째, 종료 조건을 명확히 써야 합니다. "해결해"가 아니라 "수정 후 테스트 실행, 실패 시 원인 보고, 성공 시 변경 파일과 검증 결과 요약"처럼 끝의 형태를 정의해야 합니다.
둘째, 승인 경계를 나눠야 합니다. 더 똑똑한 모델일수록 더 많이 하려 합니다. 배포, 결제, 삭제, 외부 전송처럼 되돌리기 어려운 행동은 명시적으로 승인 단계 뒤에 두어야 합니다.
셋째, 긴 작업은 중간 체크포인트를 남기게 해야 합니다. 잘하는 모델이라도 20단계짜리 작업에서 전부 맞출 거라고 기대하면 안 됩니다. 작업 요약, 현재 상태, 다음 행동을 남기도록 하면 재개와 감사가 쉬워집니다.
넷째, 성공 판정을 답변이 아니라 증거로 바꿔야 합니다. 테스트 로그, 생성 파일, 검색 결과, diff, 스크린샷 같은 산출물이 없으면 완료로 치지 않는 식입니다.
GPT-5.5를 가장 빨리 검증하는 방법은 새 제품을 만들지 않는 것입니다. 이미 실패가 많은 기존 워크플로 하나를 골라 A/B로 붙이면 됩니다. 예를 들어 아래 같은 작업이 좋습니다.
이때 중요한 건 결과물 평가 기준을 미리 고정하는 것입니다. "좋아 보인다"로 평가하면 매번 흔들립니다. 작업 시간, 총 토큰, 재시도 횟수, 사람 수정 시간, 실패 유형을 같이 기록해야 합니다. 그래야 GPT-5.5가 정말 가치가 있는지 숫자로 판단할 수 있습니다.
이번 GPT-5.5 발표를 보면서 저는 벤치마크보다 제품 문장이 더 중요하다고 봤습니다. OpenAI는 더 이상 모델을 “답변 엔진”으로만 팔지 않고, 컴퓨터 위에서 끝까지 일하는 실행 엔진으로 팔고 있습니다. 그렇다면 우리도 평가 프레임을 바꿔야 합니다. 같은 지연시간, 더 적은 토큰, 더 높은 장기 실행 안정성은 실제 운영비와 사람 개입 시간을 동시에 줄일 수 있는 신호입니다.
반대로 이 모델을 붙인다고 자동으로 생산성이 오르진 않습니다. 승인 경계, 증거 기반 완료 판정, 체크포인트, 실패 복구 설계가 없으면 더 똑똑한 모델이 더 크게 사고칠 수도 있습니다. 모델 업데이트를 기능 추가처럼 소비하면 안 되고, 운영 체계 업데이트로 받아들여야 합니다.
참고한 발표: