Codex 장기 작업 운영법: 한 번의 프롬프트를 프로젝트 워크스페이스로 바꾸는 방법

요약: OpenAI가 공개한 'Codex-maxxing for long-running work'는 Codex를 단발성 코드 생성기가 아니라 오래 지속되는 작업 공간으로 쓰는 방법을 다룹니다. 실무에서 중요한 것은 멋진 프롬프트가 아니라, 목표 분해, 검증 가능한 중간 산출물, 사람의 개입 지점, 상태 보존 규칙입니다.

왜 장기 작업은 실패하기 쉬운가

AI coding agent를 쓰다 보면 처음 10분은 빠릅니다. 파일을 읽고, 수정안을 만들고, 테스트를 돌립니다. 문제는 작업이 길어질 때 시작됩니다. 요구사항이 바뀌고, 중간에 빌드가 깨지고, 관련 없는 파일까지 손대고, 이전 결정의 이유를 잊습니다. 결국 사람이 다시 맥락을 설명해야 합니다.

장기 작업은 한 번의 프롬프트로 끝나지 않습니다. 예를 들어 디자인 시스템 마이그레이션, 결제 플로우 리팩터링, 테스트 커버리지 확장, 레거시 API 제거, 문서 구조 개편은 여러 PR과 여러 검증 단계를 거칩니다. 이런 작업에서 Codex를 잘 쓰려면 '코드 써줘'가 아니라 '작업 운영체계'가 필요합니다.

OpenAI의 Codex-maxxing 글도 이 지점을 강조합니다. Codex를 persistent workspace로 사용하고, 큰 목표를 검증 가능한 단계로 나누고, 언제 사람의 판단이 필요한지 구분해야 한다는 내용입니다.

좋은 목표는 산출물로 정의된다

나쁜 요청은 이렇게 시작합니다.

결제 코드를 정리해줘
테스트를 추가해줘
성능 개선해줘

이 요청은 범위가 넓고 완료 기준이 없습니다. agent는 알아서 추측합니다. 추측이 많아질수록 변경량이 커지고 리뷰가 어려워집니다.

좋은 요청은 산출물과 검증 기준을 같이 줍니다.

Stripe webhook handler에서 event parsing, idempotency check, DB update를 분리하라. 기존 API response는 유지하라. 변경 후 unit test 5개와 integration test 1개를 추가하라.
React Native onboarding screen 4개에서 중복된 spacing/token 사용을 theme helper로 통일하라. UI 스냅샷 차이는 없어야 한다.
관리자 페이지의 N+1 쿼리를 찾아라. 쿼리 수 before/after를 로그로 남기고, p95 응답 시간이 줄었다는 근거를 제시하라.

핵심은 agent가 끝났다고 말했을 때 사람이 무엇을 확인해야 하는지 분명해야 한다는 점입니다.

작업을 쪼개는 기본 구조

장기 작업은 다음 5단계로 나누면 안정적입니다.

탐색: 관련 파일, 테스트, 현재 동작, 위험 영역을 조사합니다. 이 단계에서는 코드를 수정하지 않습니다.
계획: 변경 단위와 순서를 제안합니다. PR을 몇 개로 나눌지 정합니다.
실행: 가장 작은 단위부터 수정합니다.
검증: 테스트, 린트, 타입체크, 빌드, 스크린샷, API 응답 비교 중 필요한 것을 실행합니다.
기록: 변경 이유, 남은 리스크, 다음 단계, 사람이 봐야 할 부분을 남깁니다.

이 구조를 프롬프트에 넣으면 agent의 행동이 훨씬 예측 가능해집니다. 특히 탐색 단계에서 '수정 금지'를 명시하는 것이 중요합니다. 많은 실패는 충분히 읽기 전에 수정부터 시작해서 생깁니다.

사람의 개입 지점을 미리 정한다

AI agent를 오래 돌릴수록 '언제 멈춰야 하는가'가 중요합니다. 모든 판단을 agent에게 맡기면 작업 속도는 빨라 보이지만, 나중에 리뷰 비용이 폭발합니다.

다음 상황에서는 사람에게 묻도록 규칙을 걸어야 합니다.

공개 API의 응답 shape이 바뀌는 경우
DB migration 또는 데이터 삭제가 필요한 경우
인증·권한·결제 로직이 바뀌는 경우
테스트를 통과시키기 위해 기존 테스트 기대값을 바꾸는 경우
의존성 major version upgrade가 필요한 경우
변경 파일이 계획보다 2배 이상 늘어나는 경우

반대로 다음 작업은 agent에게 맡겨도 됩니다.

타입 오류 수정
단순 테스트 추가
문서와 코드 예시 동기화
rename 후 import 정리
실패한 테스트의 최소 원인 추적

구분 기준은 간단합니다. 되돌리기 쉽고 영향 범위가 좁으면 자동 실행, 데이터·보안·외부 계약에 영향을 주면 사람 확인입니다.

상태 보존은 파일로 한다

장기 작업에서 가장 강력한 습관은 상태를 파일로 남기는 것입니다. agent 메모리에만 의존하면 세션이 끊기거나 모델이 바뀔 때 맥락이 사라집니다.

레포 안에 docs/work-log/payment-refactor.md 같은 파일을 만들고 다음 내용을 남깁니다.

현재 목표
완료한 단계
실패한 시도
결정한 이유
다음 명령
사람이 확인해야 할 질문

이 파일은 PR 설명의 초안으로도 쓸 수 있습니다. 또 다른 agent가 이어받을 때도 유용합니다. Codex를 persistent workspace로 쓴다는 말은 결국 코드, 테스트, 기록이 같은 작업 공간에 남는다는 뜻입니다.

바로 쓸 수 있는 프롬프트 템플릿

아래 템플릿은 장기 작업을 시작할 때 쓸 수 있습니다.

목표: [비즈니스/기술 목표]
범위: [수정 가능한 디렉터리와 제외할 영역]
완료 기준: [테스트, 빌드, 응답 비교, 스크린샷 등]
제약: [API 호환성, DB 변경 금지, 디자인 변경 금지 등]
작업 방식:
1. 먼저 관련 파일과 테스트를 조사하고 요약하라. 이 단계에서는 수정하지 마라.
2. 변경 계획을 3~5단계로 제안하라. 위험한 단계는 표시하라.
3. 가장 작은 단계부터 실행하라.
4. 각 단계 후 검증 결과를 남겨라.
5. 막히면 추측하지 말고 원인 후보와 필요한 결정을 정리하라.
보고 형식: 완료한 일, 검증 결과, 남은 리스크, 다음 단계.

이 템플릿의 장점은 agent가 너무 빨리 뛰어나가지 못하게 만든다는 점입니다. 속도보다 추적 가능성이 먼저입니다.

체크리스트

목표가 코드 변경이 아니라 검증 가능한 산출물로 정의됐는가
탐색 단계에서 수정 금지 규칙을 넣었는가
큰 작업을 PR 단위로 나눴는가
사람에게 물어야 할 조건을 미리 정했는가
작업 로그 파일을 남겼는가
테스트·빌드·스크린샷 등 최소 검증 게이트를 정했는가
agent가 실패한 시도를 기록하게 했는가

출처: OpenAI Codex-maxxing for long-running work 소개와 Codex 제품 설명을 바탕으로 실무 운영 방식으로 재구성했습니다.