에이전트를 서비스에 붙일 때 가장 많이 과소평가되는 부분이 guardrail과 human review입니다. 모델이 똑똑해질수록 이 둘은 덜 중요해지는 게 아니라 더 중요해집니다. 검색 의도가 분명한 키워드로 정리하면 agent guardrails, human in the loop approvals, tool approval workflow, AI agent safety checklist가 핵심입니다. 많은 팀이 “위험한 액션은 사람 승인” 정도로만 생각하는데, 실제 운영에서는 무엇을 자동 차단하고 무엇을 사람에게 넘길지를 구체적으로 분리해야 합니다.
OpenAI의 Agents 문서도 이 점을 분명하게 설명합니다. input guardrail, output guardrail, tool guardrail은 자동 검증용이고, cancellation, edits, shell commands, 민감한 MCP action 같은 side effect는 human review로 멈추게 하라고 합니다. 이 구분을 제대로 안 하면 두 가지가 동시에 생깁니다. 위험한 행동은 너무 쉽게 통과하고, 반대로 사소한 행동까지 승인 대기열에 쌓여서 제품이 굼떠집니다.
간단히 정리하면 역할이 다릅니다.
문제는 이 둘을 뒤섞을 때 생깁니다. 예를 들어 “고객 환불은 위험하니 output guardrail로 문장을 검사하자”는 식의 접근은 틀렸습니다. 환불은 문장 품질 문제가 아니라 실행 권한 문제이기 때문입니다. 반대로 “사용자가 욕설을 넣었을 때 매번 사람 승인”도 비효율입니다. 이런 건 input guardrail에서 바로 막는 편이 맞습니다.
에이전트 워크플로우를 설계할 때는 아래 네 군데를 분리해서 봐야 합니다.
사용자 요청이 애초에 처리 대상인지 검사합니다.
적용 예시:
여기서 중요한 건 값싸고 빠르게 막는 겁니다. 메인 에이전트를 돌리기 전에 잘라야 비용이 안 샙니다.
모델이 특정 tool을 호출할 때 인자와 맥락을 검사합니다.
적용 예시:
이 계층은 실무적으로 가장 중요합니다. 에이전트 사고는 대개 “답변이 이상함”보다 “툴을 잘못 눌렀음”에서 시작하기 때문입니다.
최종 응답이 외부로 나가기 전에 검사합니다.
적용 예시:
이건 품질과 컴플라이언스 쪽에 가깝습니다. 하지만 이것만으로 실행 리스크는 못 막습니다.
에이전트가 실제로 외부 상태를 바꾸는 액션을 하려면 멈추고 승인받게 하는 단계입니다.
적용 예시:
핵심은 side effect가 있는지입니다. 되돌리기 어렵거나 외부 영향이 크면 승인 쪽으로 보내야 합니다.
무조건적인 정답은 없지만, 실무에서는 아래 기준이 꽤 잘 먹힙니다.
즉 “사람이 다시 볼 수 있는 중간 결과”는 자동화해도 되고, “외부 세계를 바꾸는 확정 행동”은 승인으로 묶는 편이 안전합니다.
많은 팀이 approval를 붙였다가 불평합니다. 전부 승인 대기라서 느리다는 겁니다. 대개 이유는 두 가지입니다.
첫째, 승인 단위가 너무 큽니다. 둘째, 승인 화면에 필요한 맥락이 없습니다.
예를 들어 아래 둘은 운영 난이도가 다릅니다.
승인자는 문맥을 즉시 이해해야 합니다. 무엇을 왜 실행하는지, 영향 범위가 무엇인지 한 화면에 보이게 해야 합니다.
이렇게 나누면 모든 액션을 같은 절차로 다루지 않아도 됩니다.
OpenAI 예시처럼 tool 수준에서 needsApproval에 해당하는 개념을 두면 설계가 깔끔합니다. 위험한 액션을 프롬프트에 부탁하지 말고, 툴 선언 단계에서 표시해야 합니다.
예를 들어 금액이 10만 원 이하이면 정책 엔진 자동 승인, 초과하면 사람 승인으로 넘길 수 있습니다. 이 조합이 있으면 업무 속도와 안전을 같이 잡기 쉽습니다.
“중요한 작업은 꼭 확인해”라고 써놓는다고 정책이 되지 않습니다. 승인 여부는 시스템 계층에서 강제돼야 합니다.
문장이 멀쩡해도 잘못된 tool이 실행되면 이미 사고입니다.
누가 언제 어떤 이유로 승인했는지 안 남기면 사후 분석이 불가능합니다.
승인 거절 시 에이전트가 어떻게 설명하고, 어떤 대안 경로를 제안할지 정해야 합니다.
실무에서는 승인자가 즉시 답하지 않습니다. 중단된 run을 저장하고 이어가는 구조가 꼭 필요합니다.
이번 주 안에 할 수 있는 현실적인 작업은 아래 정도입니다.
추천 로그 필드는 최소 이 정도입니다.
에이전트를 운영에 붙이면 결국 질문은 하나로 모입니다. “이 행동을 지금 자동으로 실행해도 되는가?” 이 질문에 답하는 체계가 guardrail과 human review입니다.
정리하면 이렇습니다.
이 경계만 분명해도 AI agent safety는 훨씬 현실적인 수준으로 올라갑니다. 안전한 자동화는 느린 자동화가 아니라, 위험을 잘 분류한 자동화입니다.
참고 소스: