**하네스 엔지니어링(Harness Engineering)**은 AI 에이전트를 감싸고 제어하는 인프라를 설계하고 구축하는 새로운 엔지니어링 분야입니다.
쉽게 비유하면, AI 모델이 엔진이라면 하네스는 자동차 전체입니다. 아무리 좋은 엔진이 있어도 핸들, 브레이크, 변속기가 없으면 쓸모가 없죠. 마찬가지로 아무리 뛰어난 LLM이 있어도, 그것을 제어하고 관리하는 하네스가 없으면 프로덕션에서 안정적으로 동작할 수 없습니다.
Aakash Gupta는 2026년 1월 "2025년은 에이전트의 해였다. 2026년은 에이전트 하네스의 해다"라고 선언했습니다. 2025년에 우리는 "AI 에이전트를 어떻게 만드는가"를 풀었고, 2026년에는 "AI 에이전트를 어떻게 안정적으로 운영하는가"를 풀어야 합니다.
혼동하기 쉬운 개념들을 정리하면:
Anthropic 엔지니어링 팀의 정의를 빌리면, 하네스는 "에이전트의 생명주기, 컨텍스트 윈도우, 도구 접근, 안전 경계를 관리하는 소프트웨어"입니다. LLM과 외부 세계 사이에 위치해서, 모델 자체가 내릴 수 없는 결정들 — "이 도구 호출을 허용할 것인가?", "이 에이전트가 비용 한도를 초과했는가?" — 을 대신 처리합니다.
Salesforce의 2026년 보고서에 따르면, 평균적인 기업은 현재 12개의 AI 에이전트를 운영하고 있으며, 2027년까지 20개로 늘어날 전망입니다. 문제는 이 중 27%만이 나머지 시스템과 연결되어 있다는 것입니다. 나머지 73%는 모니터링도, 거버넌스도 없는 "그림자 에이전트(Shadow Agent)"로 기술 부채를 빠르게 쌓고 있습니다.
Microsoft 텔레메트리에 따르면 Fortune 500 기업의 80% 이상이 활성 AI 에이전트를 보유하고 있으며, 대부분 로우코드 도구로 플랫폼 엔지니어링과 협의 없이 만들어졌습니다.
이건 10년 전 마이크로서비스 스프롤과 같은 패턴입니다. 당시 모든 팀이 마이크로서비스를 무분별하게 만들었고, 결국 서비스 메시, API 게이트웨이, 플랫폼 팀이 등장해 혼란을 수습했습니다. 에이전트 스프롤도 마찬가지 — 다만 에이전트는 자율적으로 의사결정을 하기 때문에 폭발 반경이 훨씬 큽니다.
GPT-4o, Claude Sonnet, Gemini Pro — 최상위 모델들의 성능 차이가 줄어들고 있습니다. 경쟁력 있는 모델을 6개월이면 학습할 수 있습니다. 그러나 프로덕션 수준의 하네스를 구축하는 데는 수개월에서 수년이 걸립니다.
실제 사례:
Claude Code가 히트한 이유도 여기에 있습니다. Claude 모델 자체가 아니라, Claude Code라는 더 나은 하네스가 같은 모델을 감싸고 있기 때문입니다.
에이전트가 중요한 결정을 내리기 전에 사람의 승인을 요구합니다. 데이터베이스 삭제? 카드 결제? 고객 이메일 발송? 하네스가 승인을 요구합니다. Replit의 에이전트는 코드를 생성하지만, 배포 전에는 반드시 사람의 확인이 필요합니다.
접근 가능한 디렉토리, 허용된 작업, 충돌 해결 방법을 정의합니다. Claude Code의 하네스는 모델이 수행하는 파일시스템 작업을 정확히 제어합니다. 시스템 파일은 절대 건드리지 않습니다.
잘못된 오케스트레이션은 무한 루프와 연쇄 실패를 만듭니다. Vercel의 80% 도구 감축 사례가 보여주듯, 올바른 도구를 올바른 시점에 올바른 순서로 호출하고, 적절한 에러 핸들링을 하는 것이 핵심입니다.
복잡한 작업에는 전문화된 에이전트들이 필요합니다. 하나는 리서치, 하나는 작성, 하나는 리뷰. 하네스가 이들 간 통신을 관리하고, 출력을 병합하며, 충돌을 해결합니다. LangChain의 Deep Research가 여러 리서치 서브에이전트를 조율하는 것이 좋은 예시입니다.
작업마다 다른 지시가 필요합니다. 코드 리뷰 vs 코드 생성. 버그 수정 vs 기능 개발. 하네스가 프롬프트 라이브러리를 유지하고 상황에 맞는 프리셋을 적용합니다.
컨텍스트 초기화 → 작업 실행 → 상태 저장 → 실패 처리 → 재시도 로직 → 로깅. 하네스가 이 모든 워크플로우를 안정적으로 구현합니다.
2026년 2월, OpenAI는 **"하네스 엔지니어링"**이라는 제목의 블로그 포스트를 공개하며 업계에 큰 반향을 일으켰습니다.
OpenAI 팀은 5개월간 실험을 진행했습니다: 사람이 직접 작성한 코드 0줄로 소프트웨어 제품을 만들어 출시하는 것. 모든 코드 — 애플리케이션 로직, 테스트, CI 설정, 문서, 관측성 도구 — 를 Codex 에이전트가 작성했습니다.
핵심 원칙: "사람은 조종하고, 에이전트가 실행한다(Humans steer. Agents execute.)"
흥미로운 점은, 초기 진행이 예상보다 느렸다는 것입니다. Codex가 무능해서가 아니라, 환경이 불충분했기 때문입니다. 에이전트에게 필요한 도구, 추상화, 내부 구조가 부족했습니다.
팀의 주된 업무는 "코드 작성"에서 **"에이전트가 유용한 작업을 할 수 있도록 환경을 만드는 것"**으로 전환됐습니다. 뭔가 실패하면 "더 열심히 하라"가 아니라, "에이전트에게 어떤 능력이 빠져 있고, 어떻게 하면 읽기 쉽고 강제 가능하게 만들 수 있는가?"를 물었습니다.
OpenAI 팀이 발견한 핵심 교훈: AGENTS.md를 백과사전이 아니라 목차로 취급하라.
그래서 AGENTS.md는 약 100줄의 간결한 지도 역할만 하고, 실제 지식은 구조화된 docs/ 디렉토리에 배치했습니다.
Anthropic도 자사 블로그에서 장기 실행 에이전트를 위한 효과적인 하네스 설계를 공유했습니다.
장기 실행 에이전트의 근본 문제는 컨텍스트 윈도우 간 연속성입니다. 교대 근무하는 엔지니어를 상상해보세요 — 매번 새 엔지니어가 이전에 무슨 일이 있었는지 전혀 모른 채 도착합니다.
Opus 4.5 같은 최신 모델도 여러 컨텍스트 윈도우에 걸쳐 작업하면 두 가지 문제가 발생합니다:
Anthropic의 해법:
① 초기화 에이전트 (Initializer Agent)
② 코딩 에이전트 (Coding Agent)
핵심 인사이트: 에이전트가 새 컨텍스트 윈도우에서 작업 상태를 빠르게 파악할 수 있게 하는 것. 이는 효율적인 소프트웨어 엔지니어들이 매일 하는 것에서 영감을 받았습니다.
모델이 스스로 수정할 수 없을 때만 개입합니다. 모호함은 모델이 처리하게 두고, 되돌릴 수 없는 작업이나 보안 경계에서만 개입합니다.
제한된 도구와 권한으로 시작합니다. 작업이 요구할 때만 확장합니다. 데이터베이스 삭제 권한을 꼭 필요한 경우가 아니면 부여하지 않습니다. 기본은 최소 권한(Least Privilege).
실패를 빠르게 감지합니다. 에이전트가 나선형으로 빠지지 않게 합니다. 실패 시 복구 경로를 제공합니다 — 다른 접근법으로 재시도, 사람에게 폴백. 절대 조용히 실패하지 않습니다.
CNCF(Cloud Native Computing Foundation)의 2026년 전망 보고서는 에이전트 관리에 완벽하게 적용되는 프레임워크를 제시합니다:
하네스 엔지니어링은 단순한 유행어가 아닙니다. AI 에이전트가 프로덕션 환경에서 실제로 동작하기 위해 반드시 필요한 인프라 계층입니다.
핵심 요약:
Martin Fowler(Thoughtworks)는 OpenAI의 실험을 "에이전트를 위한 환경을 유지하기 위한 하네스를 구축하기 위한 강제 함수로 '수동 코드 전혀 없음'을 사용한 흥미로운 사례"라고 평가했습니다.
2025년이 에이전트의 가능성을 증명한 해였다면, 2026년은 그 가능성을 현실로 만드는 해입니다. 그리고 그 현실화의 핵심이 바로 하네스 엔지니어링입니다.
참고 자료:
이 글이 도움이 되셨다면, AI 에이전트 하네스에 대한 여러분의 경험도 공유해주세요! 🚀