Datadog가 공개한 State of AI Engineering 2026 보고서는 요즘 AI 팀이 어디에서 실제로 고생하는지 꽤 솔직하게 보여줍니다. 핵심 키워드는 multi-model routing, agent observability, prompt caching, LLM tech debt입니다. 화려한 데모보다 운영 현실에 가깝습니다. 특히 “조직의 70% 이상이 이미 3개 이상의 모델을 쓴다”, “Claude Sonnet 4.6은 첫 달에 17% 채택까지 갔다”, “입력 토큰의 69%가 시스템 프롬프트다” 같은 수치는 실무자에게 바로 의미가 있습니다.
이 보고서를 그냥 시장 동향 정도로 보면 아깝습니다. 오히려 개발팀의 설계 우선순위를 정리해주는 운영 문서로 읽는 편이 맞습니다. 지금 대부분의 문제가 모델 정확도보다, 모델 수명주기 관리와 에이전트 실행 추적에서 터지고 있기 때문입니다.
Datadog는 OpenAI 점유율이 여전히 가장 크지만, Google Gemini와 Anthropic Claude의 채택 증가 속도가 더 빠르다고 분석했습니다. 더 중요한 것은 절대 점유율보다 조직 내부 구조입니다. 조직의 70% 이상이 3개 이상의 모델을 쓰고, 6개 이상을 쓰는 비율도 크게 늘었다는 점입니다.
이 수치가 왜 중요할까요. 이유는 간단합니다. 이제 모델 선택이 “회사 표준”이 아니라 “워크로드별 포트폴리오”가 되고 있기 때문입니다.
예를 들어 실제 제품에서는 보통 이렇게 나뉩니다.
문제는 여기서부터입니다. 모델이 늘어날수록 프롬프트 호환성, 출력 형식 차이, 비용 예측, 장애 대응, 평가 체계가 함께 복잡해집니다. 즉 멀티모델 전략은 성능 최적화가 아니라 플랫폼 엔지니어링 문제입니다.
보고서에서 꽤 인상적인 부분은 새 모델은 빨리 도입하지만, 옛 모델은 잘 안 죽는다는 분석입니다. Claude Sonnet 4.6은 출시 첫 달에 17% 채택까지 올라갔는데, 동시에 Sonnet 4.5와 GPT-4o 같은 이전 모델도 여전히 의미 있는 비중으로 운영되고 있다고 지적합니다.
이게 바로 LLM tech debt입니다.
기존 소프트웨어에서 기술 부채는 오래된 라이브러리, 중복 로직, 레거시 API 같은 형태로 보입니다. AI 시스템에서는 여기에 추가로 아래가 붙습니다.
결국 모델 하나 추가하는 일은 “새 옵션 추가”가 아니라 “새 운영 대상 추가”입니다. 그래서 지금부터는 모델 도입 기준만큼이나 모델 퇴역 기준도 문서화해야 합니다.
Datadog는 LangChain, Pydantic AI, LangGraph, Vercel AI SDK 같은 에이전트 프레임워크 채택이 1년 사이 거의 2배 늘었다고 봤습니다. 이건 자연스러운 흐름입니다. 팀은 빨리 만들고 싶고, 프레임워크는 툴 호출, 상태 관리, branching, retry를 쉽게 붙여주니까요.
하지만 문제는 속도와 이해 가능성이 같이 늘지 않는다는 점입니다.
프레임워크를 쓰면 아래 현상이 금방 생깁니다.
즉, agent observability가 없으면 프레임워크가 생산성 도구가 아니라 블랙박스 생성기가 됩니다.
실무에서 꼭 봐야 할 지표는 아래입니다.
이걸 안 보면 “에이전트가 가끔 이상해요” 수준에서 영원히 못 벗어납니다.
보고서에서 가장 손에 잡히는 수치는 이겁니다. 고객 trace 기준으로 입력 토큰의 69%가 시스템 프롬프트, 정책 정의, 툴 안내 같은 내부 지시문에서 나왔다는 점입니다.
이건 곧 두 가지 뜻입니다.
첫째, 많은 팀이 생각보다 훨씬 긴 고정 프롬프트를 매번 다시 보내고 있다는 뜻입니다. 둘째, 비용 최적화는 모델 교체보다 프롬프트 구조 개선에서 먼저 나올 수 있다는 뜻입니다.
예를 들어 아래처럼 붙어 있는 경우가 많습니다.
이 내용은 사용자 요청마다 거의 변하지 않습니다. 그런데 위치와 구조를 잘못 잡으면 캐시 이점도 못 받고, 응답 지연도 그대로 늘어납니다.
OpenAI 문서에 따르면 prompt caching은 1024토큰 이상 프롬프트에서 자동으로 동작하고, 정확한 prefix match가 있어야 캐시 적중이 일어납니다. 정적인 지시문을 앞쪽에 두고, 가변 입력을 뒤로 보내야 비용과 지연을 줄일 수 있습니다. 문서 기준으로는 지연 최대 80%, 입력 토큰 비용 최대 90% 절감 가능성이 언급됩니다.
그런데 많은 팀이 캐시를 못 먹는 구조로 프롬프트를 씁니다.
대표적인 실수는 아래입니다.
결과적으로 prompt caching이 지원돼도 체감 이득이 작습니다. 캐시는 기능이 아니라 프롬프트 설계 원칙으로 접근해야 합니다.
이 보고서에서 바로 실행으로 옮길 만한 부분은 다섯 가지입니다.
아무 모델이나 붙이지 말고, 최소한 아래 필드는 관리해야 합니다.
새 모델을 붙일 때는 최소한 같은 입력셋으로 아래를 비교해야 합니다.
이제 “로그 몇 줄”로는 안 됩니다. 에이전트라면 최소한 step trace, tool trace, model trace가 함께 남아야 합니다.
캐시를 노리는 구조가 아니면 비용이 계속 샙니다. 시스템 정책, 툴 설명, few-shot 예제는 되도록 고정 prefix로 묶으세요.
모델 도입 문서만 있고 퇴역 문서가 없으면 3개월 뒤에 같은 기능이 4개 모델에서 동시에 돌아갑니다. 그때부터는 누구도 전체 비용과 리스크를 설명 못 합니다.
아래 질문에 “아니오”가 많으면 이미 AI 운영 부채가 쌓이고 있다고 봐도 됩니다.
Datadog 보고서가 보여주는 메시지는 단순합니다. 지금 앞서가는 팀은 더 똑똑한 모델 하나를 찾는 팀이 아니라, 모델 포트폴리오를 운영하고 에이전트를 추적하며 프롬프트 비용을 통제하는 팀입니다.
좋은 데모는 한 명의 에이스가 만듭니다. 하지만 안정적인 AI 제품은 운영 원칙이 만듭니다. 멀티모델, observability, tech debt, prompt caching은 이제 선택 과제가 아닙니다. 이미 비용과 속도, 장애 재현성에 직접 영향을 주는 기본기입니다.
참고 소스: