RAG 비용 문제는 모델 단가보다 파이프라인 낭비에서 시작됩니다. 계측 없이 최적화하면 품질만 흔들립니다.
비용이 새는 구간
전체 재임베딩, 과도한 top-k, 무조건 재랭킹, 과한 컨텍스트, 캐시 부재가 대표적입니다.
분해 계측
질문 1건 비용을 임베딩/검색/재랭킹/생성으로 분해해 병목을 확인합니다.
최적화
증분 임베딩, 의미 단위 청크, 조건부 재랭킹, 컨텍스트 압축, 다층 캐시를 순서대로 적용합니다.
품질 보호
근거 일치율, 재질문율, 수정율을 함께 보지 않으면 절감 후 품질 하락을 놓칩니다.
실행
1주차 계측+튜닝, 2주차 구조 개선+회귀 테스트로 진행하세요.
부록 A: 팀 회의에서 바로 쓰는 점검 질문 15개
- 이 자동화는 실패했을 때 누가 멈출 수 있는가?
- 실패를 10분 안에 탐지할 수 있는가?
- 롤백 절차가 문서화되어 있는가?
- 담당자 부재 시 대체 승인자는 누구인가?
- 입력 데이터 품질을 사전에 검사하는가?
- 출력 결과의 금지 조건을 정의했는가?
- 고위험 액션은 최소 권한으로 제한했는가?
- 비용 상한과 호출 상한이 존재하는가?
- 동일 이슈 재발 시 참고할 회고 문서가 있는가?
- KPI가 도입 목적과 연결되어 있는가?
- 자동화율만이 아니라 품질 안정성도 측정하는가?
- 예외 케이스를 분리 운영하는가?
- 배포 전 회귀 테스트 세트가 있는가?
- 외부 입력을 untrusted로 분류하는가?
- 다음 개선 항목이 백로그로 관리되는가?
부록 B: 실패 사례를 줄이는 문장 규칙
- 주어와 행동을 명확히 쓴다. (누가 무엇을 언제)
- 추상 표현을 숫자로 바꾼다. (빠르게 → 24시간 이내)
- 정책은 예외 조건까지 같이 쓴다.
- 체크리스트는 완료 기준을 포함한다.
- 지표는 측정 주기와 담당자를 함께 적는다.
부록 C: 샘플 운영 템플릿
목표
이번 주 목표는 자동화율 100%가 아니라, 재작업률 20% 감소로 설정한다.
범위
고객 영향이 낮은 업무 1개를 대상으로 한다. (예: 내부 리포트 초안)
지표
- 작업당 평균 소요 시간
- 재수정 횟수
- 승인 반려율
- 정책 위반 차단 건수
종료 조건
2주 후 지표가 개선되지 않으면 범위를 줄이거나 설계를 재검토한다.
다음 액션
- 오늘: 템플릿 확정
- 내일: 샘플 20건 테스트
- 이번 주 금요일: 실패 사례 리뷰
결국 운영의 성패는 거대한 전략보다 작은 기준의 반복에 달려 있습니다. 문서화된 기준, 측정 가능한 지표, 반복 가능한 검증 루프가 있으면 팀 생산성은 시간이 갈수록 누적됩니다.