LLM-as-a-judge 강화학습 운영법: RFT 보상 함수를 망치지 않는 6단계

왜 강화학습 미세조정이 항상 데이터 양보다 보상 함수에서 먼저 무너지나

LLM을 특정 업무에 맞게 다듬으려는 팀이 가장 자주 착각하는 지점이 있습니다. 좋은 데이터만 많이 넣으면 정렬(alignment)이 해결된다고 보는 겁니다. 실제 운영에서는 반대인 경우가 많습니다. 데이터는 충분한데 보상 함수가 흐리거나 불안정해서 모델이 엉뚱한 방향으로 최적화됩니다. AWS의 기술 글인 Reinforcement fine-tuning with LLM-as-a-judge(https://aws.amazon.com/blogs/machine-learning/reinforcement-fine-tuning-with-llm-as-a-judge/)가 실무적으로 중요한 이유가 여기 있습니다. 이 글은 강화학습 미세조정(RFT)에서 LLM-as-a-judge를 어떻게 설계해야 운영 가능한 보상 체계가 되는지 꽤 구체적으로 정리합니다.

원문은 RLVR 같은 검증 가능한 규칙 기반 보상만으로는 부족한 업무가 많다고 봅니다. 정확성, 어조, 안전성, 관련성처럼 사람이 종합적으로 판단하는 차원을 다뤄야 할 때는 별도의 언어모델이 심판 역할을 하는 RLAIF가 유용합니다. 다만 이 방식은 “심판 모델도 모델”이라는 문제가 있습니다. 잘못 만들면 학습 대상 모델보다 judge가 먼저 흔들립니다.

LLM-as-a-judge가 매력적인 이유와 동시에 위험한 이유

매력은 분명합니다. 숫자 매칭이나 문자열 일치 같은 단순 규칙보다 훨씬 풍부한 평가가 가능합니다. 예를 들어 법률 요약, 고객 응대, 정책 검토, 코드 리뷰 초안처럼 품질 기준이 다차원적인 업무에서는 judge 모델이 correctness, tone, safety, relevance를 동시에 볼 수 있습니다. 원문도 이런 장점을 강조합니다.

하지만 위험도 명확합니다. judge 프롬프트가 애매하면 점수가 흔들리고, 모델이 점수 패턴을 해킹하면 실제 품질보다 보상 최적화가 앞서갑니다. 다시 말해 LLM-as-a-judge는 보상을 더 똑똑하게 만들지만, 동시에 보상 시스템을 더 복잡하게 만듭니다.

실무적으로는 “사람 평가를 자동화했다”가 아니라 “사람 평가를 흉내 내는 새로운 시스템을 하나 더 운영하게 됐다”로 이해하는 게 맞습니다.

첫 번째 결정: rubric 기반인지 preference 기반인지 먼저 갈라야 한다

AWS 글은 judge 방식을 크게 두 가지로 나눕니다. 하나는 rubric 기반입니다. 응답 하나를 정해진 기준으로 점수화합니다. 다른 하나는 preference 기반입니다. 두 응답을 나란히 놓고 더 나은 쪽을 고릅니다.

이 선택은 취향 문제가 아닙니다.

기준이 분명하고 관측 가능한 업무라면 rubric 기반이 낫습니다.
비교 예시가 충분하고 상대평가가 더 자연스러운 업무라면 preference 기반이 낫습니다.

예를 들어 고객 응대 문안처럼 어조와 정책 준수 여부를 같이 보려면 rubric 기반의 불리언 혹은 제한된 차원 점수가 관리하기 쉽습니다. 반대로 창의적 문안, 다안(多案) 생성, 리라이트 후보 비교처럼 “둘 중 뭐가 더 낫나”가 자연스러운 업무는 preference 기반이 더 잘 맞을 수 있습니다.

원문이 rubric 기반에서는 1~10 점수보다 pass/fail 같은 불리언 채점을 추천하는 것도 실무적으로 옳습니다. 세밀한 점수는 그럴싸해 보이지만 judge 변동성을 키우기 쉽습니다.

두 번째 결정: 평가 기준은 사람이 읽어도 합의 가능한 언어로 써야 한다

judge 품질은 프롬프트 기술보다 평가 기준 설계에서 갈립니다. “좋은 답변을 골라라” 수준이면 거의 실패합니다. 원문이 강조하듯 각 기준은 관찰 가능한 문장으로 떨어져야 합니다.

예를 들면 이런 차이가 있습니다.

나쁜 기준: 신뢰할 수 있고 좋은 답변
좋은 기준: 사용자의 질문에 직접 답했는가, 근거 출처를 제시했는가, 금지된 정책 표현이 없는가, 불필요하게 장황하지 않은가

이 차이가 중요한 이유는 학습 중 오류 분석을 하기 위해서입니다. 보상 체계가 흐리면 모델이 왜 좋아졌는지, 왜 망가졌는지 설명할 수 없습니다. 결국 운영 가능한 RFT는 “좋은 점수”보다 “설명 가능한 점수”가 더 중요합니다.

세 번째 결정: judge 모델은 최고성능보다 일관성이 중요하다

원문은 복잡한 도메인에는 더 강한 judge가 유리하다고 말하면서도, 코딩이나 수학처럼 비교적 구조가 분명한 영역은 더 작은 모델도 잘 설계하면 쓸 수 있다고 설명합니다. 이건 비용 문제이기도 하지만 운영 문제이기도 합니다.

judge는 한 번만 호출하는 모델이 아닙니다. 학습 과정에서 수천 번, 수만 번 호출될 수 있습니다. 따라서 아래 세 가지를 같이 봐야 합니다.

추론 품질
점수 일관성
비용과 지연시간

judge가 아주 똑똑해도 호출비가 감당이 안 되면 학습 실험이 느려집니다. 반대로 너무 싼 judge가 점수를 흔들면 학습 품질이 무너집니다. 그래서 초반에는 최고성능 모델 하나보다, 중간급 모델 + 엄격한 출력 포맷 + 회귀 테스트 조합이 더 나은 경우가 많습니다.

네 번째 결정: judge 출력은 자연어가 아니라 파싱 가능한 계약으로 받아야 한다

원문은 JSON 같은 구조화 출력을 권장합니다. 이유는 단순합니다. judge가 이유를 길게 써주는 건 디버깅에는 도움이 되지만, 학습 파이프라인은 결국 안정적으로 점수를 뽑아야 합니다.

좋은 judge 출력 계약은 보통 이런 요소를 가집니다.

각 평가 차원의 점수 또는 pass/fail
최종 합성 점수
간단한 rationale
edge case 처리 규칙

특히 edge case 규칙이 중요합니다. 빈 응답, 규격 위반 응답, 금지 주제 응답에 어떤 점수를 줄지 미리 박아두지 않으면 학습 중 예외가 폭발합니다.

다섯 번째 결정: LLM judge 하나만 믿지 말고 결정론적 필터를 앞단에 둬야 한다

AWS 글의 핵심 중 하나가 바로 이 부분입니다. 원문은 format correctness, length penalty, language consistency, safety filter 같은 빠른 규칙을 먼저 두라고 권합니다. 이게 왜 중요하냐면, 비싼 judge 호출을 줄일 뿐 아니라 명백한 실패를 초기에 차단하기 때문입니다.

실무적으로는 아래 순서가 좋습니다.

JSON 스키마 검증
길이 상한/하한 확인
금지 표현 또는 안전 규칙 확인
언어 일치 여부 확인
그다음에만 LLM judge 호출

이 구조를 쓰면 judge는 애매하고 고차원적인 품질 판단에 집중하고, 명백한 실패는 값싼 룰이 처리합니다. 비용과 안정성 모두 좋아집니다.

여섯 번째 결정: judge도 테스트 대상이다

많은 팀이 여기서 멈춥니다. 그러나 진짜 실무는 judge를 만든 뒤 시작됩니다. 원문도 consistency, cross-judge comparison, human calibration, regression test를 권합니다. 이건 필수에 가깝습니다.

judge 테스트 세트에는 최소한 다음이 들어가야 합니다.

명백히 좋은 예시
명백히 나쁜 예시
애매한 경계 사례
정책 위반 사례
포맷 위반 사례

같은 샘플을 여러 번 넣었을 때 점수 편차가 큰지, 다른 judge 모델과 비교했을 때 맹점이 있는지, 사람 샘플링 평가와 얼마나 어긋나는지 계속 봐야 합니다. judge를 검증하지 않는 RFT는 속도만 빠른 블랙박스가 됩니다.

도입 순서: 처음부터 학습보다 보상 회로를 먼저 검증하라

RFT 프로젝트를 시작할 때 가장 좋은 방법은 바로 대규모 학습을 돌리는 게 아닙니다. 먼저 후보 응답 몇백 개를 모아서 reward pipeline만 독립적으로 돌려보는 겁니다. 이 단계에서 judge 변동성과 규칙 누락이 대부분 드러납니다.

권장 순서는 이렇습니다.

프로덕션 성공 기준을 문장으로 적습니다.
그 기준을 judge 차원으로 매핑합니다.
결정론적 필터를 먼저 넣습니다.
judge 출력 형식을 JSON으로 고정합니다.
수작업 검증 세트로 점수 일관성을 측정합니다.
그다음에야 실제 RFT를 돌립니다.

이 순서를 지키면 학습 실패를 데이터 탓, 모델 탓으로 돌리는 시간을 줄일 수 있습니다.

결론: 정렬은 더 똑똑한 모델이 아니라 더 엄격한 보상 설계에서 나온다

LLM-as-a-judge는 분명 강력합니다. 하지만 잘 만든 judge는 편한 지름길이 아니라 또 하나의 프로덕션 시스템입니다. 원문이 보여주듯 진짜 경쟁력은 심판 모델을 쓰느냐가 아니라, 어떤 기준으로 점수를 만들고, 얼마나 안정적으로 검증하고, 얼마나 값싼 룰과 비싼 judge를 조합하느냐에 있습니다.

RFT를 시작하려는 팀이라면 모델 카드보다 먼저 reward contract 문서를 써보는 게 낫습니다. 그 문서가 부실하면, 학습 예산이 늘어도 품질은 흔들릴 가능성이 큽니다.

실행 체크리스트

업무 특성상 rubric 기반과 preference 기반 중 어느 judge 방식이 맞는지 결정했는가
평가 기준이 추상어가 아니라 관찰 가능한 문장으로 정의돼 있는가
judge 출력 형식을 JSON 등 구조화된 계약으로 고정했는가
포맷 검증, 길이 규칙, 안전 필터 같은 결정론적 보상을 앞단에 뒀는가
judge 점수 일관성, 사람 보정, 회귀 테스트 세트를 운영할 계획이 있는가
프로덕션 성공 지표와 reward 차원이 실제로 연결돼 있는가
대규모 학습 전에 reward pipeline만 별도로 검증해볼 샘플 세트를 준비했는가