MCO 멀티 에이전트 코드리뷰: Claude·Codex·Gemini를 함께 쓰는 실전 워크플로우

AI 코딩 에이전트를 하나만 고르는 시대는 빨리 끝나고 있습니다. Claude Code, Codex CLI, Gemini CLI, OpenCode, Qwen Code처럼 각 도구가 잘하는 영역이 다르고, 같은 코드도 모델마다 놓치는 부분이 다릅니다. MCO는 이 문제를 정면으로 다룹니다. 하나의 프롬프트를 여러 에이전트에 병렬로 보내고, 결과를 합치고, 중복을 제거하고, 합의 수준까지 계산하는 오케스트레이션 레이어입니다.

이 글은 MCO 멀티 에이전트 코드리뷰를 실무 팀에 붙이는 방법을 정리합니다. 핵심 키워드는 MCO, 멀티 에이전트 코드리뷰, Claude Code Codex Gemini 병렬 리뷰, AI 코드리뷰 자동화입니다.

왜 한 모델 리뷰만으로 부족한가

코드리뷰에서 중요한 것은 정답 하나가 아닙니다. 보안 취약점, 비동기 race condition, 성능 병목, 유지보수성, 테스트 누락은 서로 다른 관찰력을 요구합니다. 한 모델이 SQL injection을 잘 찾지만 async cleanup 문제를 놓칠 수 있고, 다른 모델은 타입 설계 문제를 잘 보지만 인증 우회 조건을 놓칠 수 있습니다.

MCO README가 강조하는 관점도 이와 같습니다. 한 명의 엔지니어에게만 리뷰를 맡기는 대신 여러 명에게 같은 PR을 보여주고, 공통으로 지적한 문제와 한 명만 지적한 문제를 나눠 보는 방식입니다. AI 도구를 “누가 제일 좋은가”로 고르는 대신 “어떤 조합이 놓치는 영역을 줄이는가”로 보는 접근입니다.

실무에서는 이 차이가 큽니다. 단일 에이전트 리뷰는 빠르지만 확신이 애매합니다. 멀티 에이전트 리뷰는 비용이 더 들 수 있지만, 배포 전 큰 사고를 잡는 용도라면 충분히 값어치가 있습니다. 특히 인증, 결제, 권한, 개인정보, 마이그레이션, 동시성 코드에서는 여러 관점이 필요합니다.

MCO가 제공하는 기본 구조

MCO는 Claude Code, Codex CLI, Gemini CLI, OpenCode, Qwen Code 같은 CLI 에이전트를 provider로 다룹니다. 사용자는 mco review 또는 mco run 형태로 작업을 보내고, MCO는 선택한 provider에 병렬로 실행합니다. 결과는 JSON, SARIF, PR-ready Markdown 같은 형태로 받을 수 있습니다.

기능을 실무 언어로 바꾸면 다음과 같습니다.

병렬 fan-out: 여러 에이전트가 동시에 리뷰하므로 대기 시간은 대체로 가장 느린 에이전트 기준입니다.
중복 제거: 같은 이슈를 여러 모델이 지적하면 하나로 합치고 detected_by를 남깁니다.
consensus score: 몇 개 모델이 동의했는지와 confidence를 바탕으로 우선순위를 잡습니다.
debate mode: 1차 결과를 다시 모델들이 비판하게 만들어 과한 지적을 줄입니다.
divide mode: 파일별 또는 리뷰 차원별로 일을 나눕니다.
SARIF 출력: GitHub Code Scanning 같은 보안 워크플로우에 연결할 수 있습니다.

이 구조는 “AI가 리뷰 코멘트를 달아준다”보다 한 단계 위입니다. 팀의 리뷰 기준을 기계가 반복 실행하게 만들고, 사람 리뷰어는 높은 우선순위 이슈를 판단하는 역할로 이동합니다.

추천 워크플로우: PR 생성 전 로컬 리뷰

가장 먼저 붙이기 쉬운 위치는 PR 생성 전 로컬 리뷰입니다. 개발자가 feature branch에서 작업을 끝낸 뒤 MCO로 변경 사항을 리뷰하고, 명확한 문제를 고친 다음 PR을 올리는 방식입니다. 이 단계에서는 빠른 피드백이 중요하므로 2~3개 provider만 쓰는 것이 적당합니다.

예시 흐름은 다음과 같습니다. 먼저 변경 diff를 기준으로 security, correctness, maintainability 관점을 요청합니다. 결과를 Markdown으로 받고, confirmed 또는 needs-verification 수준의 항목만 고칩니다. unverified 항목은 PR 설명에 “AI review note”로 남기거나 무시합니다.

이 단계의 장점은 사람 리뷰어 시간을 아끼는 것입니다. 린트 오류, 누락된 null 처리, 명백한 테스트 누락, 위험한 로그 출력처럼 반복 지적되는 항목을 PR 전에 제거할 수 있습니다. 단점은 개발자가 AI 결과를 과신할 수 있다는 점입니다. 그래서 MCO 결과를 자동 수정 명령으로 바로 연결하기보다, 수정 전 사람이 한 번 읽게 하는 편이 안전합니다.

추천 워크플로우: 민감 PR에 대한 CI 보안 리뷰

두 번째 위치는 CI입니다. 모든 PR에 멀티 에이전트 리뷰를 돌리면 비용과 시간이 커질 수 있습니다. 대신 민감 파일이 바뀔 때만 실행하는 것이 현실적입니다. 예를 들어 auth, billing, permissions, migrations, infrastructure, ci, package manager, crypto 관련 경로가 바뀌면 MCO 리뷰를 실행합니다.

이때는 SARIF 출력이 유용합니다. GitHub Code Scanning에 올리면 보안 이슈를 코드 위치와 함께 추적할 수 있습니다. 다만 AI 리뷰 결과를 merge blocking으로 바로 쓰는 것은 조심해야 합니다. false positive가 있으면 팀이 금방 무시하게 됩니다. 초기에는 advisory로 운영하고, 2~4주간 결과를 본 뒤 blocking 조건을 좁히는 방식이 낫습니다.

CI 리뷰 프롬프트에는 반드시 범위를 적어야 합니다. “이 PR에서 인증 우회, 권한 상승, 민감정보 로그, SSRF, SQL injection, 경로 traversal, race condition 가능성을 찾아라. 스타일 의견은 제외하라.”처럼 구체적으로 제한해야 합니다. 그렇지 않으면 모델이 리팩터링 취향까지 지적해 노이즈가 늘어납니다.

provider별 역할을 나누는 방법

멀티 에이전트의 실전 가치는 모두에게 같은 질문을 던지는 데서만 나오지 않습니다. provider별 관점을 다르게 주면 더 좋습니다. 예를 들어 Claude에는 요구사항 일치와 유지보수성을 맡기고, Codex에는 실제 diff와 테스트 관점을 맡기고, Gemini에는 대규모 context와 문서 불일치를 맡기는 식입니다.

MCO의 perspectives-json이나 divide dimensions 같은 기능은 이런 설계에 맞습니다. 보안, 성능, 유지보수성, 정확성, 에러 처리로 리뷰 차원을 나누면 중복 코멘트가 줄고 결과가 읽기 쉬워집니다.

중요한 것은 provider를 많이 붙이는 것보다 질문을 잘게 나누는 것입니다. “코드 봐줘”는 거의 항상 나쁜 프롬프트입니다. “이 diff에서 사용자 입력이 DB 쿼리, 파일 경로, 외부 URL 호출로 흐르는 경로를 추적해라”처럼 관찰 대상을 좁히면 모델 간 차이가 더 유용해집니다.

결과를 믿는 기준: 합의와 재현성

MCO는 consensus_score와 consensus_level을 제공합니다. 여러 모델이 같은 이슈를 찾으면 우선순위를 높게 볼 수 있습니다. 하지만 합의가 항상 정답은 아닙니다. 쉬운 문제는 여러 모델이 같이 찾고, 어려운 문제는 한 모델만 지적할 수 있습니다. 그래서 결과를 세 단계로 처리하는 것이 좋습니다.

첫째, confirmed 항목은 바로 재현하거나 수정합니다. 둘째, needs-verification 항목은 테스트나 로그로 확인합니다. 셋째, unverified 항목은 보류하되 같은 유형이 반복되면 규칙으로 승격합니다.

또한 AI 리뷰가 지적한 문제는 가능하면 테스트로 바꿔야 합니다. “권한 없는 사용자가 다른 사용자의 주문을 볼 수 있다”는 지적이 맞다면, 수정 후에는 regression test를 추가해야 합니다. 그렇지 않으면 다음 PR에서 같은 문제가 반복됩니다.

팀에 도입할 때의 주의점

MCO 같은 도구를 도입할 때 가장 흔한 실패는 결과를 너무 많이 생성하는 것입니다. 리뷰 코멘트 60개가 달리면 아무도 읽지 않습니다. 처음에는 changed files 기준, 민감 경로 기준, severity high 기준으로 제한해야 합니다.

두 번째 실패는 AI 리뷰를 사람 리뷰의 대체재로 포장하는 것입니다. AI는 빠른 1차 필터와 관점 확장에 강합니다. 제품 요구사항, 사용자 맥락, 팀 컨벤션, 장기 아키텍처 판단은 여전히 사람이 더 잘합니다. 운영 메시지도 “리뷰어를 줄이자”가 아니라 “사람 리뷰어가 더 중요한 것에 집중하자”가 되어야 합니다.

세 번째 실패는 비용 추적을 안 하는 것입니다. 멀티 에이전트는 편하지만 provider 수가 늘면 토큰 비용과 대기 시간이 증가합니다. MCO의 token usage 추적을 켜고, PR 크기별 비용을 봐야 합니다. 작은 PR에는 1~~2개 provider, 큰 위험 PR에는 3~~5개 provider로 차등 적용하는 것이 좋습니다.

실행 체크리스트

PR 전 로컬 리뷰와 CI 리뷰 중 어디에 먼저 붙일지 정했는가
민감 경로 기준을 auth, billing, infra, package, migration 등으로 정의했는가
provider별 관점을 보안, 정확성, 유지보수성, 성능으로 나눴는가
severity와 consensus 기준으로 노이즈를 줄였는가
AI 지적 사항을 테스트로 환원하는 규칙이 있는가
SARIF 또는 PR Markdown 출력으로 기존 리뷰 도구에 연결했는가
false positive를 기록하고 프롬프트를 매주 조정하는가
토큰 비용과 리뷰 시간을 측정하는가

MCO 멀티 에이전트 코드리뷰의 핵심은 더 많은 AI를 쓰는 것이 아닙니다. 서로 다른 관점을 병렬로 모아 사람이 판단하기 좋은 형태로 줄이는 것입니다. 제대로 설계하면 AI 리뷰는 PR을 시끄럽게 만드는 봇이 아니라, 배포 전 놓친 위험을 찾아주는 두 번째 리뷰 테이블이 됩니다.