Google Antigravity 에이전트 검증법: 로그 대신 Artifacts로 리뷰하는 개발 흐름

요약: Google Antigravity는 에디터, 터미널, 브라우저를 오가며 에이전트를 실행하는 개발 플랫폼입니다. 핵심은 agent가 만든 결과를 raw log가 아니라 screenshots, recordings, task list, implementation plan 같은 Artifacts로 검증하게 한다는 점입니다. 이 접근은 다른 coding agent를 쓰는 팀에도 바로 적용할 수 있습니다.

Antigravity가 말하는 문제

AI coding agent를 쓰면 작업 로그가 길어집니다. 어떤 파일을 읽었고, 어떤 명령을 실행했고, 어떤 에러가 났고, 어떤 diff를 만들었는지 모두 남습니다. 하지만 실제 리뷰어가 보고 싶은 것은 로그 전체가 아닙니다. '요구사항을 만족했는가', 'UI가 깨지지 않았는가', '테스트가 통과했는가', '위험한 변경이 있는가'입니다.

Google Antigravity는 이 문제를 Manager Surface와 Artifacts로 풀겠다고 설명합니다. Editor View는 기존 IDE에 가깝고, Manager Surface는 여러 agent를 비동기로 실행하고 관찰하는 공간입니다. agent는 코드 수정뿐 아니라 브라우저 테스트, 터미널 실행, 스크린샷, walkthrough, task list 같은 산출물을 남깁니다.

여기서 배울 점은 특정 제품 기능보다 검증 방식입니다. agent 시대의 리뷰는 diff만 보는 것으로 부족합니다. 실행 증거와 의사결정 기록이 같이 있어야 합니다.

Artifacts가 필요한 이유

로그는 낮은 수준의 사실을 많이 담습니다. 그러나 사람이 빠르게 판단하기 어렵습니다. 반대로 Artifact는 의사결정에 필요한 형태로 압축된 결과입니다. 예를 들어 UI 변경 작업이라면 다음 Artifact가 필요합니다.

변경 전후 스크린샷
주요 user flow 녹화
접근성 체크 결과
테스트 실행 결과
변경 파일 요약
남은 리스크

백엔드 작업이라면 다릅니다.

API 요청·응답 예시
migration dry-run 결과
쿼리 수 before/after
부하 테스트 결과
rollback 방법
모니터링 지표 확인 항목

즉 Artifact는 작업 유형별로 달라야 합니다. 모든 작업에 같은 보고서를 요구하면 형식만 남고 품질은 떨어집니다.

팀에 적용할 최소 규칙

Antigravity를 쓰지 않아도 Artifact 중심 리뷰는 적용할 수 있습니다. GitHub PR, Linear ticket, Notion, Slack thread, Discord thread 어디든 됩니다. 핵심은 agent에게 '작업 완료 보고' 형식을 고정하는 것입니다.

추천 기본 형식은 다음과 같습니다.

완료한 일:
- [핵심 변경 3~5개]

검증 증거:
- 테스트: [명령과 결과]
- 빌드: [명령과 결과]
- UI: [스크린샷/녹화 링크 또는 경로]
- API: [요청/응답 샘플]

리뷰 포인트:
- [사람이 꼭 봐야 할 파일/결정]

남은 리스크:
- [알려진 한계 또는 후속 작업]

되돌리는 방법:
- [revert, feature flag, config rollback 등]

이 형식은 agent가 만든 결과를 사람이 5분 안에 판단할 수 있게 합니다. 모든 tool call을 읽지 않아도 됩니다. 대신 증거가 빈약하면 머지하지 않는 규칙을 세울 수 있습니다.

UI 작업에서의 Artifact 예시

프론트엔드 UI 작업은 Artifact 효과가 특히 큽니다. agent가 '완료했습니다'라고 말해도 실제 브라우저에서 버튼이 잘렸거나, 모바일 폭에서 깨졌거나, focus state가 사라진 경우가 많습니다.

UI 작업에는 최소 4개 증거를 요구하세요.

데스크톱 스크린샷
모바일 폭 스크린샷
주요 flow 짧은 녹화 또는 단계별 설명
accessibility 또는 keyboard navigation 체크

예를 들어 checkout page를 수정했다면 결제 성공 화면만 찍으면 안 됩니다. 실패 상태, loading 상태, 빈 장바구니, 모바일 화면도 확인해야 합니다. agent에게 처음부터 이 state 목록을 주면 산출물 품질이 올라갑니다.

백엔드 작업에서의 Artifact 예시

백엔드는 UI처럼 눈에 보이지 않습니다. 그래서 더 명시적인 증거가 필요합니다.

API 변경 작업이라면 요청과 응답 샘플을 남겨야 합니다. 기존 response shape이 유지되는지, error code가 바뀌지 않았는지, pagination이나 sorting이 그대로인지 확인해야 합니다. 성능 개선 작업이라면 before/after 지표가 있어야 합니다. 쿼리 수, p95 latency, 메모리 사용량처럼 숫자로 확인 가능한 항목이 좋습니다.

DB migration은 더 엄격해야 합니다. dry-run 결과, rollback SQL 또는 down migration, 백업 여부, 예상 lock time을 Artifact에 넣어야 합니다. agent가 migration을 만들 수는 있지만, production 적용 판단은 사람이 해야 합니다.

agent에게 줄 프롬프트

Artifact 중심으로 일하게 하려면 작업 시작 프롬프트부터 달라야 합니다.

이 작업은 코드 변경뿐 아니라 리뷰 가능한 Artifact 제출까지 완료로 본다.
작업 후 다음을 남겨라.
1. 변경 요약
2. 검증 명령과 결과
3. UI 작업이면 데스크톱/모바일 스크린샷 경로
4. API 작업이면 요청/응답 예시
5. 사람이 리뷰해야 할 위험 파일
6. 되돌리는 방법
증거를 만들 수 없으면 완료라고 말하지 말고, 무엇이 막혔는지 적어라.

이 문장을 넣는 것만으로도 agent의 완료 기준이 바뀝니다. '코드를 수정했다'에서 '검증 가능한 결과를 제출했다'로 기준이 올라갑니다.

체크리스트

작업 유형별로 필요한 Artifact를 정했는가
agent 완료 조건에 검증 증거 제출을 포함했는가
UI 작업은 스크린샷과 주요 flow 확인을 요구했는가
API 작업은 요청·응답 예시와 호환성 체크를 요구했는가
DB 작업은 dry-run, rollback, lock risk를 요구했는가
PR 리뷰어가 5분 안에 판단할 수 있는 요약 형식을 만들었는가
증거가 없으면 완료로 인정하지 않는 규칙이 있는가

출처: Google Developers Blog의 Antigravity 소개를 바탕으로 agent 리뷰 프로세스에 적용할 수 있게 정리했습니다.