EVA-Bench 2.0 공개: 보이스 에이전트 평가가 단순 데모를 넘어선 이유

보이스 에이전트는 데모에서는 자주 그럴듯해 보입니다. 문제는 실제 업무 전화로 들어가면 실패 지점이 갑자기 늘어난다는 데 있습니다. 예약번호 한 글자를 잘못 듣거나, 인증 절차를 건너뛰거나, 정책상 불가능한 요청을 가능하다고 말하면 사용자는 바로 신뢰를 잃습니다. ServiceNow AI가 Hugging Face에 공개한 EVA-Bench Data 2.0은 이 문제를 정면으로 다룹니다. 핵심은 “대화를 잘한다”가 아니라 “업무 상태를 정확히 바꾼다”를 평가한다는 점입니다.

이번 공개에서 눈에 띄는 숫자는 3개 도메인, 121개 도구, 213개 시나리오입니다. 기존 항공 고객 서비스 중심 평가에서 Enterprise IT Service Management, Healthcare HR Service Delivery까지 확장됐고, 시나리오 커버리지는 약 4배 늘었습니다. 각 데이터셋은 Hugging Face datasets로 바로 불러올 수 있고, MIT 라이선스로 공개됐습니다. 개발팀 입장에서는 벤치마크 논문을 읽는 데서 끝나는 자료가 아니라, 실제 평가 파이프라인에 넣어볼 수 있는 샘플이라는 점이 중요합니다.

왜 보이스 에이전트 평가는 일반 챗봇 평가와 다를까

텍스트 챗봇 평가는 답변의 정확성, 유해성, 문체, 도구 호출 성공률을 주로 봅니다. 보이스 에이전트는 여기에 음성 인식 오류, 턴테이킹, 인증, 사용자 재확인, 최종 업무 처리까지 얹힙니다. 사용자가 “비행편을 바꿔줘”라고 말했을 때 좋은 답변을 생성하는 것과 실제 예약 상태를 올바르게 변경하는 것은 다른 문제입니다.

EVA-Bench 2.0이 강조하는 부분도 여기에 있습니다. 각 시나리오는 사용자 목표, 초기 데이터베이스 상태, 기대 최종 데이터베이스 상태를 포함합니다. 즉 평가 기준이 “친절하게 말했는가”가 아니라 “정해진 정책과 권한 안에서 올바른 write action을 수행했는가”로 내려옵니다. 실무에서는 이 차이가 큽니다. 콜센터 자동화, 사내 IT 헬프데스크, HR 상담처럼 데이터 변경이 들어가는 업무는 말솜씨보다 상태 전이가 중요합니다.

213개 시나리오가 주는 실무 신호

이번 버전은 Airline CSM 50개, Enterprise ITSM 80개, Healthcare HRSD 83개 시나리오로 구성됩니다. 단순 문의만 있는 것도 아닙니다. 단일 의도, 최대 4개 의도가 섞인 다중 의도, 사용자가 정책을 우회하려는 adversarial call, 목표 자체가 충족 불가능한 케이스까지 포함합니다.

실무 개발자에게 유용한 부분은 “불가능한 요청”을 평가한다는 점입니다. 많은 에이전트는 가능한 업무보다 불가능한 업무에서 더 위험해집니다. 사용자가 권한이 없는 기록을 보려고 하거나, 긴급도를 부풀리거나, 인증을 회피하면 모델은 대화를 매끄럽게 이어가기 위해 정책을 어길 수 있습니다. 그래서 보이스 에이전트 QA에서는 happy path만 돌리면 안 됩니다. 실패해야 하는 요청을 제대로 실패시키는지 확인해야 합니다.

인증과 재현성이 핵심 평가 축이 된 이유

EVA-Bench는 인증을 중요한 실패 지점으로 봅니다. 실제 전화 업무에서는 고객명, 이메일, 직원 ID, OTP, 보험 정보, 예약번호처럼 구조화된 값을 음성으로 주고받습니다. 모델이 숫자 하나를 놓치면 다음 도구 호출이 틀어지고, 사용자는 그 사실을 뒤늦게 발견합니다.

또 하나의 핵심은 재현성입니다. 같은 시나리오를 돌릴 때마다 사용자가 임의로 다르게 행동하면 평가 점수는 흔들립니다. EVA-Bench는 사용자 목표를 decision tree처럼 구성해 사용자가 언제 밀어붙이고, 언제 대안을 받아들이고, 어떤 증거가 있어야 통화를 끝내는지 명시합니다. 이 방식은 내부 QA에도 그대로 적용할 수 있습니다. “비밀번호 초기화 테스트”처럼 이름만 적지 말고, 사용자 발화 조건, 허용 정책, 도구 상태, 성공 증거를 분리해서 작성해야 합니다.

개발팀은 EVA-Bench를 어떻게 활용할 수 있나

첫 번째 용도는 회귀 테스트입니다. 보이스 에이전트 프롬프트, ASR 모델, 도구 스키마, 정책 문구를 바꿀 때마다 같은 시나리오를 반복 실행하면 변경의 부작용을 잡을 수 있습니다. 특히 인증 실패율, 불가능한 목표 처리율, write tool 정확도를 따로 기록해야 합니다.

두 번째 용도는 자체 데이터셋 설계 참고입니다. ServiceNow 팀은 시나리오 데이터베이스와 사용자 목표, 기대 최종 상태를 함께 생성하고 검증합니다. 이 구조를 따라가면 “테스트 대화 로그 몇 개”보다 훨씬 견고한 평가셋을 만들 수 있습니다. 고객센터, 예약, 정산, 내부 승인처럼 상태 변경이 있는 업무라면 대화 품질 점수보다 최종 상태 검증을 먼저 넣는 편이 낫습니다.

세 번째 용도는 다국어 출시 전 점검입니다. EVA-Bench는 영어 외 언어 확장도 예고했습니다. 한국어 보이스 에이전트라면 단순 번역으로 충분하지 않습니다. 전화번호 형식, 이름 발음, 기관명, 지역명, 존댓말, 사용자의 우회 표현까지 현지화해야 합니다.

도입 전에 볼 체크포인트

EVA-Bench 2.0은 보이스 에이전트 시장이 “말을 잘하는 모델”에서 “업무를 안전하게 끝내는 시스템”으로 이동하고 있다는 신호입니다. 개발팀은 모델 이름보다 평가 설계를 먼저 봐야 합니다. 특히 음성 기반 업무 자동화는 프롬프트만 좋아져서 해결되지 않습니다. 도구 스키마, 인증 절차, 정책 표현, 상태 검증, 실패 케이스가 함께 있어야 합니다.

실행 체크리스트입니다.

현재 보이스 에이전트의 성공 기준을 답변 점수가 아니라 최종 DB 상태로 정의합니다.
happy path와 함께 인증 실패, 권한 없음, 정책상 불가, 다중 의도 시나리오를 만듭니다.
사용자 목표, 초기 상태, 기대 최종 상태를 한 세트로 관리합니다.
모델 변경, 프롬프트 변경, 도구 스키마 변경마다 같은 시나리오를 재실행합니다.
한국어 서비스라면 이름, 번호, 기관명, 존댓말, 지역 표현을 현지화한 별도 평가셋을 만듭니다.
보이스 에이전트 출시 전에는 “잘 답했는가”보다 “잘 거절했는가”를 반드시 확인합니다.