문서 검색형 AI를 운영해 본 팀이라면 다 비슷한 순간을 겪습니다. 답변은 그럴듯한데 정작 원하는 문서를 못 집고, 이미지·PDF·슬라이드가 섞이면 검색 품질이 급격히 떨어집니다. 특히 멀티모달 데이터가 늘수록 파이프라인은 복잡해지는데, 검색 정확도는 오히려 더 흔들립니다. 이때 많은 팀이 생성 모델 프롬프트를 계속 만지지만, 병목은 대개 retrieval 층에 있습니다.
Google이 공식 기술 글에서 소개한 Gemini Embedding 2는 이 지점에서 꽤 실용적인 옵션입니다. 핵심은 텍스트, 이미지, 비디오, 오디오, 문서(PDF)를 하나의 embedding space에 넣는다는 점입니다. 공식 설명 기준으로 한 번의 호출에서 최대 8,192 text tokens, 이미지 6개, 영상 120초, 오디오 180초, PDF 6페이지를 다룰 수 있고, 100개 이상의 언어를 지원합니다.
이 스펙만 보면 "멀티모달이네" 정도로 지나가기 쉽지만, 실무 포인트는 따로 있습니다. 데이터 형식이 다른 자료를 같은 검색 좌표계 안에 넣을 수 있다면, RAG 품질을 올리는 핵심이 프롬프트보다 인덱싱 전략으로 이동합니다.
기존 텍스트 중심 RAG는 보통 이런 흐름으로 망가집니다.
특히 사내 위키, 슬라이드, 보고서, 매뉴얼, 스크린샷이 섞인 환경에서는 텍스트 추출만으로 중요한 문맥이 자주 날아갑니다. 그래서 검색이 안 맞으면 생성 모델이 거짓으로 메우기 시작합니다.
Google 글에서 핵심으로 봐야 할 부분은 두 가지입니다.
첫째, interleaved input 지원입니다. 텍스트와 이미지를 한 요청 안에 함께 넣어 하나의 embedding으로 만들 수 있습니다. 예를 들어 "에러 상태의 대시보드 스크린샷"과 "사용자 보고 문장"을 같이 표현하는 식입니다. 이건 UI 문서 검색, 시각 QA, 디자인 자산 검색에서 꽤 강력합니다.
둘째, task prefix 전략입니다. Google은 agentic retrieval, question answering, fact checking, code retrieval, search result, clustering, classification 같은 목적별 prefix를 붙여 embedding을 최적화하라고 제안합니다. 이게 중요합니다. 임베딩 모델은 하나여도 검색 의도에 맞게 query와 document 표현을 다듬어야 성능이 오릅니다.
공식 사례도 꽤 구체적입니다. Harvey는 이전 임베딩 대비 Recall@20 precision이 3% 상승했다고 밝혔고, Supermemory는 Recall@1이 40% 증가했다고 소개됐습니다. Nuuly의 시각 검색 도입 사례에서는 Match@20이 60%에서 거의 87%로, 전체 상품 식별률은 74%에서 90% 이상으로 올랐다고 설명합니다. 물론 이 수치는 각 서비스의 데이터셋과 파이프라인에 크게 좌우되므로 그대로 복제되진 않습니다. 하지만 "임베딩 교체가 실제 검색 품질 차이로 이어질 수 있다"는 근거로는 충분합니다.
많은 팀이 임베딩 모델만 바꾸면 품질이 올라갈 거라 기대합니다. 그런데 실제로는 인덱싱 설계가 먼저입니다. Gemini Embedding 2를 쓸 때 제가 추천하는 순서는 이렇습니다.
핵심은 "임베딩 모델 바꾸기"가 아니라 "검색 계약 다시 쓰기"입니다.
Gemini Embedding 2는 아래 상황에서 특히 써볼 가치가 있습니다.
반대로 텍스트만 있는 단순 FAQ, 데이터량이 작고 검색 구조가 단순한 서비스라면 큰 차이를 못 느낄 수도 있습니다. 이 경우는 임베딩 모델보다 chunking과 metadata 필터링이 먼저일 수 있습니다.
검색 품질 평가는 "답이 좋아 보이냐" 수준이면 안 됩니다. 최소 아래 항목은 분리해서 봐야 합니다.
검색이 좋아졌는데 답변이 별 차이 없다면, 생성 단계나 컨텍스트 구성 문제가 따로 있을 수 있습니다. 그래서 retrieval 평가와 answer 평가를 같이 봐야 합니다.
Gemini Embedding 2의 가치는 새 모델이 나왔다는 데 있지 않습니다. 멀티모달 RAG를 운영할 때 검색 정확도 개선을 프롬프트보다 retrieval 표현 설계에서 먼저 풀 수 있게 해준다는 점이 더 큽니다. 특히 여러 형식의 자료를 같은 작업 흐름 안에서 찾아야 하는 팀이라면 충분히 검토할 만합니다.
지금 검색형 AI가 자꾸 헛짚는다면 생성 모델을 또 바꾸기 전에 한 번 물어보셔야 합니다. 우리는 답변기를 고치고 있는 걸까요, 아니면 검색기를 방치하고 있는 걸까요.
공식 출처: Google Developers Blog, Building with Gemini Embedding 2: Agentic multimodal RAG and beyond (2026-04-30)