00:00:00

Share Your Feedback 🏝️

Retrieval | ColPali

Retrieval | ColPali

MinWoo(Daniel) Park | Tech Blog

Read more
Previous: Text to SQL Next: Agentless

Retrieval | ColPali

  • Related Project: Private
  • Category: Paper Review
  • Date: 2024-06-27

ColPali: Efficient Document Retrieval with Vision Language Models

  • url: https://arxiv.org/abs/2407.01449
  • pdf: https://arxiv.org/pdf/2407.01449
  • html: https://arxiv.org/html/2407.01449v2
  • abstract: Documents are visually rich structures that convey information through text, as well as tables, figures, page layouts, or fonts. While modern document retrieval systems exhibit strong performance on query-to-text matching, they struggle to exploit visual cues efficiently, hindering their performance on practical document retrieval applications such as Retrieval Augmented Generation. To benchmark current systems on visually rich document retrieval, we introduce the Visual Document Retrieval Benchmark ViDoRe, composed of various page-level retrieving tasks spanning multiple domains, languages, and settings. The inherent shortcomings of modern systems motivate the introduction of a new retrieval model architecture, ColPali, which leverages the document understanding capabilities of recent Vision Language Models to produce high-quality contextualized embeddings solely from images of document pages. Combined with a late interaction matching mechanism, ColPali largely outperforms modern document retrieval pipelines while being drastically faster and end-to-end trainable.

  1. (문서 검색의 핵심 요소) 문서 검색은 대규모 사전 색인화된 코퍼스 내에서 사용자 쿼리와 관련 문서를 일치시키는 과정으로, 검색 엔진과 검색-증강 생성(RAG) 시스템에서 중요합니다.
  2. (ViDoRe 벤치마크 디자인) 다양한 모달리티와 테마 영역에서 문서의 페이지 수준 일치 능력을 평가하여, 텍스트와 시각적 요소를 통합한 검색 시스템의 성능을 종합적으로 평가합니다.
  3. (후기 상호작용 기반 비전 검색) 텍스트와 이미지 토큰의 출력 임베딩 간의 정렬을 활용하여 문서 검색을 위한 VLM을 적용하고, 다중 벡터 표현과 최대 내적을 통해 쿼리와 문서 간의 관련성을 평가합니다.

1 소개

문서 검색의 맥락과 챌린지

문서 검색은 검색 엔진과 검색-증강 생성(RAG) 시스템과 같은 다양한 응용 프로그램에서 핵심 요소입니다. 이 과정은 사용자 쿼리를 대규모 사전 색인화된 코퍼스 내의 관련 문서와 일치시키는 것을 포함합니다. 이 과정은 대량의 데이터를 처리할 때 색인 생성과 검색 단계에서 높은 효율성을 요구하기 때문에 복잡합니다.

문서 검색을 위한 수학적 모델

검색 효과는 주로 쿼리-페이지 일치 점수로 측정되며, 다음과 같이 계산됩니다. \(s(q, d) = \text{similarity}(q, d)\) \(q\)는 사용자 쿼리이고 \(d\)는 코퍼스 \(\mathcal{D}\)의 문서를 나타냅니다. 이 점수를 최대화하여 가장 관련성 높은 문서를 신속하게 검색하는 것이 목표입니다.

사전 학습된 언어 모델의 기여

사전 학습된 언어 모델은 텍스트 임베딩 기능을 크게 향상시켜 검색 성능을 개선하였습니다. 그러나 주요 병목 현상은 시각적으로 풍부한 문서에 대한 데이터 흡수 파이프라인, 특히 PDF 파싱, 문서 레이아웃 감지, OCR을 통한 텍스트 추출과 같은 단계에서 발생합니다.


2 문제 형식 및 관련 작업

검색 시스템의 효율성

효율적인 검색 시스템은 세 가지 주요 속성을 균형 있게 유지해야 합니다. 높은 검색 성능(R1), 쿼리 중 낮은 대기 시간(R2), 색인 생성 중 높은 처리량(R3). 이런 목표는 사용자 경험이 빠르고 정확한 검색에 달려 있는 실용적인 응용 프로그램에서 중요합니다.

텍스트 검색 방법

전통적인 방법들인 TF-IDF와 BM25는 단순성과 효율성 때문에 여전히 널리 사용됩니다. 그러나, 최근에는 대규모 언어모델을 파인튜닝한 신경 임베딩 모델이 다양한 텍스트 임베딩 작업에서 최고의 성능을 보여주며 검색 순위에서 상위를 차지하고 있습니다.

2.2 시각적 특징 통합

검색에서 시각적 특징 통합

문서 검색을 더욱 향상시키기 위해, 텍스트 내용과 함께 시각적 특징을 통합하는 것이 필수적입니다. 대조적 시각 언어 모델(VLM)은 대조적 손실을 통해 텍스트 및 시각적 표현을 정렬함으로써 시각적으로 풍부한 문서의 검색을 개선합니다.

시각적으로 풍부한 문서 이해

텍스트 토큰과 함께 시각적 또는 문서 레이아웃 기능을 공동으로 인코딩하는 몇몇 문서 중심 모델은 과학 논문이나 비즈니스 문서와 같이 복잡한 문서를 포함하는 작업에 필수적입니다.


3 ViDoRe 벤치마크

3.1 벤치마크 디자인 ViDoRe는 다양한 도메인 및 모달리티에서 쿼리를 관련 문서와 일치시키는 검색 시스템의 능력을 평가하도록 설계되었습니다. 이 벤치마크에는 다음이 포함됩니다.

  • 텍스트: 텍스트 콘텐츠 이해를 위해
  • Figure 및 표: 문서 내 시각적 및 구조화된 데이터 처리 능력 평가

ViDoRe 벤치마크 개요

ViDoRe 벤치마크는 검색 시스템이 쿼리와 관련 문서를 페이지 수준에서 얼마나 정확하게 일치시킬 수 있는지를 종합적으로 평가하기 위해 설계되었습니다. 이 벤치마크는 다양한 모달리티(텍스트, Figure, 인포그래픽, 표), 테마 영역(의료, 비즈니스, 과학, 행정) 및 언어(영어, 프랑스어)를 아우르는 여러 직교 하위 과제를 포함합니다.

학술적 과제

시각적 질문-응답 벤치마크를 검색 과제에 재사용합니다. 페이지-질문-답변 트리플렛 각각에 대해, 질문을 쿼리로 사용하고 연관된 페이지를 골드 문서로 활용합니다(표 1 참조). 이런 학술 데이터셋은 특정 단일 모달리티에 집중하거나(매튜 등, 2020, 2021; 리 등, 2024) 더 다양한 시각적으로 풍부한 문서를 대상으로 합니다(주 등, 2022). 또한, 이번 작업으로 공개된 프랑스 산업 PDF 문서에서 추출된 테이블에 대한 휴먼 레이블이 붙은 TabFQuAD 데이터셋을 고려합니다. 세부 사항은 A.1 소절에서 확인할 수 있습니다.

실용적 과제

재활용된 QA 데이터셋을 넘어서 실제 산업 환경에서의 검색을 평가하기 위해 특정 주제의 검색 벤치마크를 구성합니다(e.g., RAG). 이를 위해 공개적으로 접근 가능한 PDF 문서를 수집하고, 고품질의 소유권 비전-언어 모델(Claude-3 Sonnet, Anthropic, 2024)을 사용하여 문서 페이지에 관한 쿼리를 생성합니다. 총 1,000 페이지의 문서를 각 주제별로 수집하며, 이를 품질과 관련성에 대해 휴먼 검토자가 철저히 필터링한 100개의 쿼리와 연결합니다. 코퍼스의 주제는 문서 간의 구문적 근접성을 극대화하고, 도전적인 검색 과제를 생성하며, 다양한 직교 도메인을 커버하도록 특별히 선정됩니다(표 1 참조). 쿼리-페이지 쌍의 예시는 Appendix E.2에 나와 있습니다.

평가 메트릭

NDCG, Recall@K, MRR과 같은 표준 검색 문헌의 메트릭을 사용하여 벤치마크의 성능을 평가합니다(R1 요구사항). NDCG@5 값을 주요 성능 지표로 보고하며, 모델과 함께 결과의 전체 세트를 공개합니다. 실제 산업 제약 사항을 준수하는지 검증하기 위해, 쿼리 대기 시간(R2)과 색인 처리량(R3)도 고려합니다.

3.2 현재 시스템 평가

비구조화된 데이터 처리

표준 산업용 RAG 파이프라인에서 찾을 수 있는 대표적인 검색 시스템을 평가합니다. 비구조화된(Unstructured) 도구를 사용하여 PDF 문서에서 고품질의 텍스트 덩어리를 구성합니다. 이 도구는 깊은 학습 비전 모델을 활용하여 문서의 제목과 레이아웃을 감지하고, OCR 엔진을 통해 비네이티브 PDF에서 텍스트를 추출합니다. 이어서 테이블을 감지하고 재구성하는 특수 메소드를 적용하고, 감지된 문서 구조를 활용하여 텍스트 패시지를 의미론적으로 일관성 있게 그룹화하는 청킹 전략을 정의합니다. 가장 간단한 비구조화된 구성에서는 텍스트 요소만 유지되며, Figure, 이미지 및 테이블은 노이즈 정보로 간주되어 제거됩니다.

비구조화된 데이터의 시각적 요소 통합

비구조화된 기본선을 넘어 시각적 요소를 통합하여 출력을 향상시킵니다. OCR을 통해 테이블, 차트 및 이미지를 처리하고 독립적으로 청킹합니다. 또한, 강력한 소유권 비전 언어 모델(Claude-3 Sonnet)을 활용하여 시각적 요소에 대한 상세한 텍스트 설명을 얻기 위한 전체 캡셔닝 전략을 설정합니다. 이런 전략은 검색 파이프라인에 시각적 요소를 통합하려고 하지만 상당한 대기 시간과 자원 비용을 발생시킵니다.

임베딩 모델

텍스트 청크를 임베딩하기 위해, 표준 희소 통계적 검색 방법인 Okapi BM25와 최신 다국어 신경 방법인 BGE-M3를 평가합니다. 청크는 독립적으로 임베딩되어 점수화되며, 페이지 수준 점수는 페이지의 청크 점수에 대해 최대 풀링을 통해 얻습니다.

대조적 VLM 평가

가장 강력한 비전-언어 임베딩 모델을 평가합니다; Jina CLIP, Nomic Embed Vision, 그리고 SigLIP-So400m/14. 성능 측면에서는 비구조화된 파서를 시각적 정보와 결합하여 최상의 결과를 얻었습니다. BM25와 BGE-M3 임베딩 간에는 큰 차이가 없으며, 시각적 정보의 병목 현상을 강조합니다. 대조적 VLM은 뒤처집니다. 검색 성능 외에도, PDF 파싱 파이프라인은 OCR 또는 캡셔닝 전략을 포함할 때 길어질 수 있으며, 색인 생성 대기 시간을 보고합니다.


4 후기 상호작용 기반 비전 검색

4.1 아키텍처

문서 이해 능력이 향상된 VLM을 활용하여 검색에 적용할 것을 제안합니다. 텍스트와 이미지 토큰의 출력 임베딩 간의 정렬을 활용하는 것이 주요 개념입니다. 이를 위해 멀티모달 파인튜닝 중에 획득한 텍스트 및 이미지 토큰의 출력 임베딩을 활용하는 ColPali, Paligemma-3B 확장을 소개합니다. PaliGemma-3B는 그 크기가 작고 다양한 이미지 해상도 및 작업에 대해 파인튜닝된 많은 체크포인트를 발표했으며, 다양한 문서 이해 벤치마크에서 유망한 성능을 보여주기 때문에 강력한 후보입니다. 출력 언어 모델링 임베딩을 축소된 차원 공간 \(\mathbb{R}^D\)에 매핑하는 프로젝션 계층을 추가합니다.

후기 상호작용

쿼리 \(q\)와 문서 \(d\)에 대해, 각각의 다중 벡터 표현을 \(\mathbb{R}^{N_q \times D}\)와 \(\mathbb{R}^{N_d \times D}\)로 표시합니다. 후기 상호작용 연산자 \(\text{LI}(q, d)\)는 모든 쿼리 벡터 \(\mathbf{E}_d(j)\)에 대한 각 문서 임베딩 벡터 \(\mathbf{E}_d(1:N_d)\)와의 최대 내적의 합입니다.

\[\text{LI}(q, d) = \sum_{i \in [1, N_q]} \max_{j \in [1, N_d]} \langle \mathbf{E}_q(i) | \mathbf{E}_d(j) \rangle\]

대조적 손실

후기 상호작용 연산은 완전히 미분 가능하며, 역전파를 가능하게 합니다. 질의-페이지 쌍으로 구성된 배치 \(\{q_k, d_k\}_{k \in [1, b]}\)에서, 모든 \(k \in [1, b]\)에 대해 문서 페이지 \(d_k\)는 질의 \(q_k\)에 해당하는 문서입니다. Khattab과 Zaharia (2020)를 따라, 배치 내 대조적 손실 \(\mathcal{L}\)을 양의 점수 \(s_k^+ = \text{LI}(d_k, q_k)\)와 최대 음의 점수 \(s_k^- = \max_{l, l \neq k} \text{LI}(q_k, p_l)\)의 소프트맥스 교차 엔트로피로 정의합니다.

Previous: Text to SQL Next: Agentless

post contain ""

    No matching posts found containing ""