01. VisRAG: 파싱의 종말과 새로운 검색 아키텍처

Naive RAG의 구조적 결함 분석 및 Late Interaction 매커니즘 심층 탐구

저자

Gemini Collaborative AI (Based on AutoRAG x TeddyNote)

1 1. Naive RAG의 임계점: 왜 상용화 단계에서 무너지는가? [00:19:48]

배포 수준의 개발 경험이 있다면, ’RAG 성능의 80%는 전처리(Pre-processing)에서 결정된다’는 말에 공감하실 것입니다. 하지만 이 전처리가 곧 가장 큰 리스크입니다.

1.1 1.1. 파싱 파이프라인의 에러 전파 (Error Propagation)

전통적인 RAG는 다음과 같은 선형 구조를 가집니다: PDF -> OCR -> Layout Analysis -> Chunking -> Embedding. - 문제: 앞 단계(OCR)에서 발생한 10%의 오류는 뒤 단계(Embedding)로 갈수록 증폭되어, 최종 검색 결과의 신뢰도를 파괴합니다. [00:22:06]

1.2 1.2. 시각적 문맥의 파편화 (Visual Context Fragmentation)

  • 표(Table): 행과 열의 교차점이 가진 의미가 텍스트화(Markdown) 과정에서 유실됩니다. 특히 병합된 셀(Merged Cells)은 파서의 재앙입니다.
  • 차트/도표: 차트의 추세선이나 데이터 포인트는 텍스트 임베딩이 절대 포착할 수 없는 영역입니다.
  • 레이아웃: 폰트 크기, 굵기, 위치 정보는 해당 텍스트의 ’중요도’를 나타내는 시각적 가중치인데, Naive RAG는 이를 평면화(Flattening)합니다.

2 2. VisRAG 아키텍처: 픽셀을 직접 임베딩하다 [00:23:01]

2.1 2.1. 인덱싱 혁신: No OCR, No Parser

VisRAG는 문서를 이미지(Page Image)로 변환한 뒤, VLM(Vision Language Model) 백본을 통해 직접 벡터 공간에 투영합니다. - Input: 문서 페이지 이미지 (Rendered PDF Page). - Process: 시각적 토큰화(Visual Tokenization). - Output: 페이지의 시각적/문맥적 의미가 통합된 멀티 벡터 매트릭스.

2.2 2.2. Late Interaction (MaxSim)의 수학적 이해 [00:29:55]

VisRAG 성능의 핵심은 ColBERT에서 차용한 Late Interaction 기법입니다.

2.2.1 수학적 정의:

질문 토큰 집합 \(Q\)와 문서 패치 벡터 집합 \(D\) 사이의 점수 \(S\)는 다음과 같습니다. \[S(Q, D) = \sum_{q \in Q} \max_{d \in D} (q \cdot d^T)\]

2.2.2 동작 원리 상세:

  1. 이미지 패치화: 한 페이지를 약 1024개의 패치로 분할. 각 패치는 고유한 임베딩 벡터(\(d=128\))를 가집니다. [00:35:12]
  2. 토큰별 정렬(Alignment): 질문의 각 단어(예: “삼성전자”)가 이미지 내의 모든 패치를 훑으며 가장 유사도가 높은 지점(\(\max\))을 찾습니다.
  3. 가중치 합산: 각 단어가 찾은 ’최적의 시각적 근거’들의 점수를 합산(\(\sum\))하여 최종 랭킹을 결정합니다. [00:30:37]

3 3. 모델 진화론: ColPali에서 ColQwen까지 [00:54:38]

3.1 3.1. ColPali: 시각적 RAG의 리딩 모델

  • 백본: PaliGemma.
  • 의의: 텍스트 기반 검색 모델을 NDCG 지표에서 압도하며 VisRAG의 실효성을 최초로 증명했습니다. [00:53:28]

3.2 3.2. ColQwen & ColQwen2: 현시점의 SOTA [00:56:17]

  • 백본: Qwen-2-VL / Qwen-2.5-VL.
  • 강점: 한국어와 일본어 등 동아시아 언어에 대한 인식률이 월등하며, ‘Dynamic Resolution’ 기능을 통해 아주 작은 글씨도 정밀하게 포착합니다.

3.3 3.3. ColPlow: 경량화의 실무적 대안 [00:57:10]

  • 파라미터: 174M 수준으로 축소.
  • 실무 포인트: 저장 공간과 연산 속도가 중요한 배포 환경에서 ColPali 대비 90% 이상의 성능을 유지하면서 비용을 획기적으로 절감합니다.

4 4. 실무 엔지니어링: 스토리지 절감 기술 [01:49:30]

VisRAG 도입 시 배포자가 겪는 최대 장벽은 스토리지(Storage)입니다. - 병목: 페이지당 1024개의 벡터를 저장하면 기존 대비 100배 이상의 DB 용량이 필요합니다. - 최적화 전략: Binary Quantization (이진 양자화). - 128차원 벡터의 각 성분을 1비트(0 또는 1)로 변환. - 용량은 1/32로 줄어들지만, MaxSim 연산의 특성상 리코딩 성능 하락은 5% 미만으로 방어됨이 확인되었습니다.


[1권 핵심 요약]: VisRAG는 파싱 과정의 오류 전파를 차단하고, 수학적으로 정교한 MaxSim 연산을 통해 시각적 레이아웃과 텍스트를 정렬합니다. 이는 정형화되지 않은 복잡한 문서를 다루는 엔터프라이즈 RAG의 새로운 표준입니다.

Subscribe

Enjoy this blog? Get notified of new posts by email: