Kwangmin Kim - 01. VisRAG: 파싱의 종말과 새로운 검색 아키텍처

1 1. Naive RAG의 임계점: 왜 상용화 단계에서 무너지는가? [00:19:48]

배포 수준의 개발 경험이 있다면, ’RAG 성능의 80%는 전처리(Pre-processing)에서 결정된다’는 말에 공감하실 것입니다. 하지만 이 전처리가 곧 가장 큰 리스크입니다.

1.1 1.1. 파싱 파이프라인의 에러 전파 (Error Propagation)

전통적인 RAG는 다음과 같은 선형 구조를 가집니다: PDF -> OCR -> Layout Analysis -> Chunking -> Embedding. - 문제: 앞 단계(OCR)에서 발생한 10%의 오류는 뒤 단계(Embedding)로 갈수록 증폭되어, 최종 검색 결과의 신뢰도를 파괴합니다. [00:22:06]

1.2 1.2. 시각적 문맥의 파편화 (Visual Context Fragmentation)

표(Table): 행과 열의 교차점이 가진 의미가 텍스트화(Markdown) 과정에서 유실됩니다. 특히 병합된 셀(Merged Cells)은 파서의 재앙입니다.
차트/도표: 차트의 추세선이나 데이터 포인트는 텍스트 임베딩이 절대 포착할 수 없는 영역입니다.
레이아웃: 폰트 크기, 굵기, 위치 정보는 해당 텍스트의 ’중요도’를 나타내는 시각적 가중치인데, Naive RAG는 이를 평면화(Flattening)합니다.

2 2. VisRAG 아키텍처: 픽셀을 직접 임베딩하다 [00:23:01]

2.1 2.1. 인덱싱 혁신: No OCR, No Parser

VisRAG는 문서를 이미지(Page Image)로 변환한 뒤, VLM(Vision Language Model) 백본을 통해 직접 벡터 공간에 투영합니다. - Input: 문서 페이지 이미지 (Rendered PDF Page). - Process: 시각적 토큰화(Visual Tokenization). - Output: 페이지의 시각적/문맥적 의미가 통합된 멀티 벡터 매트릭스.

2.2 2.2. Late Interaction (MaxSim)의 수학적 이해 [00:29:55]

VisRAG 성능의 핵심은 ColBERT에서 차용한 Late Interaction 기법입니다.

2.2.1 수학적 정의:

질문 토큰 집합 \(Q\)와 문서 패치 벡터 집합 \(D\) 사이의 점수 \(S\)는 다음과 같습니다. \[S(Q, D) = \sum_{q \in Q} \max_{d \in D} (q \cdot d^T)\]

2.2.2 동작 원리 상세:

이미지 패치화: 한 페이지를 약 1024개의 패치로 분할. 각 패치는 고유한 임베딩 벡터(\(d=128\))를 가집니다. [00:35:12]
토큰별 정렬(Alignment): 질문의 각 단어(예: “삼성전자”)가 이미지 내의 모든 패치를 훑으며 가장 유사도가 높은 지점(\(\max\))을 찾습니다.
가중치 합산: 각 단어가 찾은 ’최적의 시각적 근거’들의 점수를 합산(\(\sum\))하여 최종 랭킹을 결정합니다. [00:30:37]

3 3. 모델 진화론: ColPali에서 ColQwen까지 [00:54:38]

3.1 3.1. ColPali: 시각적 RAG의 리딩 모델

백본: PaliGemma.
의의: 텍스트 기반 검색 모델을 NDCG 지표에서 압도하며 VisRAG의 실효성을 최초로 증명했습니다. [00:53:28]

3.2 3.2. ColQwen & ColQwen2: 현시점의 SOTA [00:56:17]

백본: Qwen-2-VL / Qwen-2.5-VL.
강점: 한국어와 일본어 등 동아시아 언어에 대한 인식률이 월등하며, ‘Dynamic Resolution’ 기능을 통해 아주 작은 글씨도 정밀하게 포착합니다.

3.3 3.3. ColPlow: 경량화의 실무적 대안 [00:57:10]

파라미터: 174M 수준으로 축소.
실무 포인트: 저장 공간과 연산 속도가 중요한 배포 환경에서 ColPali 대비 90% 이상의 성능을 유지하면서 비용을 획기적으로 절감합니다.

4 4. 실무 엔지니어링: 스토리지 절감 기술 [01:49:30]

VisRAG 도입 시 배포자가 겪는 최대 장벽은 스토리지(Storage)입니다. - 병목: 페이지당 1024개의 벡터를 저장하면 기존 대비 100배 이상의 DB 용량이 필요합니다. - 최적화 전략: Binary Quantization (이진 양자화). - 128차원 벡터의 각 성분을 1비트(0 또는 1)로 변환. - 용량은 1/32로 줄어들지만, MaxSim 연산의 특성상 리코딩 성능 하락은 5% 미만으로 방어됨이 확인되었습니다.

[1권 핵심 요약]: VisRAG는 파싱 과정의 오류 전파를 차단하고, 수학적으로 정교한 MaxSim 연산을 통해 시각적 레이아웃과 텍스트를 정렬합니다. 이는 정형화되지 않은 복잡한 문서를 다루는 엔터프라이즈 RAG의 새로운 표준입니다.