Kwangmin Kim - LLM의 구조적 한계

1 개요

LLM(Large Language Model)의 성능이 급속히 향상되고 있지만, Transformer 아키텍처 자체의 구조적 한계와 학습 데이터의 편향에서 비롯되는 근본적인 문제들이 존재한다. 이 문제들은 단순히 모델을 스케일업하는 것만으로는 해결되지 않으며, 아키텍처 수준의 변화나 학습 전략의 근본적 재설계가 필요할 수 있다.

본 문서에서는 다음 네 가지 핵심 한계를 다룬다:

Attention 가중치 희석: 문맥이 길어질수록 중요 정보에 대한 집중력이 떨어지는 현상
Lost in the Middle: 입력 중간부에 위치한 정보가 무시되는 위치 편향
Selection Bias: 학습 데이터의 구조적 편향이 모델 행동에 미치는 영향
Hallucination: 사실과 다른 내용을 자신 있게 생성하는 현상의 근본 원인

2 1. Attention 가중치 희석 (Attention Score Dilution)

2.1 핵심 메커니즘

Transformer의 Self-Attention은 다음과 같이 계산된다:

\[\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V\]

여기서 \(Q\)(Query), \(K\)(Key), \(V\)(Value)는 입력 시퀀스에서 생성되고, \(d_k\)는 Key 벡터의 차원이다.

2.2 문맥이 길어지면 발생하는 문제

Softmax 함수의 특성상, 시퀀스 길이 \(n\)이 증가하면 각 토큰에 배분되는 attention weight가 분산된다.

\[\alpha_i = \frac{\exp(s_i)}{\sum_{j=1}^{n} \exp(s_j)}\]

\(n\)이 커지면 분모의 합이 증가하여 개별 \(\alpha_i\) 값이 작아진다. 이를 Attention Score Dilution이라 한다.

노트

직관적으로 표현하면, 10명에게 집중하는 것과 10,000명에게 집중하는 것의 차이이다. 후자의 경우 각 개인에게 할당되는 “주의력”이 희석될 수밖에 없다.

이 희석은 다음과 같은 연쇄적 문제를 야기한다:

현상	설명
Context Dilution	핵심 정보가 주변 노이즈에 묻혀 가중치를 충분히 받지 못함
Recency Bias	최근 토큰에 더 높은 attention이 부여되는 경향
Primacy Bias	초반 토큰(시스템 프롬프트 등)에 과도한 가중치 부여

2.3 수학적 분석: 왜 Softmax가 문제인가

Softmax의 엔트로피는 시퀀스 길이에 따라 다음과 같이 변한다:

\[H(\alpha) = -\sum_{i=1}^{n} \alpha_i \log \alpha_i\]

모든 attention score가 균등할 때 최대 엔트로피 \(H_{max} = \log n\)이다. \(n\)이 증가하면 \(H_{max}\)도 증가하여 attention 분포가 더 균등해지려는 압력이 커진다. 즉, 특정 토큰에 집중하기가 구조적으로 어려워진다.

2.4 스케일링 팩터 \(\sqrt{d_k}\)의 역할과 한계

\(\sqrt{d_k}\)로 나누는 이유는 \(QK^T\)의 내적 값이 \(d_k\)에 비례하여 커지기 때문이다. 내적 값이 지나치게 크면 softmax의 출력이 one-hot에 가까워져(gradient vanishing), 반대로 너무 작으면 균등 분포에 가까워진다(attention 희석).

그러나 이 스케일링은 시퀀스 길이 \(n\)에 대한 보정은 하지 않는다. 시퀀스가 길어져서 발생하는 희석 문제는 \(\sqrt{d_k}\) 스케일링만으로 해결되지 않는다.

3 2. Lost in the Middle

3.1 현상

2023년 Stanford/UC Berkeley의 연구(Liu et al., “Lost in the Middle: How Language Models Use Long Contexts”)에서 실증적으로 확인된 현상이다.

LLM에 긴 문맥을 제공할 때, 정보의 위치에 따라 모델의 활용도가 크게 달라진다:

[높은 활용] ─── [낮은 활용] ─── [높은 활용]
   시작              중간              끝

즉, 입력의 처음과 끝에 있는 정보는 잘 활용하지만, 중간에 있는 정보는 무시하거나 누락하는 경향이 있다.

3.2 원인 분석

이 현상은 여러 요인의 복합 작용으로 발생한다:

3.2.1 (1) Positional Encoding의 한계

Transformer는 토큰의 순서 정보를 Positional Encoding으로 부여한다. 그러나 기존 방식(Sinusoidal, Learned Position Embeddings)은 긴 시퀀스에서 위치 간 구분력이 저하된다.

RoPE(Rotary Position Embedding)와 같은 상대적 위치 인코딩은 이 문제를 완화하지만, 학습 시 본 적 없는 위치(Extrapolation)에 대해서는 여전히 취약하다.

3.2.2 (2) 학습 데이터의 위치 편향

학습 데이터 대부분이 두괄식 또는 양괄식 구조를 가지고 있어, 모델은 암묵적으로 다음 패턴을 학습한다:

위치	학습된 역할	결과
시작 부분	핵심 정보, 주제문	높은 attention 부여
중간 부분	부연 설명, 세부사항	낮은 attention 부여
끝 부분	결론, 요약	높은 attention 부여

3.2.3 (3) Causal Attention Mask의 구조적 제약

GPT 계열의 Decoder-only 모델은 Causal Mask를 사용하여 각 토큰이 이전 토큰만 참조할 수 있다. 마지막 토큰은 모든 이전 토큰을 참조할 수 있지만, 중간 토큰들은 제한된 문맥만 참조 가능하다. 이로 인해 중간 위치의 정보가 최종 출력에 반영되기 어렵다.

3.3 실무적 영향

RAG(Retrieval-Augmented Generation) 시스템에서 이 문제는 특히 심각하다:

검색된 문서를 프롬프트에 삽입할 때, 가장 관련성 높은 문서를 중간에 배치하면 무시될 수 있다
긴 문서 요약 시 중간 섹션의 내용이 누락되기 쉽다

힌트

실무적 대응 전략:

핵심 정보를 프롬프트의 시작 또는 끝에 배치한다
긴 문서는 청크 단위로 분할하여 각각 처리한 후 결과를 통합한다
검색된 문서를 관련성 순으로 재정렬하여 중요 문서를 양 끝에 배치한다

4 3. Selection Bias: 학습 데이터의 구조적 편향

4.1 학습 데이터의 구성

LLM의 학습 데이터는 대부분 다음과 같은 출처에서 수집된다:

출처	특징	편향
인터넷 문서/블로그	두괄식, SEO 최적화 구조	첫 문단 과대 가중
학술 논문	Abstract-Body-Conclusion 구조	양괄식 패턴 강화
위키피디아	정의 → 설명 → 참고 구조	정의문 패턴 과적합
뉴스 기사	역피라미드 구조	두괄식 편향 극대화
도서	다양한 서사 구조	상대적으로 편향 적음

4.2 두괄식/양괄식 편향의 메커니즘

대부분의 글이 두괄식(핵심 → 부연) 또는 양괄식(핵심 → 부연 → 재강조) 구조를 가지기 때문에, 모델은 다음 패턴을 학습한다:

\[P(\text{중요}|\text{위치=시작}) \gg P(\text{중요}|\text{위치=중간})\]

이는 Lost in the Middle 현상을 학습 데이터 수준에서 강화하는 요인이다. 즉, 아키텍처적 한계와 데이터 편향이 같은 방향으로 작용하여 문제를 증폭시킨다.

4.3 기타 Selection Bias

편향 유형	설명	영향
언어 편향	영어 데이터가 압도적 다수	비영어권 지식에 대한 정확도 저하
시간 편향	학습 데이터의 시점(Cutoff) 이후 정보 부재	최신 정보에 대한 hallucination
도메인 편향	IT/과학 분야 과대 대표	예술/인문학 분야 상대적 약세
생존자 편향	인터넷에 게시된 글만 수집	출판되지 않은 관점 누락
대중성 편향	조회수 높은 콘텐츠 과대 대표	소수 전문 의견 과소 대표

5 4. Hallucination의 근본 원인

5.1 정의

Hallucination(환각)은 LLM이 사실과 다르거나 근거 없는 내용을 자신 있게 생성하는 현상이다. 이는 단일 원인이 아니라, 세 가지 요인의 복합 작용으로 발생한다.

5.2 원인 1: 확률적 언어 모델 구조

LLM의 기본 목적 함수는 다음 토큰 확률 최대화이다:

\[\mathcal{L} = -\sum_{t=1}^{T} \log P(x_t | x_{<t}; \theta)\]

이 목적 함수는 “가장 그럴듯한 다음 토큰”을 선택하도록 학습되지, “사실인 다음 토큰”을 선택하도록 학습되지 않는다.

따라서 모델은 “모르면 침묵”이 아니라 “그럴듯한 문장 생성”으로 동작한다. 확률 분포 상에서 높은 likelihood를 가지는 토큰 시퀀스가 사실과 일치하지 않을 수 있다.

중요

핵심 통찰: LLM은 “진실 생성기(Truth Generator)”가 아니라 “확률적 텍스트 생성기(Probabilistic Text Generator)”이다. 출력이 사실처럼 보이는 것은 학습 데이터에 사실이 많이 포함되어 있기 때문이지, 모델이 사실과 허구를 구분하는 내부 메커니즘을 가지고 있기 때문이 아니다.

5.3 원인 2: 학습 데이터 편향

학습 데이터 자체에 포함된 오류, 모순, 편향이 모델에 그대로 반영된다:

데이터 내 모순: 같은 주제에 대해 상반된 주장이 공존할 때, 모델은 문맥에 따라 어느 쪽이든 자신 있게 생성할 수 있다
희소 지식(Long-tail Knowledge): 학습 데이터에 적게 등장하는 사실에 대해서는 정확도가 급격히 떨어진다
시간적 불일치: 학습 시점과 질의 시점 사이에 변경된 사실에 대해 구버전 정보를 생성한다

5.4 원인 3: RLHF 정렬 최적화

RLHF(Reinforcement Learning from Human Feedback)는 모델을 “도움이 되는” 방향으로 정렬하지만, 부작용으로 sycophancy(아첨)와 과잉 자신감(Overconfidence)을 유발할 수 있다:

\[\mathcal{L}_{RLHF} = E_{x \sim D}[r_\theta(x, y) - \beta \cdot KL(π_θ || π_{ref})]\]

Reward model \(r_\theta\)가 “유창하고 도움이 되는 답변”에 높은 점수를 부여하면, 모델은 확신이 없는 경우에도 유창하게 답변하는 방향으로 최적화된다
“잘 모르겠다”는 답변이 낮은 reward를 받으면, 모델은 불확실한 상황에서도 자신 있게 생성하는 경향이 강화된다

5.5 Hallucination의 유형

유형	설명	예시
Intrinsic	입력과 모순되는 내용 생성	문서에 “2020년 설립”이라고 있는데 “2018년 설립”이라고 답변
Extrinsic	입력에 없는 내용을 추가	존재하지 않는 논문 인용, 가상의 통계 수치 생성
Factual	객관적 사실과 다른 내용 생성	역사적 사건의 날짜나 인물을 잘못 생성

6 5. 해결 방향: 최신 연구 동향

6.1 Attention 희석 및 긴 문맥 문제

접근 방식	핵심 아이디어	대표 연구
Linear Attention	Softmax를 커널 함수로 대체하여 \(O(n)\) 복잡도 달성	Performers, Linear Transformers
Sparse Attention	전체가 아닌 일부 토큰에만 attention 계산	Longformer, BigBird
Memory-augmented	외부 메모리에 핵심 정보 저장 후 필요 시 조회	Memorizing Transformers
Retrieval-augmented	긴 문맥 대신 관련 정보를 검색하여 제공	RAG, RETRO
Ring Attention	시퀀스를 장치 간 분산하여 메모리 제한 극복	Ring Attention
Sliding Window	고정 크기 윈도우 내에서만 attention 계산	Mistral

6.2 Hallucination 완화

접근 방식	핵심 아이디어
Retrieval-Augmented Generation	외부 지식 소스에서 근거를 검색하여 제공
Chain-of-Thought + Verification	추론 과정을 명시화하고 각 단계를 검증
Confidence Calibration	모델의 불확실성을 정량화하여 자신 없는 경우 명시
Factual Grounding	생성 시 사실 데이터베이스와 대조
Constitutional AI	자기 비판 및 수정 메커니즘 내장

6.3 근본적 구조 변화 논의

현재 연구 커뮤니티에서는 LLM의 한계를 극복하기 위한 차세대 패러다임으로 다음 방향이 논의되고 있다:

방향	핵심 개념	해결하려는 문제
World Model 기반 AI	물리적/인과적 세계 모델을 내재화	사실성, 추론 능력
Memory 기반 AI	장기 기억과 작업 기억의 분리	긴 문맥, 일관성
Neuro-Symbolic AI	신경망 + 기호적 추론의 결합	논리적 정합성, 환각
Agentic AI	도구 사용, 자기 검증, 반복적 개선	정확성, 신뢰도

노트

이 네 가지 방향은 상호 배타적이지 않다. 실제로 최신 시스템들은 여러 접근을 결합하는 추세이다. 예를 들어 Agentic AI는 RAG(검색)과 Verification(검증)을 결합하여 Hallucination을 줄이면서, Memory 메커니즘으로 긴 문맥을 처리한다.