1 요약

T5(Text-to-Text Transfer Transformer)는 2019년 Google Research에서 발표한 혁신적인 사전 학습 언어 모델이다. 기존 모델들이 태스크별로 다른 출력 형식을 사용했던 것과 달리, 모든 자연어 처리 태스크를 텍스트-투-텍스트 형식으로 통일하여 처리하는 획기적인 프레임워크를 제시했다.

주요 특징과 혁신 사항은 다음과 같다:

Text-to-Text 통합 프레임워크:
- 분류, 회귀, 생성 등 모든 NLP 태스크를 텍스트 생성 문제로 변환
- “classify: 이 리뷰는 긍정적입니다” → “positive” 형태로 출력
- 태스크별 특수 헤드가 불필요한 완전히 통일된 접근법
- 인덱스 예측 대신 자연어 텍스트 생성을 통한 문제 해결
Encoder-Decoder 아키텍처:
- BERT의 양방향 이해 능력과 GPT의 생성 능력을 결합
- 원본 Transformer와 동일한 구조로 검증된 안정성
- Cross-attention을 통한 효과적인 정보 전달
- 입력 길이와 출력 길이의 독립적 처리
혁신적인 사전 학습 방식:
- Span Corruption: 연속된 토큰들을 마스킹하고 복원
- 다양한 사전 학습 목표의 체계적 비교 연구
- C4(Colossal Clean Crawled Corpus) 데이터셋 활용
- 750GB의 필터링된 고품질 텍스트로 학습
확장성과 성능:
- T5-Small(60M)부터 T5-11B(11B)까지 다양한 크기
- GLUE, SuperGLUE에서 SOTA 달성
- CNN/DailyMail 요약에서 뛰어난 성능
- WMT 번역 태스크에서 경쟁력 있는 결과
현대 LLM의 설계 철학 확립:
- 모든 문제를 생성 태스크로 해결하는 접근법
- Instruction following의 기초 마련
- 현재 ChatGPT, GPT-4 등 대화형 AI의 설계 원리
- Fine-tuning 시 추가 레이어 불필요

T5는 단순한 성능 향상을 넘어 모든 NLP 태스크를 통합하는 새로운 패러다임을 제시했으며, 현재 대규모 언어 모델들의 설계 철학에 결정적 영향을 미쳤다.

2 NLP 모델 발전 과정

RNN Language Model
├── Seq2Seq
├── Beam Search
├── Subword Tokenization
├── Attention
├── Transformer Encoder (Vaswani et al., 2017)
|   ├── Positional Encoding
|   ├── Multi-Head Attention
|   └── Feed Forward Neural Network
|
├── Transformer Decoder (Vaswani et al., 2017)
|
├── GPT 시리즈 (OpenAI,2018~)
|   ├── GPT-1~4
|   └── ChatGPT (OpenAI,2022~)
|
├── BERT 시리즈 (Google,2018~)
|   ├── BERT
|   ├── RoBERTa
|   └── ALBERT
|
├── BERT 변형 모델들
|   ├── RoBERTa (Facebook, 2019)
|   ├── ALBERT (Google, 2019)
|   ├── DistilBERT (Hugging Face, 2019)
|   └── ELECTRA (Google, 2020)
|
└── 후속 발전 모델들
    ├── T5, XLNet, DeBERTa
    └── GPT-2/3/4, ChatGPT, PaLM 등

3 T5 이전 모델들의 한계점

3.1 기존 언어 모델의 문제점

태스크별 다른 출력 형식의 혼재: - 텍스트 분류: 클래스 인덱스 예측 (0, 1, 2…) - 개체명 인식: BIO 태깅 (B-PER, I-LOC, O…) - 질의응답: 시작/끝 위치 예측 (start_idx, end_idx) - 텍스트 생성: 토큰 시퀀스 생성 - 각 태스크마다 다른 출력 헤드와 손실 함수 필요

모델 아키텍처의 태스크별 특화: - BERT: 분류/이해 태스크에 특화된 encoder-only 구조 - GPT: 생성 태스크에 특화된 decoder-only 구조 - 하나의 모델로 모든 태스크를 효과적으로 처리하기 어려움 - 태스크 전환 시 아키텍처 변경 또는 별도 모델 필요

Fine-tuning의 복잡성: - 태스크별로 다른 추가 레이어 설계 필요 - 출력 형식에 맞는 특수 헤드(classification head, regression head 등) 구현 - 태스크별 다른 손실 함수와 평가 메트릭 - 모델 개발과 유지보수의 복잡성 증가

통합적 학습의 어려움: - 여러 태스크를 동시에 학습하기 위한 복잡한 멀티태스크 설정 - 태스크 간 간섭(interference) 문제 - 태스크별 가중치 조정의 어려움 - 새로운 태스크 추가 시 전체 시스템 재설계 필요

자연어 이해와 생성의 분리: - 이해 모델(BERT)과 생성 모델(GPT)이 별도로 발전 - 통합된 프레임워크의 부재로 인한 효율성 저하 - 인간의 언어 처리와 다른 분절된 접근법

4 T5 (Text-to-Text Transfer Transformer)

4.1 개요와 기본 개념

T5는 모든 자연어 처리 태스크를 텍스트-투-텍스트 문제로 통일한 혁신적인 언어 모델이다. 2019년 Google Research에서 발표된 T5는 “Text-to-Text Transfer Transformer”의 줄임말로, 입력과 출력 모두 텍스트 형태로 처리하는 완전히 새로운 패러다임을 제시했다.

4.1.1 핵심 아이디어

통일된 프레임워크: 모든 NLP 태스크를 “텍스트 입력 → 텍스트 출력” 형태로 변환
자연어 기반 출력: 숫자나 인덱스 대신 자연어 텍스트로 답변 생성
태스크 무관한 아키텍처: 하나의 모델 구조로 모든 문제 해결
인간친화적 접근: 인간이 이해하기 쉬운 형태의 입출력

4.2 Text-to-Text 프레임워크

4.2.1 기본 원리

“모든 텍스트 처리 문제를 텍스트 생성 문제로 변환”

기존 방식: 입력 텍스트 → 특수 출력 (클래스 ID, 확률, 위치 등)
T5 방식: 입력 텍스트 → 출력 텍스트

4.2.2 태스크별 변환 예시

1. 텍스트 분류

기존: "This movie is great!" → [1] (긍정 클래스)
T5: "sentiment: This movie is great!" → "positive"

2. 번역

기존: "Hello world" → sequence of token IDs
T5: "translate English to German: Hello world" → "Hallo Welt"

3. 질의응답

기존: Question + Context → [start_pos, end_pos]
T5: "question: What is the capital? context: France's capital is Paris" → "Paris"

4. 요약

기존: Long text → Abstract representation → Summary
T5: "summarize: [long article text]" → "Brief summary text"

5. 문법 오류 수정

T5: "grammar: She are going to school" → "She is going to school"

6. 자연어 추론

T5: "nli premise: A man is sleeping hypothesis: A person is resting" → "entailment"

4.2.3 Prefix 기반 태스크 식별

태스크별 접두사(Prefix) 사용: - translate English to German: - 영독 번역 - summarize: - 텍스트 요약
- question: - 질의응답 - sentiment: - 감정 분석 - cola sentence: - 문법성 판단

이 접두사를 통해 모델이 수행할 태스크를 명확히 지시할 수 있다.

4.3 아키텍처 상세

4.3.1 Encoder-Decoder 구조

T5는 원본 Transformer와 동일한 encoder-decoder 구조를 사용한다.

Input Text (with task prefix)
    ↓
Encoder (Bidirectional Self-Attention)
├── Multi-Head Self-Attention
├── Feed-Forward Network  
└── Layer Normalization
    ↓
Encoder Representations
    ↓
Decoder (Causal Self-Attention + Cross-Attention)
├── Masked Multi-Head Self-Attention
├── Cross-Attention (to Encoder)
├── Feed-Forward Network
└── Layer Normalization
    ↓
Output Text

4.3.2 주요 구성 요소

Encoder: - 입력 텍스트의 양방향 문맥 이해 - BERT와 유사한 구조로 전체 입력 동시 처리 - Self-attention을 통한 풍부한 표현 학습 - 태스크 prefix를 포함한 전체 입력 인코딩

Decoder: - 출력 텍스트의 순차적 생성 - GPT와 유사한 causal masking 적용 - Cross-attention으로 encoder 정보 활용 - 자연어 형태의 답변 생성

Position Encoding: - 상대적 위치 인코딩(Relative Position Encoding) 사용 - 절대 위치 대신 토큰 간 상대적 거리 정보 활용 - 더 긴 시퀀스에 대한 일반화 능력 향상

4.4 사전 학습 방법론

4.4.1 Span Corruption 목표

기본 개념: T5의 주요 사전 학습 목표는 “Span Corruption”이다.

원본: "The quick brown fox jumps over the lazy dog"
마스킹: "The quick <X> jumps over <Y> dog"
목표: "<X> brown fox <Y> the lazy"

작동 방식: 1. Span 선택: 연속된 토큰들을 임의로 선택 (평균 3개 토큰) 2. 마스킹: 선택된 span을 특수 토큰으로 대체 (<X>, <Y>, <Z> 등) 3. 복원: 디코더가 마스킹된 부분을 순차적으로 생성

BERT MLM과의 차이점: - BERT: 개별 토큰 마스킹 → 각 위치별 독립 예측 - T5: 연속 span 마스킹 → 순차적 생성으로 복원 - T5가 더 자연스러운 텍스트 생성 능력 학습

4.4.2 C4 데이터셋

Colossal Clean Crawled Corpus (C4): - Common Crawl에서 추출한 웹 텍스트 - 750GB의 정제된 영어 텍스트 - 품질 필터링과 중복 제거 적용 - 다양한 도메인과 스타일 포함

전처리 과정: 1. 언어 식별: 영어 텍스트만 선별 2. 품질 필터링: 문법적으로 올바른 문장 선택 3. 중복 제거: 동일하거나 유사한 내용 제거 4. 독성 콘텐츠 제거: 부적절한 내용 필터링

4.4.3 다양한 사전 학습 목표 비교

T5 논문에서는 여러 사전 학습 방식을 체계적으로 비교했다:

1. BERT-style (Mask Language Model): - 개별 토큰을 [MASK]로 대체 - 각 위치에서 원래 토큰 예측

2. Prefix LM: - 문장의 앞부분을 보고 뒷부분 예측 - GPT와 유사한 방식

3. Span Corruption (T5의 선택): - 연속된 토큰 span을 마스킹 - 순차적 생성으로 복원

실험 결과: Span Corruption이 downstream 태스크에서 가장 좋은 성능을 보였다.

4.5 모델 크기와 변형

4.5.1 T5 모델 크기별 구성

모델	파라미터	레이어	d_model	d_ff	Heads
T5-Small	60M	6	512	2,048	8
T5-Base	220M	12	768	3,072	12
T5-Large	770M	24	1,024	4,096	16
T5-3B	3B	24	1,024	16,384	32
T5-11B	11B	24	1,024	65,536	128

4.5.2 Scaling Laws 검증

T5는 모델 크기, 데이터 크기, 계산량에 따른 성능 변화를 체계적으로 연구: - 모델이 클수록 거의 모든 태스크에서 성능 향상 - 데이터 양 증가도 지속적인 성능 개선 효과 - 계산 자원 투입 대비 예측 가능한 성능 향상

4.6 성능 및 벤치마크

4.6.1 GLUE Benchmark

General Language Understanding Evaluation: - CoLA(문법성): 83.6 (Matthews correlation) - SST-2(감정): 97.5% (accuracy)
- MRPC(패러프레이즈): 93.4% (F1) - QQP(질문 유사성): 89.9% (F1) - MNLI(자연어 추론): 90.6% (accuracy) - QNLI(질의응답): 95.9% (accuracy) - RTE(텍스트 함의): 93.1% (accuracy) - WNLI(대명사 해소): 94.4% (accuracy)

평균 GLUE 점수: 88.9 (당시 SOTA)

4.6.2 SuperGLUE Benchmark

더 어려운 태스크들에서도 우수한 성능: - BoolQ: 87.7% - CB: 96.9%
- COPA: 84.0% - MultiRC: 88.1% - ReCoRD: 94.1% - RTE: 93.1% - WiC: 77.8% - WSC: 95.2%

4.6.3 생성 태스크 성능

CNN/DailyMail 요약: - ROUGE-1: 43.5 - ROUGE-2: 21.0 - ROUGE-L: 40.7

WMT English-German 번역: - BLEU: 27.5 (당시 경쟁력 있는 수준)

SQuAD 질의응답: - Exact Match: 85.8% - F1 Score: 90.0%

4.7 T5의 혁신과 영향

4.7.1 지속적 학습(Continual Learning) 지원

T5는 새로운 태스크를 추가할 때 기존 지식을 유지하면서 학습할 수 있는 구조를 제공한다: - 태스크 접두사 확장: 새로운 prefix만 추가하면 새로운 태스크 처리 가능 - Catastrophic Forgetting 완화: 통일된 출력 형식으로 태스크 간 간섭 최소화 - 점진적 능력 확장: 기존 능력을 손상시키지 않고 새로운 능력 획득

4.7.2 다국어 확장과 mT5

Multilingual T5 (mT5): - 101개 언어 지원 - 언어 간 지식 전이 효과 확인 - 저자원 언어에서도 우수한 성능 - Cross-lingual 태스크에서 획기적 성과

4.7.3 효율성 개선 모델들

T5 기반 파생 모델들: - UL2: Unified Language Learner, 다양한 denoising 목표 통합 - PaLM: T5의 스케일링 연장선, 540B 파라미터 - Flan-T5: Instruction tuning으로 성능 향상 - T5X: 더 효율적인 구현과 학습 방법

4.8 현대 LLM에 미친 영향

4.8.1 Instruction Following의 기초

T5의 prefix 기반 태스크 지시는 현재 instruction following의 원형이다:

T5: "translate English to Korean: Hello" → "안녕하세요"
GPT-4: "Translate this to Korean: Hello" → "안녕하세요"

4.8.2 통합 모델 아키텍처의 확산

현재 주요 모델들의 T5 영향: - ChatGPT/GPT-4: 모든 태스크를 대화/생성으로 통일 - PaLM, LaMDA: T5의 encoder-decoder 구조 활용 - BART, Pegasus: Text-to-Text 패러다임 적용 - UL2: T5의 denoising 방식 확장

4.8.3 멀티모달 AI로의 확장

T5의 Text-to-Text 프레임워크는 멀티모달로 자연스럽게 확장:

Vision-Language: 이미지 → 텍스트 설명
Speech-to-Text: 음성 → 텍스트 전사  
Text-to-Code: 자연어 → 프로그래밍 코드

5 결론

T5는 자연어 처리 분야에서 패러다임 통합을 이뤄낸 혁신적인 모델로, 2019년 발표 이후 NLP 연구와 산업 응용의 방향을 근본적으로 바꿨다.

5.1 T5의 핵심 기여

프레임워크 통합: - 모든 NLP 태스크를 하나의 일관된 Text-to-Text 형태로 통일 - 태스크별 특수 아키텍처의 필요성을 제거하고 범용성 확보 - 인간이 이해하기 쉬운 자연어 입출력으로 해석 가능성 향상

아키텍처 검증: - Encoder-Decoder 구조의 효과성을 대규모로 검증 - Span Corruption을 통한 효율적인 사전 학습 방법 제시 - 모델 크기와 성능 간 예측 가능한 관계(Scaling Laws) 확립

실용적 혁신: - Fine-tuning 시 추가 레이어가 불필요한 완전 통합 모델 - 새로운 태스크 추가 시 prefix만 변경하면 되는 확장성 - 다국어, 멀티모달로의 자연스러운 확장 가능성

5.2 후속 발전에 미친 영향

T5의 등장은 “생성으로 모든 것을 해결한다”는 새로운 AI 패러다임의 출발점이었다.

직접적 영향: - mT5, UL2, Flan-T5 등 직접적 개선 모델들 - BART, Pegasus 등 동시대 모델들의 설계 방향 제시 - Instruction tuning 연구의 기초 프레임워크 제공

간접적 영향: - ChatGPT/GPT-4: 모든 태스크를 대화 생성으로 통일하는 접근법 - Large Language Models: 모든 문제를 텍스트 생성으로 해결하는 철학 - Multimodal AI: Vision-Language, Speech-Text 등 다양한 모달리티 통합

산업적 응용: - 구글 검색, 번역, Gmail 스마트 컴포즈 등에 T5 기술 활용 - Hugging Face 등 오픈소스 생태계의 핵심 모델 - 다양한 도메인별 특화 모델의 기반 아키텍처

5.3 현재적 의미와 미래 전망

T5는 단순한 성능 향상을 넘어 AI가 문제를 해결하는 방식의 근본적 변화를 제시했다.

현재 상황: - 현재 대부분의 대규모 언어 모델이 T5의 설계 철학을 따름 - 모든 AI 태스크를 생성 문제로 변환하는 접근법이 표준이 됨 - Instruction following, Few-shot learning의 기초 프레임워크 역할

미래 전망: - Unified AI Systems: 언어, 시각, 음성을 통합하는 멀티모달 AI의 기초 - Personalized AI: 개인별 맞춤형 AI 어시스턴트의 핵심 아키텍처 - Domain-Specific AI: 의료, 법률, 과학 등 전문 분야 AI의 기반 모델 - Interactive AI: 실시간 대화와 협업이 가능한 AI 시스템

장기적 영향: T5가 제시한 “모든 문제를 텍스트 생성으로 해결”하는 패러다임은 AGI(Artificial General Intelligence) 구현의 중요한 단계로 평가된다. 인간의 언어 사용 방식을 모방하여 다양한 문제를 일관된 방식으로 해결하는 접근법은 더욱 인간다운 AI 시스템 구축의 기초가 되고 있다.

T5의 등장은 자연어 처리를 넘어 인공지능 전반의 설계 철학을 바꾼 역사적 전환점이었으며, 현재 우리가 경험하고 있는 생성형 AI 혁명의 이론적 토대를 마련했다.