Kwangmin Kim - MINERVA 도메인 분류기 03: 모델 후보 선정

1 이 편의 위치

01편에서 task를 정의하고 하이브리드 엔진 속 ML의 역할을 확정했고, 02편에서 입력 데이터의 윤곽과 “도메인명 한 컬럼 입력”이라는 결정을 내렸다. 03편은 이 입력을 먹는 모델 후보 8개를 왜 이렇게 선정했는가를 다룬다.

모든 실험·통계 검증·배포 결정이 여기서 정리된 후보 프레임 위에서 움직인다.

2 8개 모델은 “정답 후보”가 아니라 “의사결정 공간 probe”

모델 선정의 첫 함정은 “최고 성능 모델 하나를 찾는다”는 목표다.
이 목표를 가지면 결국 한국어 SOTA인 KLUE-RoBERTa 하나를 써서 96~97%를 뽑고 끝난다.
수치는 나오지만 엄밀한 근거 평가를 통과하는 결과는 아니다. “왜 그 모델이냐”라는 질문에 답할 재료가 없기 때문이다.

이 시리즈의 실제 목표는 다르다. “어떤 조건에서 어떤 모델이 최적인가”를 정량적으로 이해하는 것이 목표다.
그러려면 단일 모델을 최적화하는 대신 여러 모델을 한 평면에 놓고 비교해야 한다.

경량 모델과 대형 모델을 함께,
한국어 전용 모델과 다국어 모델을 함께,
사전학습 모델과 from-scratch 모델을 함께 놓아야 각 축의 효과가 분리되어 보인다.

즉 8개 모델은 “정답 후보”가 아니라 의사결정 공간을 scanning하기 위한 probe다.
정확도 1등이 누구인지보다 어떤 축이 정확도에 기여하고 어떤 축은 기여하지 않는지를 드러내는 것이 이 후보 설계의 진짜 산출물이다.

3 커버리지 매트릭스

8개 후보를 두 축으로 배치하면 다음 그림이 된다. 세로축은 사전학습·언어 커버리지 전략, 가로축은 파라미터 규모다.

                      경량            중형             대형
                   (< 50M)         (50M~150M)      (> 150M)
                 ───────────────────────────────────────────────
한국어 전용 SP    │ ALBERT (Kor)  │ KLUE-RoBERTa   │     -       │
                 │     13M       │     110M       │             │
                 │ DistilKoBERT  │ KoBERT         │             │
                 │     28M       │     92M        │             │
                 ├───────────────┼────────────────┼─────────────┤
다국어 SP         │      -        │ mBERT          │ XLM-RoBERTa │
                 │               │   167M         │    278M     │
                 ├───────────────┼────────────────┼─────────────┤
임베딩 동결        │      -        │      -         │ mE5 (frozen)│
+ LogReg         │               │                │ 278M (fix)  │
                 ├───────────────┼────────────────┼─────────────┤
from-scratch     │ BiLSTM (Kor)  │      -         │     -       │
(사전학습 없음)    │    671K       │                │             │
                 ───────────────────────────────────────────────

이 매트릭스가 각 칸마다 검증하려는 가설을 담고 있다. 예를 들어,
ALBERT와 mBERT를 함께 두는 이유는 “한국어 전용 경량 13M이 다국어 중형 167M과 어떻게 비교되는가”를 보기 위함이고,
BiLSTM을 둔 이유는 “사전학습 없이 char-level만으로 어디까지 가능한가”의 하한을 재기 위함이다.
각 축의 공백(예: 다국어 경량 칸이 비어 있음)은 해당 전략이 존재하지 않거나 실용적이지 않다는 사실 자체를 기록한다.

“왜 이 8개냐”라는 의문이 들 때 이 매트릭스 하나로 답할 수 있다. 각 칸이 다른 칸과 비교해 무엇을 증명하는가가 명확하기 때문이다.

4 네 개의 전략 공간

매트릭스를 세로축 기준으로 묶으면 네 개의 전략 공간이 된다.

한국어 전용 SP(SentencePiece) 사전학습 (KoBERT·KLUE-RoBERTa·ALBERT·DistilKoBERT) — 한국어 SentencePiece 토크나이저와 한국어 corpus로 처음부터 사전학습된 모델들. 이 task가 한국어 복합명사 분류이므로 기본 선택지.
다국어 SP 사전학습 (mBERT·XLM-RoBERTa) — 도메인명에 영어 혼재가 있는 상황(Q670이름, C510금리)을 다국어 모델이 더 잘 처리할 수 있는지 검증.
임베딩 동결 + 선형 분류기 (multilingual-e5 + LogReg) — 학습 비용 0의 baseline. MINERVA의 RAG Layer가 이미 임베딩 인프라를 쓰므로 호환성이 좋다. Fine-tuning 없이 어디까지 되는가의 상한.
From-scratch (BiLSTM) — 사전학습 없이 char-level로 출발. 절대 floor baseline이자 CPU-only 배포가 가능한 유일한 옵션.

각 공간에서 최소 한 개 이상, 가능하면 파라미터 규모 스펙트럼이 벌어지도록 2개 이상 선정하여 공간 내 효과와 공간 간 효과를 모두 분리해 볼 수 있게 구성했다.

5 각 모델 상세

각 모델에 대해 일곱 요소를 통일된 구조로 다룬다. 왜 후보에 포함·핵심 기술·이 task에서의 기대 장점·우려 단점·사전 가설·사후 실측 요약·종합 의미다.

5.1 BiLSTM (Kor) — 671K 파라미터

왜 후보에 포함했는가. 세 가지 이유를 겹쳐 포함했다.

Absolute floor baseline이 필요했다. 사전학습 모델끼리만 비교하면 정확도 차이가 어디서 오는지가 혼재된다. 상위 모델의 이득이 Transformer 구조에서 오는지, 한국어 SentencePiece 토크나이저에서 오는지, 한국어 corpus 사전학습에서 오는지가 한 표 위에서 섞여 분해되지 않는다. 사전학습도 없고 트랜스포머도 아닌 모델을 하나 두어야 이 세 축을 분리할 수 있다. 구체적으로 BiLSTM이 사전학습 모델 근처까지 따라오면 “이 task는 사전학습 이득이 크지 않다”는 ablation 증거가 되고, 크게 벌어지면 “사전학습이 결정적 레버”라는 반대 증거가 된다. 어느 쪽이든 “왜 이기는가”의 분해가 가능해진다. 이 floor 없이는 “KLUE가 1등이니 KLUE 쓰자”가 전부 될 뿐, 선택의 구조적 정당화가 빈다.
CPU 배포 실용성에서 압도적으로 유리하다. 오해를 먼저 걷어내면, BERT 계열도 CPU에서 돌릴 수는 있다. 가중치 400MB~1GB는 일반 서버 RAM에 충분히 들어가고, onnx·torch 모두 CPU 추론을 지원한다. 즉 “CPU 가능/불가능”의 이분법은 과한 프레임이다. 진짜 차이는 latency와 throughput의 규모에 있다. BERT-base급 모델의 CPU 단일 추론은 배치·최적화 전 기준 수십~100 ms 이상이 걸리고, 동시 요청이 누적되면 한 요청이 다른 요청을 블로킹한다. BiLSTM 671K는 구조적으로 가벼워 CPU 단일 추론이 한 자릿수 ms 수준으로 유지될 것으로 기대된다(엄밀한 수치는 실측 예정). 메모리 footprint(BiLSTM 2.7 MB vs BERT 400 MB+)까지 고려하면 동일 CPU 자원으로 확보 가능한 실시간성·동시 처리 능력이 수십 배 벌어진다. MINERVA Agent는 대화형 요청을 받아 지연 민감도가 높고, 사내 공용 GPU를 다른 서비스와 나눠 써야 하는 현실적 제약(queue wait·장애 전파)도 있다. GPU 의존 없이 실시간 UX를 유지할 수 있는 모델을 적어도 하나는 후보군에 두는 것이 배포·운영 강건성 확보 차원에서 필수였고, BiLSTM이 이 역할의 유일 후보다.
char-level 입력은 OOV(Out-of-Vocabulary) 문제를 구조적으로 회피한다. Subword 토크나이저(WordPiece·SentencePiece)는 학습 시 보지 못한 문자 조합을 만나면 UNK 토큰으로 뭉뚱그리거나 예상 밖 분할을 만든다. 본 프로젝트 입력에는 영문+숫자+한글 혼재(Q670이름, C510금리), 희귀 약어·기호 조합, 실무자 오타·표기 변형까지 들어올 여지가 있다. char-level BiLSTM은 vocab이 한글 음절 + 영문 + 숫자 + 특수기호로 유한·고정이라 이 모든 변이를 UNK 없이 받는다. 즉 입력 분포의 롱테일에 원천적으로 강건한 구조다. 사전학습 모델이 subword 분할 실패로 포착하지 못하는 비정형 입력에서 안전망 역할을 한다.

핵심 기술. 양방향 LSTM 2-layer에 character 또는 작은 subword 임베딩을 결합한 구조다. 사전학습 없이 무작위 초기화에서 출발하며, 도메인명 char 시퀀스를 양방향으로 읽어 context representation을 만든 후 14-class 분류한다. 파라미터 671K에 모델 파일 크기 2.7MB로 이 시리즈에서 압도적으로 가벼운 모델.

이 task에서 기대되는 장점. 짧은 입력(평균 6.3자)에 char-level이 구조적으로 정합한다. 접미사 신호가 마지막 몇 char에 집중되어 있다면 BiLSTM의 양방향성이 정확히 그 위치의 representation을 강화한다. 사전학습 bias가 없어 합성 데이터의 특이 패턴 영향도 제한적이다. 경량성 덕분에 학습·배포·유지보수 어느 축도 부담이 없다.

우려 단점. 사전학습 없는 한계로 샘플 효율이 낮다. 학습 수렴에 트랜스포머의 5배 이상 epoch이 필요할 가능성이 있다. 장기 의존성이 약해 긴 입력에선 불리하나 이 task는 짧아서 실질 영향 작음. 사전학습 모델 대비 해석 도구(attention map)가 빈약하다.

사전 가설. 90%대 초반 ~ 중반. 사전학습 모델 대비 2~4%p 열세를 예상. “의미 이해가 필요한 task가 아니므로 큰 gap은 아니지만, 확실히 BERT 계열에 밀릴 것”이 설계 시점 판단이었다.

사후 실측 요약. 단일 split Test Acc 94.81%는 사전 가설과 일치했으나, K-Fold CV 96.18% ± 0.41%로 KLUE-RoBERTa(96.88%)와 사실상 동급이 나왔다. 단일 split의 91.30%(CV fold 하나 기준)는 운이 나빴던 결과임이 확인됐다. 추론 속도 1.48ms로 8개 모델 중 압도적 1위. ALBERT·KLUE 등 사전학습 모델 대비 8~10배 빠르다. RAG-only holdout에서도 RAG 실데이터에서 정확도가 유지되어 합성 의존도 낮음이 확인됐다.

종합 의미. 설계 시점엔 “하한 측정용 baseline”이었으나 실험 전체 통합 결과 실질 default 배포 후보 1순위로 격상됐다. 671K 파라미터로 96%대 CV 정확도를 내면서 1.48ms 추론, CPU 동작, 합성 의존성 없음의 세 가지 특성이 모두 양수다. “BERT 썼는데 왜 BiLSTM이 배포 권장이냐”라는 의구심이 제기될 때 이 조합으로 근거 있게 답할 수 있다. “정확도에서 통계적 동등(K-Fold paired t-test p=0.73), 크기에서 1/164, 속도에서 1/7, 합성 의존성에서 낮음 — 네 축이 모두 긍정”이다.

5.2 KoBERT — 92M 파라미터

왜 후보에 포함했는가. SKT에서 공개한 한국어 BERT로, 2019~2021년 한국어 NLP 업계의 사실상 standard baseline이었다. 이 기간 발표된 한국어 분류·감성 분석·NER 논문의 상당수가 KoBERT를 비교 baseline으로 썼다.

핵심 기술. BERT-base 아키텍처(12 layer, 768 hidden, 12 heads)에 한국어 SentencePiece 토크나이저(vocab 8K)를 결합해 한국어 Wikipedia·뉴스 corpus로 사전학습했다. KLUE가 등장하기 전까지 한국어 BERT의 표준이었다.

이 task에서 기대되는 장점. 한국어 SP 토크나이저가 접미사(~코드, ~값, ~일시)를 한 토큰으로 정확히 분리한다. 사전학습 과정에서 이미 한국어 형태소 패턴과 접미사의 의미를 학습했으므로 fine-tuning 시 classification head만 새로 학습하면 된다. 적절한 크기(92M)라 GPU 메모리·학습 시간 부담이 중간 수준.

우려 단점. 2021년 이후 KLUE-RoBERTa가 사실상 후계자로 자리 잡으면서 SOTA 지위를 상실했다. vocab 8K는 현대 모델 기준 작은 편이라 희귀 어휘에서 불리할 수 있다. 사내 실험 결과 식별·번호 클래스에서 회귀 현상이 관찰됐다.

사전 가설. 95% 전후. KLUE-RoBERTa 대비 약간 열세(1~2%p)로 예상.

사후 실측 요약. 단일 split Test Acc 95.84%, 사전 가설과 일치. KLUE-RoBERTa와 McNemar Holm 보정 후 통계적 동등(ns). per-class F1에서 식별 클래스 회귀 확인. RAG-only holdout에서도 KLUE와 유사한 분포로 이동.

종합 의미. “왜 KoBERT도 후보였는가”에 대한 답은 단순하다. 업계 historical baseline을 비교에서 확보해야 했기 때문. 실측 결과 KLUE와 통계적 동등이 나와 “KoBERT 대신 KLUE를 선택한 근거”를 제시할 수 있게 됐다. 이 근거는 “최신성과 vocab 크기”다.

5.3 mBERT — 167M 파라미터

왜 후보에 포함했는가. 도메인명에 영어 혼재가 존재한다(Q670이름, C510금리). 이 상황에서 다국어 모델이 단일 언어 모델보다 유리한가를 검증할 필요가 있었다. Google이 공개한 공식 다국어 BERT로 104개 언어 Wikipedia로 사전학습되어 다국어 task의 industry-standard baseline이다.

핵심 기술. BERT-base 아키텍처를 104개 언어 Wikipedia 합성 corpus로 사전학습했다. vocab 110K이며 shared multilingual WordPiece 토크나이저를 쓴다. 한국어는 전체 corpus에서 차지하는 비중이 작아(약 5%) 한국어 특화 모델보다 한국어 표현력이 제한적이다.

이 task에서 기대되는 장점. 영어 prefix·suffix를 안정적으로 처리한다. 언어 간 전이학습 효과로 다국어 혼재 입력에 상대적으로 강건.

우려 단점. 한국어 비중이 낮아 한국어 전용 모델 대비 토크나이저 효율이 떨어진다. 한국어 접미사를 여러 subword로 잘라서 의미를 분산시킬 가능성. 167M 파라미터로 중형이지만 한국어 표현력 대비 효율이 낮다.

사전 가설. 93~95%. 한국어 전용 중형 모델보다 약간 열세로 예상.

사후 실측 요약. 단일 split Test Acc 95.52%. ALBERT(13M)와 McNemar p=1.0으로 완전 동률. 크기 12.7배 차이에도 정확도가 동일. RAG-only 정확도도 한국어 전용 모델 대비 유의미한 이득 없음. 접미사 ablation에서 한국어 SP 모델 대비 접미사 단일 토큰 분리 빈도 낮음 확인.

종합 의미. 이 모델의 후보 포함 가치는 “다국어 오버헤드는 이 task에서 정당화되지 않는다”는 결론을 수치로 뽑아낸 것이다. 만약 mBERT가 ALBERT를 2~3%p 앞섰다면 다국어 모델 선호 결정이 필요했을 것이다. 결과적으로 완전 동률이 나와 ALBERT(13M) 선택이 크기 1/12.7에 대해 성능 동등이라는 강한 근거로 작용했다. 탈락 확정 모델이지만 선정 가치는 제일 컸다.

5.4 ALBERT (Kor) — 13M 파라미터

왜 후보에 포함했는가. 프로덕션 제약(메모리·추론 속도) 대응의 경량 1순위 옵션이다. ALBERT(ICLR 2020)는 BERT의 1/10 파라미터로 유사 성능을 내는 구조로, cross-layer parameter sharing과 factorized embedding이 핵심 기술이다. 한국어로 pre-train된 버전이 공개되어 있어 한국어 task에 바로 적용 가능. 구조 자체 축소 (cross-layer parameter sharing) 이므로 증류 모델과 비교해 경량화 접근의 한 축을 대표한다. 모델 설계 재편 → 사전학습 처음부터 다시 → 한국어 corpus로 pre-train까지 거친 모델이므로, 이 task에 맞게 최적화된 경량 모델이 될 가능성이 있다.

핵심 기술. 12 layer가 각자 독립 파라미터를 갖는 BERT와 달리, ALBERT는 12 layer가 하나의 파라미터 세트를 공유한다(cross-layer sharing). 또한 embedding dim(128)과 hidden dim(768)을 factorize해 embedding layer 파라미터를 대폭 줄였다. 학습 목표는 NSP 대신 SOP(Sentence Order Prediction). 한국어 SentencePiece 재학습 후 한국어 corpus로 pre-train.

이 task에서 기대되는 장점. 파라미터 13M으로 KoBERT(92M)의 1/7 크기다. 모델 파일이 작아 배포 이미지·전송 비용·GPU 메모리 모두 유리. 한국어 SP 토크나이저라 접미사 분리 품질은 KoBERT·KLUE 동일 수준. 짧은 입력·제한된 클래스 공간이라 parameter sharing의 표현 용량 한계가 문제되지 않을 가능성이 높다.

우려 단점. 레이어 공유로 표현 용량이 구조적으로 제한된다. 복잡한 의미 이해가 필요한 task에서는 성능 포화가 빠르다. 이 task에는 해당되지 않을 것으로 예상했지만 확인 필요.

사전 가설. 93~95%. BERT-base 대비 1~2%p 열세 예상. “크기가 1/7이면 정확도도 약간 떨어지겠지만 그 대가로 경량성을 얻는다”는 trade-off 판단.

사후 실측 요약. 단일 split Test Acc 95.58%. KLUE-RoBERTa(96.88%)와 McNemar Holm 보정 후 통계적 동등(ns). mBERT(167M)와 p=1.0 완전 동률. 사전 가설 “약간 열세”보다 오히려 좋게 나왔다. 그러나 latency 측정에서 추론 12.49ms — 8개 모델 중 가장 느림. parameter sharing이 메모리는 줄이지만 각 layer 호출 시 같은 weight를 반복 호출해 순차 계산 비용이 늘어나는 구조적 특성. K-Fold에서 BiLSTM과 paired t-test p=0.73으로 통계적 동등.

종합 의미. 이 모델에 대한 평가는 전체 통합 과정에서 두 번 뒤집혔다.
- 첫 번째는 “크기 대비 성능이 너무 좋다 → 실질 최적해”로 격상됐고,
- 두 번째는 “속도가 예상 외로 느리고 BiLSTM과 통계적 동등 → 실질 우위 없음”으로 다시 내려왔다.

이 반전 자체가 단일 지표(정확도)로 결정하지 않는 것이 왜 중요한지를 보여주는 사례다. 최종 배포 권장에서 BiLSTM에 밀리지만, 특정 조건(일반단어 후처리 분리 + RAG 13cls 강건성)에서는 여전히 상위 후보. 이 “두 번 뒤집힌 평가”를 정직하게 서사화할 수 있다는 점이 이 모델의 숨은 가치다.

5.5 DistilKoBERT — 28M 파라미터

왜 후보에 포함했는가. Knowledge Distillation 접근의 경량화 대안이다. KoBERT의 공식 distilled 버전(Monologg 공개)으로, DistilBERT 방법론을 한국어 BERT에 적용했다. 경량화 접근이 “구조 공유(ALBERT) vs 증류(DistilKoBERT)” 두 축으로 나뉘는데, 둘 다 비교해야 어떤 방향이 이 task에 맞는지 알 수 있다. - Knowledge Distillation (지식 증류): 큰 모델(Teacher)이 가진 “판단 능력”을 작은 모델(Student)에게 옮기는 모델 압축기법이다. Hinton et al. 2015년 논문으로 정립. 화학 증류처럼 “Teacher 모델이 학습한 지식 중 핵심만 뽑아(정제·농축) Student 모델에 담는다”는 비유. 학습 결과 전수 (Teacher 모방)로 이미 학습된 Teacher 재활용 → 사전학습 비용 절약이 가능하다. Teacher의 soft label(출력 확률 분포)을 Student가 모방하도록 학습한다. 일반적으로 Teacher보다 작은 모델이지만, Teacher의 지식을 압축해서 담으므로 Teacher보다 성능이 크게 떨어지지 않는 경우가 많다. DistilBERT는 BERT-base에서 40% 파라미터를 줄이면서도 97% 성능을 유지하는 것으로 알려져 있다.

  핵심 메커니즘

  Teacher (큰 모델, 잘 학습됨)
     │
     ├─ 같은 입력에 대한 출력 확률 분포(soft label)
     │
     ▼
  Student (작은 모델)
     입력 + (정답 hard label + Teacher의 soft label) → 학습

핵심 기술. Teacher(KoBERT, 92M) → Student(6 layer, 28M) distillation. Teacher의 logits과 attention을 Student가 모사하도록 학습한다. 파라미터 1/3, 추론 속도 약 2배로 알려져 있다.

이 task에서 기대되는 장점. KoBERT보다 가볍고 빠르다. HuggingFace 표준 지원으로 배포 파이프라인이 단순. 한국어 SP 토크나이저 유지로 접미사 처리 품질은 baseline 수준.

우려 단점. 증류 과정의 본질적 손실. Teacher가 가진 지식 중 일부가 반드시 유실된다. ALBERT(13M)와 비교했을 때 크기 2배에 정확도가 더 좋아야 선택 가치가 있다.

사전 가설. 93~94%. KoBERT(95%) 대비 1~2%p 손실 예상.

사후 실측 요약. 단일 split Test Acc 93.12%. ALBERT(13M, 95.58%) 대비 크기 2배이면서 정확도 -2.5%p. 모든 축에서 ALBERT에 완전 dominated. RAG-only, latency에서도 일관되게 하위. 통계적으로 ALBERT에 McNemar 로 유의하게 열세.

종합 의미. “경량화 접근 두 축 비교에서 증류가 졌다”는 결론이 이 모델 포함의 정당성이다. 학계 통념으로 증류는 BERT 경량화의 표준이지만 이 task에서는 ALBERT의 parameter sharing이 이겼다. 이것은 task-specific한 실증이므로 다른 task에 그대로 일반화되지 않지만, 본 프로젝트에서는 DistilKoBERT 탈락이 확정됐다. “왜 증류 모델은 안 썼나”라는 의문이 들 때 “실험했고 ALBERT 대비 모든 축에서 열세”라고 답할 근거가 확보됐다.

5.6 KLUE-RoBERTa — 110M 파라미터

왜 후보에 포함했는가. 한국어 NLU 벤치마크(KLUE, 2021)를 염두에 두고 설계된 한국어 NLU 현재 SOTA다. KoBERT의 사실상 후계자이자 본 프로젝트의 정확도 상한을 측정하기 위한 reference 모델로 필수 포함.

핵심 기술. RoBERTa 학습 레시피(dynamic masking, no NSP, 큰 batch, 긴 학습)에 KLUE 벤치마크 맞춤 한국어 SentencePiece(vocab 32K)를 결합해 62GB 한국어 corpus로 대규모 pre-train했다. KLUE 벤치마크의 8개 task 전반에서 공개 당시 SOTA.

이 task에서 기대되는 장점. 한국어 SP 토크나이저의 최신 버전(vocab 32K). RoBERTa 개선사항이 한국어에 그대로 적용됨. 62GB 대규모 corpus의 표현력. 이 task에서도 상위권이 거의 확정적.

우려 단점. 110M 중형이라 Azure GPU 배포는 문제없지만 엣지·CPU 부적합. 추론 속도·배포 이미지 크기에서 ALBERT·BiLSTM 대비 불리. 대규모 corpus의 표현력이 이 짧은 입력 task에서 대부분 “유휴” 상태일 가능성.

사전 가설. 96~97%, 전 모델 중 최고 정확도. 정확도 상한 제공이 역할.

사후 실측 요약. 단일 split Test Acc 96.88% — 실측 1위. 사전 가설과 정확히 일치. 단 상위 5개 모델과 McNemar Holm 보정 후 통계적 등급 하나로 묶임. RAG-only에서도 97.51%로 RAG 2위. 일반단어 제외 시 98.07%로 5/8 모델 중 하나가 97~98% 구간에 들어감. latency 12.25ms로 중간 수준.

종합 의미. 이 모델은 “정확도 상한”이라는 role을 정확히 수행했다. BiLSTM이 실질 default로 격상된 이유도 “KLUE라는 상한과 K-Fold CV 0.7%p 이내로 붙기 때문”이다. 즉 KLUE 없이는 BiLSTM의 우수성을 증명할 수 없었다. 최종 배포 1순위는 아니지만 vs KLUE 비교 frame이 프로젝트 전체의 해석 기준을 제공한다.

5.7 XLM-RoBERTa — 278M 파라미터

왜 후보에 포함했는가. Facebook/Meta가 공개한 다국어 SOTA다. mBERT의 후속·개선 버전으로, CommonCrawl 2.5TB라는 대규모 다국어 corpus로 사전학습되어 비영어 언어 성능이 대폭 강화됐다. mBERT와 함께 두어 “다국어 모델 스펙트럼”을 스캔.

핵심 기술. RoBERTa 아키텍처 × 100개 언어 × CC100 corpus. vocab 250K로 매우 큼. 크기 base/large 두 버전 중 base(278M)를 사용.

이 task에서 기대되는 장점. 다국어 사전학습 corpus 양에서 mBERT를 압도. 한국어 비중도 mBERT 대비 크게 늘어났다. 영어 혼재 입력 처리에 상대적으로 강건. CommonCrawl의 다양한 도메인·장르 노출로 일반화력 기대.

우려 단점. 278M 대형으로 한국어 전용 task에 오버스펙. 다국어 오버헤드 대비 이득이 실측으로 뒷받침되는지 확인 필요. 배포 이미지·추론 속도 모두 부담.

사전 가설. 95~96%. mBERT보다 개선되어 KLUE와 유사한 수준으로 예상.

사후 실측 요약. 단일 split Test Acc 96.49%. KLUE-RoBERTa(96.88%)와 McNemar 통계적 동등(ns). RAG-only에서 97.43%로 전 모델 중 1위. RAG 실데이터에 가장 강건한 것으로 확인됐다. latency는 상위 모델 중 중간 수준.

종합 의미. 설계 시점에는 “다국어 오버헤드 불필요”로 탈락 예상이었으나 RAG-only 1위가 나와 재평가가 필요해졌다. 프로덕션 배포 시 실데이터 분포가 RAG에 가깝다면 XLM-RoBERTa가 최상 선택이 된다. 다만 크기(278M)가 모든 배포 시나리오의 공통 제약이라 “RAG 강건성 우선” 시나리오에만 권장된다. 이 모델의 1위는 “합성 과적합 가설 기각”이라는 06편의 주요 결론을 견인한 단일 증거다.

5.8 multilingual-e5 (frozen) + LogReg — 278M (frozen) + 14×1024 파라미터

왜 후보에 포함했는가. 학습 없는 즉시 배포 가능성을 검증하기 위한 baseline이다. Microsoft의 e5 시리즈(2023)는 contrastive (의미가 비슷한 텍스트 = 가까운 벡터 공간 = 군집 이미 형성) 학습으로 범용 임베딩 공간을 만들어 단순 선형 분류기로 대충 선을 그어 그룹핑을 하는 모델로, MINERVA의 RAG Layer가 이미 임베딩 인프라를 운영한다면 동일 인프라를 분류기에도 재활용할 수 있다. 인프라 중복 회피라는 실무 관점의 가치가 크다.

핵심 기술. Pre-trained XLM-RoBERTa 기반 임베딩 모델 × contrastive 학습 + 상위에 단순 Logistic Regression (14개의 그룹을 선형으로 분리). 임베딩은 동결이고 LogReg만 14-class로 학습한다. fine-tuning 없음.

이 task에서 기대되는 장점. 학습 비용 0이고 재현성 100%다. 임베딩이 이미 고정이므로 추가 학습에 따른 unpredictability가 없다. RAG 인프라와 호환. 합성 데이터의 특이 패턴에 동결 임베딩이 적응하지 않으므로 합성 과적합 위험이 구조적으로 없다.

우려 단점. Task-specific fine-tuning 없음의 대가로 상당한 정확도 손실이 예상된다. 임베딩이 task에 맞게 움직이지 않으므로 fine-tuned 모델 대비 gap이 클 가능성.

사전 가설. 85~90%. Fine-tuned 모델 대비 5~10%p 열세 예상.

사후 실측 요약. 단일 split Test Acc 90.84% — 사전 가설과 일치. 다른 모델과 McNemar에서 대부분 유의하게 열세. 단 BiLSTM과는 McNemar ns(통계적 동등) 결과가 나와 671K BiLSTM과 동률이면서 278M 임베딩을 로드해야 한다는 역설적 비교가 드러남. RAG-only에서 정확도 드롭이 거의 없음 확인 — 합성 동결의 이론적 예측대로.

종합 의미. 정확도 순위에서는 최하위지만 “합성 데이터 영향을 받지 않는 유일한 모델”이라는 unique property가 있다. 또한 “MINERVA 임베딩 인프라 재활용” 가치는 단일 프로젝트의 정확도 지표 바깥에 있어 평가가 다르다. 최종 배포 기본값은 아니지만, “학습 없이 즉시 배포가 필요한 시나리오”의 유일한 후보로 여전히 존재 가치가 있다.

6 사후 통합 — 6가지의 사후 실험을 통해 드러낸 네 가지 메타 교훈

6.1 사후 실험 일람

이 시리즈에서 수행한 여섯 개의 사후 실험을 먼저 한 표로 정리한다.

번호	실험명	중심 질문	핵심 결과
실험 1	RAG-only Holdout	합성 73.6% 학습 데이터에 모델이 과적합됐나	기각. 8개 모두 RAG 서브셋에서 Full 대비 동등 또는 개선
실험 2	접미사 Ablation	도메인명 마지막 3자만으로 분류 가능한가	채택. 마지막 3자로 93.7% 달성 (baseline 94.81% 대비 −1.1%p)
실험 3	Per-source 오류 분석	KLUE/ALBERT만 RAG에서 상대적으로 약한 이유는	합성 특화 + `일반단어` 경계 약점. KLUE+ALBERT 동시 오답 ∧ 다른 모델 정답 = 9건(RAG 428건 중), 그중 18.2%가 `일반단어`
실험 4	일반단어 Noise Floor	96%대 천장의 원인이 `일반단어` 그룹인가	확인. 제외 시 상위 5개 모두 97~98% 구간으로 수렴
실험 5	K-Fold CV	단일 split이 경량 모델(BiLSTM)을 과소평가했나	BiLSTM CV 96.18% ± 0.41% → KLUE와 paired t-test p=0.73 (통계적 동등)
실험 6	Latency 실측	파라미터 수와 추론 속도가 비례하는가	불일치. ALBERT(13M) 12.49ms 가장 느림, BiLSTM(671K) 1.48ms 1위

각 실험이 담당하는 축은 다음과 같다.

실험 1·3 — 합성 데이터 리스크 정량화. 02편에서 복선으로 깔았던 “합성 73.6% 의존” 우려를 정면 검증한다.
실험 2·4 — Task 본질 해부. 접미사에 신호가 집중됨을 확인하고 일반단어 그룹의 구조적 한계를 정량화한다.
실험 5 — 단일 split 샘플링 노이즈 통제. 특히 경량 모델의 공정 평가에 필수다.
실험 6 — 파라미터 수와 추론 속도를 분리한 실측. 배포 의사결정의 핵심 축을 확보한다.

실험 1·2·3·4는 06편에서 Task 재정의의 근거로, 실험 5·6은 07편에서 배포 의사결정의 근거로 각각 활용된다. 구현 코드는 data_standardization/notebooks/domain_classification/ 아래 21_rag_holdout_eval.ipynb ~ 25_kfold_cv.ipynb 및 20_model_comparison.ipynb에 있다.

6.2 네 가지 메타 교훈

각 모델의 실측 결과를 한 편으로 되돌아보면 네 가지 메타 교훈이 드러난다.

첫째, 파라미터 스케일링이 이 task에서 포화된다. BiLSTM 671K와 XLM-RoBERTa 278M의 CV 정확도가 1%p 이내다. 400배 크기 차이가 정확도에 선형적으로 기여하지 않는다. 이유는 task 자체가 “의미 이해”가 아니라 “접미사·형태소 분류”이기 때문이다. 이것이 06편의 클라이맥스로 이어진다.

둘째, 파라미터 효율 지표(정확도/크기)가 극단적으로 BiLSTM에 유리하다. KLUE 0.88%p per M-param, ALBERT 7.35%p per M-param, BiLSTM 143.4%p per M-param. 이 task에서 “작은 것이 더 잘한다”는 직관이 수치로 확인된다.

셋째, 추론 속도와 파라미터 수가 선형 관계가 아니다. ALBERT(13M)가 KLUE(110M)보다 느리고, BiLSTM(671K)이 ALBERT보다 8배 빠르다. 이는 parameter sharing의 layer-wise 호출 비용과 Transformer의 attention complexity가 파라미터 수만으로 예측되지 않음을 보여준다. 배포 결정에서 latency 실측이 반드시 필요한 이유가 여기 있다.

넷째, 합성 73.6% 의존 가설이 기각됐다. 2편에서 06편으로의 복선으로 깔았던 “상위 모델이 합성 패턴 암기로 과대평가됐을 가능성”은 실험 1에서 정면 반박됐다. 8개 모델 중 6개가 RAG-only에서 오히려 더 정확해지거나 동등했다. 이는 합성 데이터 생성 프로세스가 실데이터 분포를 잘 모사했음을 의미하고, 설계 시점의 우려가 다행히 과잉이었음이 수치로 확인됐다. 가설이 기각되는 것도 정당한 과학적 결과이며, 이 검증 과정을 거치지 않았다면 “정확한 모델인지 과적합된 모델인지” 판단 없이 배포했을 것이다.

이 네 교훈 중 어느 하나도 단일 모델 fine-tuning만 해서는 얻을 수 없다. 8개 후보를 한 평면에 놓고 비교한 설계 자체의 산출물이다.

7 이 편의 핵심 메시지 한 줄

8개 모델은 정답을 찾기 위한 후보가 아니라 의사결정 공간을 scanning하기 위한 probe다. 설계가 성공했다는 증거는 “최고 정확도 모델을 찾았다”가 아니라 “각 축의 효과가 정량적으로 분리됐고, 예상과 다른 결과 네 가지가 관측됐다”는 점이다.

8 다음 편 예고

04편에서는 이 8개 모델을 공정하게 비교하기 위한 실험 파이프라인을 다룬다. Train/Val/Test 분할 전략(60/20/20 vs 70/10/20), Best Epoch 추적·복원, random_state·LabelEncoder 통일 같은 재현성 표준화가 주제다. 실험 파이프라인 자체가 방법론적 산출물이며, 이 편의 8개 모델 비교가 공정했음을 보증하는 기반이 된다.

9 관련 주제

이 편의 선행

시리즈 내 다음 편들

관련 카테고리

성능 지표 — F1 Score, Precision, Recall, AUC — 05편 통계 검증의 preceding
DL 학습 데이터가 거의 없을 때 — 도메인 분류기 증강 전략 — 모델별 샘플 효율 논의 세부