Kwangmin Kim - MINERVA 도메인 분류기 06: Task 재정의

1 이 편의 위치 — 시리즈의 클라이맥스

01~04편은 설계였고, 05편은 통계 검증이었다. 이 편은 그 모든 단서가 수렴하는 지점이다. 05편의 결과를 그대로 받아들이면 “상위 5개 모델이 통계적 등급 하나로 묶였고, ALBERT가 실질 최적”이라는 결론이 나온다. 그러나 이 결론만으로는 “왜 그런가” 라는 질문에 답할 수 없다. 왜 110M 파라미터 모델이 13M 모델과 통계적 동등인가. 왜 278M 다국어 모델이 671K BiLSTM과 McNemar ns인가. 왜 모든 모델이 일반단어에서 동시에 무너지는가.

이 질문들에 하나의 답이 있다. 이 task가 우리가 생각한 것과 다른 문제였다는 답이다. 이 편은 그 재정의를 세 개의 실험(실험 1, 실험 2, 실험 4)으로 검증하고, 재정의가 앞 편들의 결론에 어떻게 소급 작용하는지 정리한다.

2 세 단서를 한 방향으로 엮기

5편까지 반복해서 드러난 관찰 세 가지가 있다.

관찰 1 — 상위 5개 모델(KLUE·XLM·KoBERT·ALBERT·mBERT)이 Holm 보정 후 통계적 등급 하나로 묶인다. 파라미터 13M~278M 사이 21배 차이에도 정확도 차이가 유의하지 않다.
관찰 2 — ALBERT(13M)와 mBERT(167M)가 McNemar p = 1.000으로 완전 동률이다. b = 31, c = 30. 두 모델의 오답 패턴이 거의 구분되지 않는다.
관찰 3 — 8개 모든 모델이 일반단어 그룹에서 가장 낮은 F1을 기록한다. 개별 모델 역량의 차이가 이 그룹에서는 사라진다.

세 관찰이 우연이라면 이 편은 쓰지 않았을 것이다. 이 관찰들은 한 방향을 가리킨다. 모델의 표현력·파라미터 수·다국어 여부 같은 변수가 정확도를 결정하지 않는 영역에 와 있다는 방향이다. 그러면 정확도를 결정하는 것은 무엇인가. 이 질문이 세 개의 후속 실험을 설계하게 만들었다.

3 실험 2: 접미사 가설의 정면 검증

3.1 가설

한국어 복합명사의 구조는 [수식어] + [주제어] + [분류단어]다. 분류단어(일시, 코드, 값, 수 등)가 도메인 그룹을 직접 가리킨다. 만약 이 가설이 맞다면 모델이 학습한 신호의 대부분은 도메인명의 마지막 1~2 형태소에 있다.

3.2 실험 설계

BiLSTM을 세 조건에서 학습하고 비교한다.

A (baseline) — 도메인명 전체 (복합복합에너지단위배수)
B (suffix3) — 마지막 3자만 (위배수) — 여기서 위배수는 단위배수의 뒷부분
C (masked3) — 마지막 3자 제거 (복합복합에너지단) — 접미사 신호 완전 제거

만약 접미사 가설이 맞다면 B의 정확도는 A에 근접하고, C는 급락해야 한다. 가설이 틀렸다면 B는 급락하고 A와 C는 비슷해야 한다.

3.3 실측 결과

조건	입력 예시	Test Acc	chance level 대비
A (전체 도메인명)	복합복합에너지단위배수	94.81%	13.3배
B (suffix3)	위배수	93.7%	13.1배
C (masked3)	복합복합에너지단	43.4%	6.1배

A에서 B로 갈 때 떨어진 정확도가 1.1%p다. 거의 모든 정보가 마지막 3자에 있다는 결과다. 반면 A에서 C로 가면 -51.4%p 급락한다. 접미사를 가리는 순간 모델이 거의 무작위 추측 수준으로 내려간다(chance level 1/14 ≈ 7.14% 대비 6배이긴 하지만 A·B 대비 치명적).

3.4 결론 — 가설 강력 채택

이 결과는 단순하고 명확하다. 도메인 분류 task의 93%는 마지막 3자로 풀린다. 나머지 1.1%p가 본문 5~14자의 기여이고, 이것도 충분히 작다. 110M~278M 파라미터 모델의 long-range attention은 이 task에서 대부분 유휴 상태다.

이 결과로 관찰 1, 2가 설명된다. 상위 5개 모델이 통계적 등급 하나로 묶이는 이유는 한국어 SP 토크나이저가 접미사를 한 토큰으로 분리하는 능력이 다섯 모델 모두에서 동일하기 때문이다. 파라미터 수 차이가 의미 있으려면 그 파라미터가 하는 일(의미 이해, 장문 추론, 복잡 구조 파싱)이 있어야 하는데 이 task에는 그 일이 없다.

4 실험 1: 합성 데이터 갭 가설의 기각

4.1 가설과 우려

02편에서 복선으로 깔았던 우려다. 학습 데이터 73.6%가 합성(LLM 37.3% + 규칙 36.4%)이고, test set도 합성 포함이다. 상위 모델의 정확도 중 일부가 합성 템플릿 패턴의 암기일 가능성이 있었다. 이 가설이 맞다면 실데이터(RAG 2,030건)만으로 평가할 때 정확도가 큰 폭으로 떨어져야 한다.

4.2 실험 설계

04_merge_domain_sources에 source 컬럼(LLM / rule_based / RAG)을 추가하고 dl_cleaned_domain_train_data를 재생성한다. RAG 소스 2,030건만 필터링해 별도의 holdout test set을 구성한다. 8개 모델의 predictions.pkl을 재사용해 RAG-only Test Acc를 계산하고 합성 포함 test와 비교한다.

4.3 실측 결과

모델	Full Test Acc	RAG-only Test Acc	갭
KLUE-RoBERTa	96.88%	97.51%	+0.63%p
XLM-RoBERTa	96.49%	97.43%	+0.94%p
KoBERT	95.84%	96.72%	+0.88%p
ALBERT (Kor)	95.58%	97.04%	+1.46%p
mBERT	95.52%	95.67%	+0.15%p
BiLSTM	94.81%	95.67%	+0.86%p
DistilKoBERT	93.12%	93.95%	+0.83%p
multilingual-e5	90.84%	91.82%	+0.98%p

4.4 결론 — 가설 완전 기각

갭이 모두 양수다. 8개 모델 중 6개가 RAG에서 오히려 더 정확해졌고, mBERT는 거의 변화 없음, 전체 모델에서 정확도가 떨어진 경우가 하나도 없다. 합성 과적합이 있었다면 여기서 음의 갭이 나왔어야 한다. 나오지 않았다.

이 결과가 의미하는 것은 두 가지다.

첫째, 합성 데이터 생성 프로세스가 실데이터 분포를 잘 모사했다. LLM과 규칙 합성은 실데이터의 통계적 특성(접미사 분포, 길이 분포, 수식어 조합)을 재현하는 데 성공했다. 73.6% 합성 비율이 프로덕션 배포의 위험 요소가 아니라는 실증이다.

둘째, RAG 실데이터가 합성 데이터보다 오히려 분류가 쉬웠다. 이는 합성 쪽이 일부러 어려운 edge case를 포함했거나, 실데이터가 표준화 원칙을 더 엄격히 따르기 때문으로 해석된다. 어느 쪽이든 “합성에서 97% 나왔으니 실제로는 더 낮을 것”이라는 일반적 걱정이 이 프로젝트에서는 반대로 나왔다.

XLM-RoBERTa가 RAG-only에서 97.43%로 전 모델 1위가 된 것이 추가로 흥미롭다. 단일 split Full test에서는 2위였는데 RAG-only에서 순위가 올라갔다. 이는 “실데이터 robustness”가 일부 모델의 숨은 장점임을 시사한다.

4.5 가설 기각이라는 결과 자체의 가치

이 가설은 기각됐지만 검증 과정 자체가 의미가 크다. 가설이 맞다는 결과보다 기각된다는 결과가 의사결정에 더 중요한 경우가 많다. 이 프로젝트에서는 “합성 73.6%라서 프로덕션 성능이 떨어질 것이다”라는 우려가 실험 없이 기정사실로 남았다면, 배포 전에 RAG 추가 수집을 먼저 한다든가 하는 비용 많은 결정으로 이어졌을 것이다. 실험 1로 기각이 확인된 덕분에 바로 배포 단계로 넘어갈 수 있다.

02편에서 이 가설을 복선으로 심어둔 것은 결과적으로 “가설을 세우고 검증한 후 기각하는 과학적 과정의 기록”이 됐다. 기각된 복선도 기록의 가치가 있다. 검증 없이 “합성은 위험하다”고 주장하는 것보다 훨씬 설득력 있는 서사다.

5 실험 4: 일반단어 천장의 정체

5.1 관찰의 재확인

05편 per-class F1 heatmap에서 드러난 관찰 — 8개 모든 모델이 일반단어에서 가장 낮은 F1 — 의 원인을 정량화하는 실험이다. 일반단어는 정의상 “14개 그룹 중 어디에도 속하지 않는 나머지”다. 고유 접미사가 없고, 그룹 경계가 모호하다.

5.2 실험 설계

predictions.pkl에서 test 1,540건 중 일반단어 클래스를 제외한 13개 클래스만 남긴다. 이 부분집합에 대해 각 모델의 Test Acc를 재계산한다. 만약 일반단어가 천장의 주범이라면 제외 후 정확도가 급상승해야 한다.

5.3 실측 결과

모델	Full Test Acc	`일반단어` 제외	상승폭
KLUE-RoBERTa	96.88%	98.07%	+1.19%p
XLM-RoBERTa	96.49%	97.80%	+1.31%p
KoBERT	95.84%	97.13%	+1.29%p
ALBERT (Kor)	95.58%	97.41%	+1.83%p
mBERT	95.52%	97.02%	+1.50%p
BiLSTM	94.81%	96.14%	+1.33%p
DistilKoBERT	93.12%	94.76%	+1.64%p
multilingual-e5	90.84%	92.56%	+1.72%p

5.4 결론 — 천장은 데이터 한계

8개 중 5개 모델(KLUE·XLM·KoBERT·ALBERT·mBERT)이 일반단어 제외 시 97~98%대에 도달한다. 상승폭은 평균 1.47%p로 일관적이다. 이는 두 가지를 의미한다.

첫째, 천장의 본질이 “모델 역량”이 아니라 “데이터 한계”다. 일반단어 그룹이 정의상 고유 신호를 갖지 않으므로 어떤 모델도 이 그룹에서 높은 F1을 낼 수 없다. 이 그룹이 전체 정확도의 -1.5%p 정도를 일관되게 깎아내리고 있다.

둘째, 상위 5개 모델의 천장이 통계적으로 같은 위치에 있다. 제외 후 정확도가 97~98% 구간으로 모이는 것이 이 관찰의 정량 증거다. 즉 98%가 이 task의 “진짜 천장”이고, 남은 2%는 일반단어 같은 이론적 잔여 문제에서 온다.

5.5 배포 의사결정에 미치는 영향

이 결과는 07편 배포 결정에 실질적 옵션을 추가한다. 일반단어 그룹만 별도 처리하는 후처리 규칙을 만들면, 나머지 13개 클래스에 대해서는 ALBERT의 RAG 정확도가 98.48%까지 올라간다(전 모델 1위). 배포 시 “ALBERT + 일반단어 후처리 분리” 구조가 성능상 최고 옵션이 된다.

6 세 발견의 통합 — Task 재정의

실험 2, 실험 1, 실험 4를 한 문장으로 묶으면 이 task의 본질이 드러난다.

이 task는 “한국어 복합명사의 의미를 이해하고 14개 그룹 중 하나로 분류하는 문제”가 아니다. “한국어 복합명사의 마지막 1~2 형태소(접미사)를 식별하여 13개 유의미한 그룹 중 하나로 분류하고, 신호가 없는 14번째 잔여 그룹(일반단어)은 별도 처리하는 문제”다.

이 재정의는 몇 가지 축소와 몇 가지 확대를 동시에 가져온다.

6.1 Task의 축소

의미 이해가 거의 필요 없다 — 실험 2가 입증. 접미사 3자로 94%의 정보가 설명된다.
장문 attention이 필요 없다 — 도메인명 평균 길이 6.3자에서 long-range attention은 원천적으로 작동할 공간이 없다.
합성 데이터 우려가 없다 — 실험 1이 기각. 생성 프로세스가 실데이터 분포를 잘 모사한다.

6.2 Task의 확대

토크나이저 품질이 결정적 변수가 된다 — 한국어 SP가 접미사를 한 토큰으로 분리하는가가 모델 선택의 핵심 축이 된다. 파라미터 수가 아니다.
일반단어 처리가 분리된 서브 문제가 된다 — 모델 단독으로는 풀 수 없는 영역이라 데이터 레벨 또는 후처리 레벨 접근이 필요하다.
경량 모델이 정당한 선택지가 된다 — 특히 BiLSTM 같은 char-level 구조가 접미사 식별에 구조적으로 정합하다는 실증이 있다.

7 재정의가 앞 편들의 결론을 어떻게 다시 쓰는가

이 재정의는 이전 편들의 결론에 소급 작용한다. 몇 가지만 예시로 든다.

7.1 05편의 “상위 5개 통계적 등급”의 정체

05편에서 Holm 보정 후 상위 5개가 한 등급으로 묶이는 것을 관찰했다. Task 재정의 후 이 묶음의 정체가 드러난다. 이 다섯 모델이 공유하는 것은 “한국어 SP 또는 다국어 SP 중 한국어 접미사를 한 토큰으로 분리할 수 있는 능력”이다. KLUE·KoBERT·ALBERT는 한국어 전용 SP로, mBERT·XLM은 다국어 SP로 같은 일을 한다. 토크나이저 품질이 동급인 한 파라미터 수는 무의미하다.

7.2 03편의 “8개 모델은 의사결정 공간 probe”의 진짜 의미

03편에서 8개 모델이 probe라고 썼다. Task 재정의 후 이 probe들이 무엇을 scanning했는지가 선명해진다. 본질적으로 이 probe 설계는 “토크나이저 품질 축”과 “파라미터 수 축”을 각각 분리 측정하려던 시도였다. 결과적으로 전자가 지배적이고 후자가 무의미함이 확인됐다.

7.3 02편의 “도메인명 한 컬럼 입력”의 새로운 근거

02편에서 도메인명만 입력으로 쓰는 결정을 서비스 스키마 일치·redundancy+noise 분해·접미사 신호 집중의 세 축으로 정당화했다. Task 재정의 후 세 번째 근거가 압도적으로 강해진다. 접미사에 거의 모든 신호가 있다면 설명·데이터 타입·인포타입 등 다른 컬럼이 줄 수 있는 추가 신호가 이론적으로 제한적이다. 실험 7(설명 컬럼 ablation)이 실행되면 예상대로 ns가 나올 것이고, 이것 역시 접미사 가설의 간접 증거가 된다.

7.4 04편의 “K-Fold가 드러낸 BiLSTM 격상”의 이유

04편에서 BiLSTM이 단일 split 91.30%였지만 K-Fold CV에서 96.18%로 격상됐다는 관찰을 공유했다. Task 재정의 후 이 격상이 놀랍지 않게 된다. BiLSTM은 char-level로 접미사를 구조적으로 처리한다. 이 구조가 이 task와 정합할 때, 단일 split의 샘플링 운에 따른 변동성은 K-Fold 평균에서 사라진다. BiLSTM의 96.18%는 “사전학습 없이도 접미사 task는 풀 수 있다”는 실증이다.

8 이 재정의가 다른 프로젝트로 전이되는가

Task 재정의가 본 프로젝트의 결론만 바꾸는 것이 아니라면, 이 관찰이 어느 범위까지 일반화되는지가 중요해진다.

짧은 입력·제한된 분류 공간·고유 접미사가 있는 유사 task에는 이 재정의가 그대로 전이된다. 예를 들어 품사 태깅, 형태소 분류, 짧은 문장 감정 분류 중 일부가 여기에 해당한다. 이런 task에서 대형 LM 선택은 오버스펙일 가능성이 높고, 경량 모델 + 한국어 특화 토크나이저가 실질 최적이 될 가능성이 크다.

반대로 긴 문맥 이해가 필요한 task(예: 문서 요약, 긴 텍스트 분류, 감정의 뉘앙스 구분)에는 이 재정의가 전이되지 않는다. 그런 task에서는 파라미터 스케일링이 여전히 효과가 있다. 이 프로젝트의 결론을 “BiLSTM이 BERT보다 낫다”로 과잉 일반화하면 위험하다. “이 task에서는 BiLSTM이 충분하다”가 정확한 진술이다.

MINERVA 과제 3(인실리코 분석 Agent)에는 Task 재정의가 부분적으로 전이될 것으로 예상된다. 코드 메타데이터 분류 중 함수명·변수명의 suffix 기반 분류는 이 task와 유사한 구조를 가질 수 있다. 반면 함수 설명·흐름 이해는 다른 구조다. 어떤 부분이 어떤 task와 유사한지 사전 분석이 필요하다.

9 이 편의 한 줄 결론

이 task의 본질은 “한국어 복합명사의 마지막 1~2 형태소 식별 + 잔여 그룹 후처리”다. 이 재정의가 있기에 13M ALBERT가 278M XLM과 통계적 동등이고, 671K BiLSTM이 K-Fold CV에서 KLUE와 사실상 동급인 현상이 설명된다. 파라미터 스케일링은 이 task에서 포화됐고, 토크나이저 품질과 char-level 구조가 실제 차이를 만든다.

10 다음 편 예고

07편은 이 재정의를 기반으로 최종 배포 결정과 후속 실험 로드맵을 정리한다. BiLSTM·ALBERT·KLUE·XLM·mE5 다섯 후보의 시나리오별 권장, ALBERT의 추론 속도 역설(12.49ms — 가장 느림)이 어떻게 BiLSTM 격상으로 이어지는지, 그리고 실험 7(설명 컬럼) · 실험 8(rule/SVM baseline) 같은 추가 실험 설계를 다룬다.

11 관련 주제

이 편의 선행

시리즈 내 다음 편

07편: 배포 의사결정과 후속 실험

관련 카테고리

DL 학습 데이터가 거의 없을 때 — 도메인 분류기 증강 전략 — 샘플 수 추정 시 접미사 가설의 초기 등장