Kwangmin Kim - 쉬워 보이는 97%를 어떻게 방어하는가

1 문제 제기

한국어 도메인 분류 task(14그룹, 7,698건)에서 KLUE-RoBERTa가 96.88%, ALBERT 95.58%, BiLSTM 94.81%가 나왔다. 표면만 보면 “도메인명을 feature로 넣고 딥러닝을 돌렸으니 97%는 당연한 것 아닌가”라는 의구심이 따라붙는다. 실제로 “BERT 썼더니 97% 나왔다”만 내세우면 이 의구심에 바로 무력화된다.

그러나 비판은 한 덩어리가 아니라 결이 다른 여러 갈래로 갈라진다. 각 결마다 정량적으로 대응할 자료가 실험 결과 안에 이미 쌓여 있다. 방어는 “문제 난이도”가 아니라 프로젝트가 증명한 것의 프레임으로 전환해야 한다.

2 예상 비판 네 가지

2.1 비판 1 — “접미사 regex로 풀리지 않는가”

가장 날카로운 비판이다. “~코드 → 코드 그룹”처럼 접미사가 정답에 강하게 상관되어 있으니, 정규표현식 수십 줄이면 풀릴 것이라는 직관이다.

표면적으로 맞는 말이지만 실제로 구현을 시작하면 무너지는 지점이 있다.

접미사 공유: “코드”라는 문자열은 코드 그룹뿐 아니라 식별 그룹(예: 사용자인증코드)에도 등장한다. 14그룹의 우선순위·예외를 명시 규칙으로 관리하면 수백 개 규칙 체계가 된다.
신규 복합명사 일반화: Rule Layer가 이미 사전 매칭을 담당하는데도 ML을 추가로 두는 이유는, 사전에 없는 새 접미사·주제어 조합을 subword·char 표현으로 일반화하기 위함이다. Q670이름, C510금리처럼 영문 prefix가 섞인 복합명사에서는 regex가 무너진다.
일반단어 그룹: 정의상 잔여 카테고리라 고유 접미사가 없다. 500건 이상의 중량 클래스인데 regex 커버리지가 0에 수렴한다. 이 그룹만으로도 pure rule 접근의 천장은 90% 아래다.
결정타: 이 비판을 완전히 무력화하는 가장 깔끔한 방식은 TF-IDF + char n-gram + Linear SVM 같은 경량 baseline을 실제로 돌려 수치로 보이는 것이다. 예상치는 85% 전후이고, 이 숫자가 “단순 rule로 풀린다”는 주장을 정량적으로 깬다. 후술하는 EXP-8이 이 역할을 한다.

2.2 비판 2 — “BERT까지 쓸 일이었나. BiLSTM과 2%p 차이면 오버스펙 아닌가”

이 비판은 오히려 프로젝트에 유리하게 작용한다.

2%p 차이 자체가 task 구조의 핵심 발견이다. 의미 이해 기반 task였다면 BERT가 BiLSTM을 10%p 이상 앞섰을 것이다. 접미사 중심 task의 특성이 이 관찰에서 드러난다.
이 발견이 ALBERT(13M) 배포 권장을 이끈다. “BERT가 오버킬”이라는 판단을 먼저 인정하고 경량 모델을 선택하는 프로젝트가, “BERT 썼으니 최고”라고 우기는 프로젝트보다 실무 신뢰도가 높다.
경량 baseline 8개 포함 자체가 탐색 설계다. 커버리지 매트릭스가 이 질문의 답이다.

2.3 비판 3 — “97%가 천장이면 데이터가 쉬운 것이고 하드 벤치마크가 아니다”

McNemar + Holm 보정 결과, 상위 다섯 모델이 통계적으로 등급 하나로 묶인다. “모델 선택 이슈가 아니라 이 데이터셋 자체의 천장”이라는 의미다.
천장의 정체는 단순 쉬움이 아니라 일반단어 noise floor + 합성 데이터 73.6% 의존이다. 이 가설은 task 재정의 파트에서 정면으로 명시한다.
벤치마크 순위가 아니라 실서비스 배포 타당성 증명이 프로젝트 목표다. 97%는 KPI 95%를 넘긴 수치이고, 경쟁 지표가 아니라 의사결정 근거다.

2.4 비판 4 — “14개 × 7,698건이면 데이터셋도 작고 문제도 제한적이다”

이 규모는 산업 실무의 현실이지 쉬움의 증거가 아니다. 사내 표준화 task는 대부분 이 규모다.
합성 데이터 73.6% 비중이 오히려 난이도를 올리는 축이다. 실데이터 2,030건만으로 학습했다면 정확도가 떨어졌을 가능성이 크고, RAG-only holdout 실험이 이 가설을 검증한다.
14그룹 중 일반단어·식별·번호 같은 경계 그룹이 실 난이도를 끌어올린다. 단순 정확도가 아니라 per-class F1과 파레토를 함께 보면 이 점이 드러난다.

3 프레임 전환 — 프로젝트의 실제 가치 세 축

비판 네 가지에 일일이 반박해도 방어적 톤에 머물면 설득력이 약하다. “이 프로젝트의 가치는 97%라는 숫자가 아니다”로 프레임을 바꾸면 외부에서 제기되는 유사한 의구심 전반에 일관되게 답할 수 있다.

3.1 축 1. 의사결정 경로 전체가 기록됨

입력 feature 선택, 모델 커버리지 전략, 통계 검증, Task 재정의, 후속 실험 설계 — 이 경로가 재사용 가능한 플레이북으로 남는다. 동일한 의사결정 구조가 후속 프로젝트에 그대로 전이된다. 자산은 최종 정확도가 아니라 경로 자체다.

3.2 축 2. 파라미터 스케일링의 포화 발견

“한국어 짧은 입력 task에서 13M과 278M이 통계적으로 동등하다”는 관찰은 한국어 텍스트 분류 baseline 설계를 바꿀 수 있는 수준의 메타 교훈이다. 후속 유사 task에서 모델 선택의 default를 경량 모델로 이동시키는 근거가 된다.

3.3 축 3. 결과에서 데이터 가설로의 역추적

일반적 ML 포스트가 “데이터 → 모델 → 결과” 방향으로 선형 진행하는 반면, 이 프로젝트는 결과가 드러낸 패턴에서 데이터 가설(접미사 task, 합성 과적합)을 재정립하는 역방향 경로를 보여준다. 이게 단순 벤치마크 report와 차별되는 지점이고, Task 재정의 파트의 클라이맥스다.

이 세 축을 최종 배포 의사결정 파트에서 명시하면, “쉬운 문제에 BERT 썼다”는 비판이 프로젝트 범위 자체를 축소 해석한 것임이 드러난다.

4 블로그 분산 배치 전략

“이건 쉬운 문제가 아니다”라고 한 편에서 열변하면 방어적 인상을 준다. 여러 편에 걸쳐 사례와 숫자로 축적하는 편이 설득력이 높다. minerva 시리즈 편별 배치는 다음과 같다.

편	배치 내용
02편 데이터 큐레이션	일반단어 noise floor 특성, 접미사 공유 사례 노출
03편 모델 후보 선정	regex·SVM baseline 부재를 인정하고 EXP-8로 예약
05편 통계 검증	BiLSTM vs BERT 2%p 차이를 “task 쉬움”이 아니라 스케일링 포화로 해석
06편 Task 재정의	천장의 정체(일반단어 + 합성 의존) 정면 분석
07편 배포 의사결정	“왜 이 데이터셋이 쉬워 보이는데도 프로젝트 가치가 있는가”의 결론

각 편에서 분량은 크지 않아도, 다섯 편이 누적되면 “쉬워 보이는 97%”에 대한 방어가 분산·정량적 근거로 완성된다.

5 EXP-8 — 정량적 방어의 핵심

후속 실험 목록에 아래 하나를 추가한다.

EXP-8. Rule / 경량 ML baseline 대조 실험

목적: “regex로 풀린다” / “ML 안 써도 된다” 의구심에 정량 답변 제공

단계	접근	예상 정확도	해석
A	Pure regex rule (14그룹 × suffix list 수기 작성)	70~85%	일반단어 0%, 접미사 공유 그룹 저조
B	TF-IDF char n-gram(n=2,3,4) + Linear SVM	85~92%	통계적 패턴만 잡는 한계 노출
C	BiLSTM (측정 완료)	94.81%	문맥 표현의 기여
D	ALBERT (측정 완료)	95.58%	경량 Transformer 수준
E	KLUE-RoBERTa (측정 완료)	96.88%	Full-size Transformer

해석 방향:

A가 낮으면 “rule로 충분” 비판이 즉시 무력화된다.
A → E 상승 곡선의 기울기가 각 접근의 한계를 정량화한다.
B가 92% 근처면 “경량 ML만으로도 된다”는 재비판이 가능해진다 → 이 경우 ALBERT 선택이 경량 ML + 미세 상승의 sweet spot임을 역으로 입증할 수 있다.

EXP-8 하나로 “쉬운 문제 아니냐”는 의구심 스펙트럼 전체에 일관된 숫자로 답할 수 있다. 시간 비용은 하루도 안 걸린다. regex는 수 시간, SVM은 수 분이다. 방어 비용 대비 극도로 저렴한 투자다.

6 결론

“쉬워 보이는 97%”는 프로젝트를 소개할 때 반드시 따라붙는 의구심이다. 이 의구심에 제대로 답하려면 세 층위가 필요하다.

정량 증거의 축적 — McNemar 상위 5개 묶음, BiLSTM-BERT 2%p 차이, 일반단어 noise floor, 합성 데이터 73.6% 의존, 그리고 EXP-8의 regex·SVM baseline.
분산 배치 — 방어를 한 편에 몰지 않고 02~07편에 걸쳐 사례·숫자로 축적한다.
프레임 전환 — “정확도 수치” 프레임에서 재사용 가능한 의사결정 플레이북 + 파라미터 스케일링 포화 발견 + 역방향 데이터 가설 정립으로 가치를 이동시킨다.

이 세 층위를 함께 쓰면, 유사한 의구심이 외부에서 어떤 맥락으로 제기되든 일관되게 답할 수 있다. 단일 수치는 약하지만, 구조적 증거와 프레임은 흔들리지 않는다.

7 관련 포스트

minerva-07: 배포 의사결정 — 세 축 프레임이 최종 의사결정에 적용되는 편
minerva-05: 통계 검증 — McNemar + Holm 보정 상세
minerva-06: Task 재정의 — 접미사 task + 합성 의존 가설