1 문제 제기
한국어 도메인 분류 task(14그룹, 7,698건)에서 KLUE-RoBERTa가 96.88%, ALBERT 95.58%, BiLSTM 94.81%가 나왔다. 표면만 보면 “도메인명을 feature로 넣고 딥러닝을 돌렸으니 97%는 당연한 것 아닌가”라는 의구심이 따라붙는다. 실제로 “BERT 썼더니 97% 나왔다”만 내세우면 이 의구심에 바로 무력화된다.
그러나 비판은 한 덩어리가 아니라 결이 다른 여러 갈래로 갈라진다. 각 결마다 정량적으로 대응할 자료가 실험 결과 안에 이미 쌓여 있다. 방어는 “문제 난이도”가 아니라 프로젝트가 증명한 것의 프레임으로 전환해야 한다.
2 예상 비판 네 가지
2.1 비판 1 — “접미사 regex로 풀리지 않는가”
가장 날카로운 비판이다. “~코드 → 코드 그룹”처럼 접미사가 정답에 강하게 상관되어 있으니, 정규표현식 수십 줄이면 풀릴 것이라는 직관이다.
표면적으로 맞는 말이지만 실제로 구현을 시작하면 무너지는 지점이 있다.
- 접미사 공유: “코드”라는 문자열은 코드 그룹뿐 아니라 식별 그룹(예: 사용자인증코드)에도 등장한다. 14그룹의 우선순위·예외를 명시 규칙으로 관리하면 수백 개 규칙 체계가 된다.
- 신규 복합명사 일반화: Rule Layer가 이미 사전 매칭을 담당하는데도 ML을 추가로 두는 이유는, 사전에 없는 새 접미사·주제어 조합을 subword·char 표현으로 일반화하기 위함이다.
Q670이름,C510금리처럼 영문 prefix가 섞인 복합명사에서는 regex가 무너진다. - 일반단어 그룹: 정의상 잔여 카테고리라 고유 접미사가 없다. 500건 이상의 중량 클래스인데 regex 커버리지가 0에 수렴한다. 이 그룹만으로도 pure rule 접근의 천장은 90% 아래다.
- 결정타: 이 비판을 완전히 무력화하는 가장 깔끔한 방식은 TF-IDF + char n-gram + Linear SVM 같은 경량 baseline을 실제로 돌려 수치로 보이는 것이다. 예상치는 85% 전후이고, 이 숫자가 “단순 rule로 풀린다”는 주장을 정량적으로 깬다. 후술하는 EXP-8이 이 역할을 한다.
2.2 비판 2 — “BERT까지 쓸 일이었나. BiLSTM과 2%p 차이면 오버스펙 아닌가”
이 비판은 오히려 프로젝트에 유리하게 작용한다.
- 2%p 차이 자체가 task 구조의 핵심 발견이다. 의미 이해 기반 task였다면 BERT가 BiLSTM을 10%p 이상 앞섰을 것이다. 접미사 중심 task의 특성이 이 관찰에서 드러난다.
- 이 발견이 ALBERT(13M) 배포 권장을 이끈다. “BERT가 오버킬”이라는 판단을 먼저 인정하고 경량 모델을 선택하는 프로젝트가, “BERT 썼으니 최고”라고 우기는 프로젝트보다 실무 신뢰도가 높다.
- 경량 baseline 8개 포함 자체가 탐색 설계다. 커버리지 매트릭스가 이 질문의 답이다.
2.3 비판 3 — “97%가 천장이면 데이터가 쉬운 것이고 하드 벤치마크가 아니다”
- McNemar + Holm 보정 결과, 상위 다섯 모델이 통계적으로 등급 하나로 묶인다. “모델 선택 이슈가 아니라 이 데이터셋 자체의 천장”이라는 의미다.
- 천장의 정체는 단순 쉬움이 아니라 일반단어 noise floor + 합성 데이터 73.6% 의존이다. 이 가설은 task 재정의 파트에서 정면으로 명시한다.
- 벤치마크 순위가 아니라 실서비스 배포 타당성 증명이 프로젝트 목표다. 97%는 KPI 95%를 넘긴 수치이고, 경쟁 지표가 아니라 의사결정 근거다.
2.4 비판 4 — “14개 × 7,698건이면 데이터셋도 작고 문제도 제한적이다”
- 이 규모는 산업 실무의 현실이지 쉬움의 증거가 아니다. 사내 표준화 task는 대부분 이 규모다.
- 합성 데이터 73.6% 비중이 오히려 난이도를 올리는 축이다. 실데이터 2,030건만으로 학습했다면 정확도가 떨어졌을 가능성이 크고, RAG-only holdout 실험이 이 가설을 검증한다.
- 14그룹 중 일반단어·식별·번호 같은 경계 그룹이 실 난이도를 끌어올린다. 단순 정확도가 아니라 per-class F1과 파레토를 함께 보면 이 점이 드러난다.
3 프레임 전환 — 프로젝트의 실제 가치 세 축
비판 네 가지에 일일이 반박해도 방어적 톤에 머물면 설득력이 약하다. “이 프로젝트의 가치는 97%라는 숫자가 아니다”로 프레임을 바꾸면 외부에서 제기되는 유사한 의구심 전반에 일관되게 답할 수 있다.
3.1 축 1. 의사결정 경로 전체가 기록됨
입력 feature 선택, 모델 커버리지 전략, 통계 검증, Task 재정의, 후속 실험 설계 — 이 경로가 재사용 가능한 플레이북으로 남는다. 동일한 의사결정 구조가 후속 프로젝트에 그대로 전이된다. 자산은 최종 정확도가 아니라 경로 자체다.
3.2 축 2. 파라미터 스케일링의 포화 발견
“한국어 짧은 입력 task에서 13M과 278M이 통계적으로 동등하다”는 관찰은 한국어 텍스트 분류 baseline 설계를 바꿀 수 있는 수준의 메타 교훈이다. 후속 유사 task에서 모델 선택의 default를 경량 모델로 이동시키는 근거가 된다.
3.3 축 3. 결과에서 데이터 가설로의 역추적
일반적 ML 포스트가 “데이터 → 모델 → 결과” 방향으로 선형 진행하는 반면, 이 프로젝트는 결과가 드러낸 패턴에서 데이터 가설(접미사 task, 합성 과적합)을 재정립하는 역방향 경로를 보여준다. 이게 단순 벤치마크 report와 차별되는 지점이고, Task 재정의 파트의 클라이맥스다.
이 세 축을 최종 배포 의사결정 파트에서 명시하면, “쉬운 문제에 BERT 썼다”는 비판이 프로젝트 범위 자체를 축소 해석한 것임이 드러난다.
4 블로그 분산 배치 전략
“이건 쉬운 문제가 아니다”라고 한 편에서 열변하면 방어적 인상을 준다. 여러 편에 걸쳐 사례와 숫자로 축적하는 편이 설득력이 높다. minerva 시리즈 편별 배치는 다음과 같다.
| 편 | 배치 내용 |
|---|---|
| 02편 데이터 큐레이션 | 일반단어 noise floor 특성, 접미사 공유 사례 노출 |
| 03편 모델 후보 선정 | regex·SVM baseline 부재를 인정하고 EXP-8로 예약 |
| 05편 통계 검증 | BiLSTM vs BERT 2%p 차이를 “task 쉬움”이 아니라 스케일링 포화로 해석 |
| 06편 Task 재정의 | 천장의 정체(일반단어 + 합성 의존) 정면 분석 |
| 07편 배포 의사결정 | “왜 이 데이터셋이 쉬워 보이는데도 프로젝트 가치가 있는가”의 결론 |
각 편에서 분량은 크지 않아도, 다섯 편이 누적되면 “쉬워 보이는 97%”에 대한 방어가 분산·정량적 근거로 완성된다.
5 EXP-8 — 정량적 방어의 핵심
후속 실험 목록에 아래 하나를 추가한다.
EXP-8. Rule / 경량 ML baseline 대조 실험
- 목적: “regex로 풀린다” / “ML 안 써도 된다” 의구심에 정량 답변 제공
| 단계 | 접근 | 예상 정확도 | 해석 |
|---|---|---|---|
| A | Pure regex rule (14그룹 × suffix list 수기 작성) | 70~85% | 일반단어 0%, 접미사 공유 그룹 저조 |
| B | TF-IDF char n-gram(n=2,3,4) + Linear SVM | 85~92% | 통계적 패턴만 잡는 한계 노출 |
| C | BiLSTM (측정 완료) | 94.81% | 문맥 표현의 기여 |
| D | ALBERT (측정 완료) | 95.58% | 경량 Transformer 수준 |
| E | KLUE-RoBERTa (측정 완료) | 96.88% | Full-size Transformer |
해석 방향:
- A가 낮으면 “rule로 충분” 비판이 즉시 무력화된다.
- A → E 상승 곡선의 기울기가 각 접근의 한계를 정량화한다.
- B가 92% 근처면 “경량 ML만으로도 된다”는 재비판이 가능해진다 → 이 경우 ALBERT 선택이 경량 ML + 미세 상승의 sweet spot임을 역으로 입증할 수 있다.
EXP-8 하나로 “쉬운 문제 아니냐”는 의구심 스펙트럼 전체에 일관된 숫자로 답할 수 있다. 시간 비용은 하루도 안 걸린다. regex는 수 시간, SVM은 수 분이다. 방어 비용 대비 극도로 저렴한 투자다.
6 결론
“쉬워 보이는 97%”는 프로젝트를 소개할 때 반드시 따라붙는 의구심이다. 이 의구심에 제대로 답하려면 세 층위가 필요하다.
- 정량 증거의 축적 — McNemar 상위 5개 묶음, BiLSTM-BERT 2%p 차이, 일반단어 noise floor, 합성 데이터 73.6% 의존, 그리고 EXP-8의 regex·SVM baseline.
- 분산 배치 — 방어를 한 편에 몰지 않고 02~07편에 걸쳐 사례·숫자로 축적한다.
- 프레임 전환 — “정확도 수치” 프레임에서 재사용 가능한 의사결정 플레이북 + 파라미터 스케일링 포화 발견 + 역방향 데이터 가설 정립으로 가치를 이동시킨다.
이 세 층위를 함께 쓰면, 유사한 의구심이 외부에서 어떤 맥락으로 제기되든 일관되게 답할 수 있다. 단일 수치는 약하지만, 구조적 증거와 프레임은 흔들리지 않는다.
7 관련 포스트
- minerva-07: 배포 의사결정 — 세 축 프레임이 최종 의사결정에 적용되는 편
- minerva-05: 통계 검증 — McNemar + Holm 보정 상세
- minerva-06: Task 재정의 — 접미사 task + 합성 의존 가설