Kwangmin Kim - MINERVA 도메인 분류기 02: 데이터 큐레이션

1 이 편의 위치

1편에서 프로젝트 배경과 하이브리드 엔진 속 ML 역할, 성공 기준 다섯 축, 시리즈가 답할 네 질문을 정리했다.
02편은 그 ML 브랜치가 먹는 데이터가 어떤 과정을 거쳐 최종 형태에 이르렀는지, 그리고 그 과정에서 내린 결정들의 근거를 다룬다.
03편(모델 후보 선정)이 의미 있으려면 먼저 “학습 데이터셋의 윤곽”이 독자 머릿속에 잡혀야 한다.

2 극단적 불균형에서 출발

시작 지점은 모든 ML 데이터셋의 악몽에 가깝다. 내부 표준 용어 DB에서 뽑아 본 최초 분포는 다음과 같았다.

내용 그룹 — 실제 등록된 용어 1건
보안·번호·단위 — 극소 (수 건 ~ 수십 건)
코드·식별 — 상대적으로 많음

이 상태에서 14-class DL 분류기를 학습시키는 것은 불가능하다. 한 그룹에 샘플이 1개뿐이면 stratified split 자체가 성립하지 않고, cross-entropy loss는 그 그룹을 사실상 무시한다. 첫 단계는 “학습 가능한 수준의 데이터”를 확보하는 일이었다.

증강 방법론 자체 — 규칙 기반 합성, LLM 멀티턴 생성, RAG 기반 생성 — 와 모델별 샘플 수 추정 이론(PAC-Bayes 방향), Learning Curve로 클래스당 302개 정도에서 plateau가 확인된 과정은 별도 포스트에 정리되어 있다. 본 편은 그 세 가지 방법으로 생성된 소스들을 어떻게 통합하고 정규화해서 최종 데이터셋을 확정했는가에 초점을 둔다.

[증강 전략·샘플 수 추정 세부 → DL 학습 데이터가 거의 없을 때: 도메인 분류기 증강 전략]

3 3-Source 통합 — 왜 세 소스인가

최종 학습 데이터는 세 개의 독립적 소스에서 온 레코드를 합쳐 만든다.

소스	건수	비율	주 역할
LLM 합성	2,868	37.3%	의미적 자연스러움 · 도메인 특화 맥락
규칙 기반 합성	2,800	36.4%	대량 기본 커버리지 · 레이블 정확도
RAG grounded 합성	2,030	26.4%	표준화 원칙 문서 grounded · 원칙 준수 엄밀성 · Gray zone edge case
총계	7,698	100%

세 소스를 따로 만들고 합친 이유는 각각의 실패 모드(failure mode)가 서로를 보완하기 때문이다.

규칙 합성의 실패 모드 — 조합 자체는 문법적으로 맞지만 실제 업무에서 쓰이지 않는 용어가 섞인다. 다양성이 낮고, 클래스에 따라 분류단어 어휘가 적으면 생성 한계에 빨리 부딪친다.
LLM 합성의 실패 모드 — 품질 편차가 크다. 같은 프롬프트여도 실행마다 결과가 달라지고, 확률적 생성 특성상 오라벨이 들어올 수 있다. 생성 비용도 무시 못 한다.
RAG grounded 합성의 실패 모드 — 표준화 원칙 문서에 엄밀히 grounded되어 있어, 역설적으로 사용자가 원칙을 불완전하게 숙지한 상태에서 만들어내는 현실적 입력은 재현하지 못한다. 생성물이 원칙 준수 방향으로 쏠리면서 실제 사용자 입력 분포의 꼬리를 놓친다.

세 소스의 장점이 겹치지 않고 약점이 서로를 상쇄한다. 단일 소스로 갔을 때 피할 수 없는 균형·커버리지·현실성 trade-off를 세 소스 통합으로 동시에 완화할 수 있다는 것이 이 설계의 핵심이다.

4 소스별 생성 로직 요약

각 소스의 생성 디테일은 증강 포스트에 상세히 있으므로 여기서는 통합 맥락에서 필요한 만큼만 요약한다.

규칙 기반 합성 — [수식어] + [주제어] + [도메인 분류단어] 템플릿으로 표준 단어사전 582개 단어와 도메인 매핑 147개를 조합한다. 클래스별로 분류단어를 고정하고 앞의 수식어·주제어를 교체하는 방식이다. 그룹당 200건 균등 생성.
LLM 멀티턴 생성 — 도메인 그룹 정의·예시 수 개를 system prompt로 주고 멀티턴 대화로 어휘를 확장한다. 멀티턴은 lost-in-the-middle·attention 희석으로 원칙 준수가 불완전해지는 경향이 있지만, 그 불완전함이 곧 사용자가 원칙을 완전히 숙지하지 못한 채 입력하는 현실적 입력 변이를 닮는다는 점에서 의도적으로 포함한다. 첫 턴 생성 후 “더 다양한 맥락(생물정보·품질관리·임상 등)”으로 재요청해 어휘 편향을 줄인다. 그룹당 200건 목표.
RAG grounded 합성 — 표준화 원칙 문서를 청크 단위로 split한 뒤 Vector DB에 인덱싱한다. 매 생성 쿼리마다 해당 도메인 그룹과 연관된 split 문서를 검색해 프롬프트에 주입한 상태로 생성하여 원칙 준수의 엄밀성을 끌어올린다. 동시에 규칙의 gray zone에 해당하는 까다로운 edge case 생성도 이 경로에서 담당한다. 멀티턴보다 엄밀한 대신 불완전 숙지 사용자의 현실 입력은 재현하지 못한다.

이 세 경로를 거친 생성물이 data/domain_classification/ 아래 각각의 parquet 파일로 저장되고, 다음 단계에서 병합된다.

5 라벨 정규화 — `일반`에서 `일반단어`로

병합 과정에서 발견된 첫 번째 문제는 같은 의미의 그룹이 두 이름으로 존재한다는 것이었다. 다른 동료들이 분담해서 데이터 생성을 했는데, 서로 다른 이름을 쓴 것이다.

RAG 경로는 잔여 카테고리를 일반으로 명명
LLM 합성·규칙 합성은 동일 카테고리를 일반단어로 명명

정의를 비교해 보면 내용은 동일하다. “14개 도메인 그룹 중 어디에도 속하지 않는 나머지”라는 잔여 카테고리다. 그러나 이름이 달랐다.

통합 정규화를했다.

이 매핑은 04_merge_domain_sources.ipynb의 map_to_basic_group 함수에서 명시적으로 처리되고, 이후 05_data_pipeline_verification에서 14그룹 정합성 검증(DOMAIN_GROUPS_14 상수 기준)으로 이어진다. 통합 결과는 한 번 확정된 후 모든 모델 학습에 동일 버전이 투입된다.

6 14그룹 최종 분포 — 사실상 균형

통합·정규화·품질 정제 후 dl_cleaned_domain_train_data.parquet의 실측 분포는 다음과 같다.

그룹	건수	그룹	건수
단위	634	수	541
율	607	일반단어	537
날짜	598	값	502
식별	591	집합	480
명	582	코드	467
내용	572	번호	463
분류	563
보안	561

최대/최소 비율: 634 / 463 ≈ 1.37x
평균 ± 표준편차: 약 550 ± 55건

이 분포는 사실상 균형 상태다. 일반적으로 class imbalance를 우려하는 기준선은 10:1 이상이다.
여기서는 1.37:1이며, 이는 모델이 소수 클래스에 불리하게 편향될 수 있는 수준이 아니다. 따라서 weighted sampling·class-balanced loss·focal loss 같은 불균형 대응 기법을 도입하지 않았다. 05편에서 macro F1과 weighted F1이 거의 같은 값으로 나오는 것도 이 분포의 균형성에 기인한다.

7 입력 feature 선택 — 왜 도메인명 한 컬럼인가

“데이터셋이 몇 건인가”보다 훨씬 중요한 “모델이 입력으로 받는 것이 정확히 무엇인가”를 정리한다.

7.1 초기 직관 — 가능한 컬럼 다 넣어 보자

표준 용어 레코드는 도메인명(논리명) 외에 설명·데이터 타입·인포타입·물리명 같은 여러 컬럼을 가진다. 일반적 ML 관행으로는 “피처 다 넣고 중요도 보기”가 자연스러운 출발이다. 실제로 분류기 설계 초기에 이 방향을 먼저 검토했다.

이 때 떠오른 반대 논거가 “다중공선성” 이었다. 용어의 구조를 뜯어보면 이 직관이 왜 설득력 있는지 분명하다.

7.2 도메인명이 dominant signal — 메타데이터는 redundancy + noise

대부분의 표준 용어는 [수식어 + 표제어] + [도메인성 단어] 형태의 복합명사다. 시약추출일자를 분해하면:

시약추출 (수식어 + 표제어) → 용어가 무엇에 관한 것인지
일자 (도메인성 단어) → 도메인 그룹 날짜 + 그 안의 구체 도메인성 단어까지 특정

즉 도메인명 한 컬럼이 반응변수(도메인 그룹)에 대해 dominant한 설명력을 가진다. 메타데이터 컬럼(데이터 타입·인포타입·설명 등)이 추가로 담는 정보를 성분 분해하면 두 부분이다.

도메인명과 겹치는 성분 — 이미 도메인명 안에 담겨 있다. 예: 데이터 타입 DATE는 도메인명 끝 일자와 중복. 모델 입력으로 추가해도 새 정보 또는 신호 없음 (redundant).
도메인명에 없는 고유 성분 — 이 성분이 기여하려면 반응변수 판정에 의미 있어야 하는데, 실제로는 대부분 도메인 그룹 판정과 연관성이 약한 세부 정보로 판단 되었다. 즉 노이즈로 작용해 학습 정확도를 오히려 떨어뜨릴 위험이 있다.

메타데이터의 granularity를 도메인명과 비교하면 이 구조가 더 분명해진다.

출처	표현	granularity
도메인명 `시약추출일자`	마지막 `일자`	구체 도메인성 단어까지
데이터 타입	`DATE` / `VARCHAR`	대분류, `일자`·`분기`·`반기`·`시각`·`분`·`초` 구분 불가
인포타입	날짜 계열	대분류 수준
설명	자유 텍스트	구체 도메인성 단어 보장 없음

즉 메타데이터는 도메인명보다 거친 정보다. 추가 feature로 넣어도 새 신호를 거의 주지 못하고, 도메인명에 없는 고유 성분은 반응변수와 대부분 무관해 노이즈가 된다. DL이 거대한 함수 근사 능력을 가졌다고 해도 입력이 정제돼야 가중치가 효율적으로 수렴한다. “아무거나 넣고 모델이 알아서 거르겠지”는 주니어적 접근이고, 정제된 입력이 항상 이긴다.

결과적으로 메타데이터를 입력에 추가하면 순이익 0 또는 음수다. 이것이 설계 초기에 “다중공선성 크다”고 직관했던 현상의 정확한 구조다 — 중복(redundancy) + 노이즈 주입(noise injection)의 결합 효과.

7.3 그럼에도 이 관찰만으론 배제 근거로 완전하지 않다

Redundancy + noise 논리는 “추가 시 해로울 수 있다”까지는 말해주지만, 실무에서는 DL 모델이 L2 정규화·dropout·attention으로 noise를 상당 부분 흡수한다. 즉 “추가해서 손해”가 경미한 경우도 있다.

더 결정적인 배제 이유는 따로 있다 — 추론 시점에 실무자가 메타데이터를 제공하지 않는다. 훈련에 써도 배포 시 공급 불가능한 feature는 어떤 논리로도 정당화되지 않는다. 이 운영 제약이 실제로 결정을 내렸다.

7.4 근거 1: 서비스 입력 스키마 일치 — 훈련이 추론을 모사해야 한다

MINERVA 과제 2의 KPI 자체가 “물리명·데이터 타입·도메인 그룹 3종 메타데이터 자동 추천”이다. 즉 데이터 타입·인포타입·물리명은 전부 Agent의 추천 대상 출력이다. 추천 대상은 추론 시점에 실무자 손에 없다 — Agent가 먼저 제공해야 하는 정보이고, 사용자는 논리명 하나만 입력한다.

컬럼	역할	입력 가능?
도메인명 (논리명)	사용자가 제공하는 입력	O
설명 (description)	보조 입력 (있을 수도, 없을 수도)	△
데이터 타입	추천 대상 출력 중 하나	X
인포타입	출력 메타데이터 계열	X
물리명	도메인 그룹·논리명에서 파생되는 출력	X

훈련에 있던 컬럼이 추론 스키마에 없으면 학습-추론 환경 불일치가 발생한다. 이게 배제의 결정적 이유다. 데이터 타입과 도메인 그룹이 부분적 상관이 있는 것은 설명력(explanatory power)의 증거일 뿐 label leakage가 아니다 — 진짜 문제는 추론 시 가용성이 없다는 운영 제약이다.

MINERVA 도우미 Agent의 실제 사용 시나리오는 다음과 같다.

실무자 입력: "실험시작일시" (논리명만)
       |
       v
Agent 응답: 물리명 + 데이터 타입 + 도메인 그룹 (3종 추천)

학습 시 모델이 본 입력 스키마가 “도메인명 단일 컬럼”이면 추론 시 정확히 같은 형태로 들어온다. 반대로 학습에 다중 컬럼을 썼는데 추론 시 실무자가 도메인명만 주면, 누락된 피처를 0이나 placeholder로 채워야 한다. 이 경우 모델은 학습에서 보지 못한 입력 분포를 추론에서 처음 마주치게 된다.

이 분포 이동(distribution shift)은 단순한 노이즈가 아니다. 학습 시 특정 컬럼의 특정 패턴에 강하게 의존하는 representation을 모델이 만들었다면, 그 컬럼이 비는 순간 해당 representation이 의미를 잃는다. BERT 계열 모델의 내부 attention은 specific한 입력 구조에 민감하게 반응하기 때문에 “비어 있는 컬럼”이 들어오는 것 자체를 학습하지 못한 이상 성능이 급락한다.

따라서 “훈련 스키마 = 추론 스키마”를 원칙으로 삼는 것이 실서비스 재현성의 기본이다. 이 원칙은 ML 교과서보다 프로덕션 현장의 상식에 가깝고, 실제로 많은 실패 사례(학습 시 99%, 배포 후 70%)가 이 스키마 불일치에서 온다.

7.5 근거 2: 접미사 신호 집중 — 도메인명만으로 충분하다는 실증

“도메인성 단어가 맨 마지막에 있다”은 실측으로 뒷받침된다. 학습 데이터 7,698건의 평균 길이는 6.31자, 중앙값은 6자, 최대 17자의 짧은 복합명사다. 이 짧은 길이에서 마지막 1~2 형태소가 도메인 그룹을 거의 결정한다. 설령, 사용자가 도메인성 단어를 마지막에 위치시키지 않아도 RAG engine이 표준화 원칙 문서에 의거하여 도메인성 단어를 포함한 형태로 수정해주기 때문에, DL 모델이 도메인성 단어를 입력받을 기회는 충분히 보장된다.

샘플	접미사·마커	정답
복합복합에너지단위배수	~단위	단위
프로브길이코드	~코드	코드
Q670이름	~이름	명
영수증기초항목값	~값	값
시약배합비집합	~집합	집합
검출수	~수	수
한자월일	월일	날짜
C510금리	금리	율

한국어 전용 SentencePiece 토크나이저(KoBERT·KLUE-RoBERTa·ALBERT (Kor))는 이 접미사를 정확히 한 토큰으로 분리한다. 그래서 도메인명만 넣었음에도 상위 모델이 95~97% 정확도에 도달했다. 다른 컬럼이 주는 “추가 정보”의 한계 이득은 이미 천장에 가까운 지점에서 매우 작다. 06편에서 이 접미사 집중 현상이 “task 재정의”의 핵심 단서가 되는데, 거기서는 같은 관찰이 모델 선택의 메타 교훈으로 확장된다.

7.6 예외 — 설명(description) 컬럼의 여지

위 세 근거는 데이터 타입·인포타입·물리명을 입력에서 배제하는 결론을 준다. 그러나 설명(description) 컬럼은 이 범위 바깥에 있다. 설명은 출력이 아니라 사용자가 자발적으로 제공하는 보조 입력이고, 일부 서비스 UI에서는 실무자가 논리명과 함께 설명도 기재한다.

설명을 입력에 추가했을 때 기대되는 잠재 이득은 셋이다.

접미사가 애매한 짧은 용어 처리 — 검출수는 수인지 값인지 도메인명만으로 판별이 어렵다. 설명에 “양성 반응을 보인 샘플의 건수”라고 적혀 있으면 수 확정에 결정적이다.
일반단어 그룹(noise floor) 개선 — 14개 그룹 중 가장 해석이 어려운 잔여 카테고리다. 도메인명만으로 96%대 천장이 생기는 주요 원인이 이 그룹이며, 설명이 있으면 분류가 선명해질 여지가 있다.
해석 가능성 향상 — Attention 시각화 시 설명의 어떤 토큰이 분류 근거였는지 보여줄 수 있어 실무자 신뢰도가 올라간다.

다만 설명을 실제로 쓰려면 전제 조건 세 가지가 확보되어야 한다.

훈련 데이터에서 설명 컬럼의 결측률과 품질 — 특히 RAG 경로 2,030건에서 설명이 얼마나 채워져 있는가.
추론 시 실무자가 설명을 기재하는 UX 비율 — 현실적으로 몇 %의 실무자가 설명을 같이 입력하는가.
설명의 톤 편차 — 한 줄짜리와 장황한 기술 서술이 섞여 있으면 노이즈다. 일관된 템플릿이 없으면 변동성이 커진다.

세 조건이 확보되지 않은 채 설명을 넣으면 오히려 정확도가 떨어진다. 도메인명은 길이와 구조가 일관되지만 설명은 그렇지 않아서 모델이 “신호 찾기 힘든 입력”을 추가로 받는 셈이 된다.

7.7 후속 실험 예약 — 실험 7

“설명 컬럼을 넣으면 정말 더 정확할까”는 사전 판단만으로 끝낼 문제가 아니다. 07편에서 실험 7로 ablation 실험을 설계한다.

실험 7. 입력 feature 확장 실험

A. 도메인명만 (baseline, 현재 상위 96.88%)
B. 도메인명 + [SEP] + 설명 (결측 시 빈 문자열)
C. 도메인명 + [SEP] + 설명 (결측 제거 서브셋)

측정:
- Test Acc, Macro F1, Weighted F1
- per-class F1 변화 (특히 `일반단어`, `검출수` 같은 짧은 용어)
- McNemar 검정으로 B·C가 A 대비 통계적 유의한지 판정

예상:
- B: +0 ~ +0.5%p (결측 비율에 따라 노이즈로 상쇄될 가능성)
- C: +0.5 ~ +1.5%p (설명 품질이 좋은 서브셋에서 상승)
- 둘 다 McNemar Holm 보정 후 ns일 가능성이 높음 → "설명은 안 쓴다"
  결정을 정량적으로 정당화

이 실험이 돌아가면 “왜 설명을 안 썼나?”라는 질문에 수치로 답할 수 있다. “실험으로 확인했고 차이가 통계적으로 유의하지 않아 단순성 우선으로 제외했다”가 사전 판단보다 훨씬 방어적이다. 사후 검증이 없는 선택은 언제든 “시도를 안 해 본 것”으로 의심받을 여지가 있다.

7.8 정리 — 이 네 축의 관계

위 논의를 한 장면으로 요약하면 이렇다.

축	역할	핵심 질문
서비스 스키마 일치	추론 시 실무자 손에 없음 — 배제의 결정적 이유	“추론에 이 컬럼이 있는가?”
Redundancy + Noise 분해	도메인명이 dominant, 메타데이터는 중복 + 노이즈	“추가 feature가 새 신호인가 노이즈인가?”
접미사 신호 집중	도메인명 자체로 95~97% 실측	“도메인명만으로 충분한가?”
설명 컬럼 예외 (실험 7)	유일한 보완 후보 검증	“설명은 유의미한가?”

이 네 축을 다 통과하고 나서야 “input = 도메인명 한 컬럼”이 방어 가능한 결정이 된다. 결정적 축은 서비스 스키마 일치이고, redundancy + noise 분해는 보조 근거, 접미사 실증은 도메인명 단독으로 충분함의 확인이다. 그냥 “직관적으로 그게 맞아 보여서”는 어떤 근거 평가에서도 통하지 않는다.

8 경로별 grounded 차이와 템플릿 암기 리스크 — 06편을 위한 복선

모든 선택에는 대가가 따른다. 세 경로는 전부 합성이지만 원칙 준수 엄밀성이 다르다. 규칙 경로는 템플릿에 기계적으로 고정, LLM 멀티턴은 lost-in-the-middle·attention 희석으로 느슨, RAG만 표준화 원칙 문서에 엄밀히 grounded다. 그런데 느슨·기계적 경로가 73.6%를 차지한다(LLM 37.3% + 규칙 36.4%). 이 비율은 단순 형식 지표가 아니라 모델이 원칙을 이해해서 높은 정확도를 내는 것인지, 아니면 규칙·LLM 경로의 표면 템플릿을 암기한 결과인지 구분해야 한다는 뜻이다.

8.1 왜 느슨·기계적 73.6%가 숨은 리스크인가

규칙 템플릿과 LLM 멀티턴은 각기 다른 방식으로 반복 가능한 패턴을 만든다.

LLM은 프롬프트의 few-shot 예시 스타일을 모사한다. 예시가 [수식어]+[주제어]+[분류단어] 구조였다면 생성된 용어 대부분이 이 구조를 따른다.
규칙 합성은 정의된 템플릿에서 벗어날 수 없다. 수식어·주제어·분류단어의 조합 공간이 유한하고 구조가 고정되어 있다.

두 경로가 합쳐지면 경로 특유의 표면 특성이 데이터에 남는다. 독특한 어휘 조합의 반복, 특정 길이 분포의 과대표집, 일부 접미사의 편중 같은 패턴이다. 이 특성은 사람이 눈으로 보기엔 잘 안 드러나지만 고용량 모델이 학습할 때는 쉽게 잡히는 구조다. 반면 RAG 경로는 표준화 원칙 문서에 grounded되어 생성되므로 표면 템플릿이 달라 같은 “도메인 분류” task라도 분포 차이가 난다.

결과적으로 모델의 정확도 중 일부는 진짜 “도메인 분류 능력”이 아니라 규칙·LLM 경로 템플릿 패턴의 암기일 가능성이 있다. 파라미터가 많을수록 이 암기 용량이 커진다.

8.2 가설 — 상위 모델의 순위는 느슨 경로 패턴 암기력 순위일 수 있다

이 가설을 명시하면 다음과 같다.

상위 모델(KLUE-RoBERTa 96.88%, XLM-RoBERTa 96.49%)의 정확도 중 일부는 실제 도메인 분류 능력이 아니라 규칙+LLM 73.6% 경로의 템플릿 패턴 암기일 수 있다. Test 셋도 세 경로가 섞여 있으므로 벤치마크 순위가 과장된다. RAG grounded 분포처럼 경로 구성이 달라지면 순위가 바뀌거나 전체 정확도가 떨어질 가능성이 있다.

이 가설이 맞다면 “최고 정확도 모델”과 “경로 분포 이동에도 강건한 모델”이 같지 않을 수 있다. 규칙·LLM 경로의 표면 패턴에 민감한 대형 트랜스포머일수록 벤치마크 1등이지만 분포 이동 시 하락폭이 큰 구조일 수 있다.

8.3 검증 계획 — 실험 1 RAG-only Holdout

이 가설을 정량적으로 검증하는 것이 실험 1 (RAG-only holdout) 이다. RAG grounded 경로 2,030건만으로 test 셋을 구성해 8개 모델의 정확도를 재측정하면, 규칙·LLM 경로 템플릿 암기 정도가 수치로 드러난다.

실험 1. RAG-only Holdout 재평가

목적: 경로 간 일반화 갭 정량화 (규칙·LLM → RAG)

선행 조건: 04_merge_domain_sources에 source 컬럼 추가 후 재실행
           (현재 출력은 domain, domain_group 2컬럼뿐)

측정:
- 8개 모델 각각의 RAG-only Test Acc
- 기존 (합성 포함) Test Acc와의 갭

예상 갭:
- KLUE-RoBERTa: 96.88% → 91~95% (갭 2~5%p)
- ALBERT (Kor): 95.58% → 93~95% (갭 1~3%p)
- BiLSTM:       94.81% → 93~95% (갭 0~2%p)
- multilingual-e5: 90.84% → 89~92% (갭 ±1%p, 임베딩 동결로 영향 최소)

예상대로 갭이 드러나면, 06편에서 “task 재정의 + 경로 간 일반화 갭”을 클라이맥스로 묶을 수 있는 정량 근거가 된다. 예상과 달리 갭이 거의 없다면, 세 경로의 표면 특성이 달랐음에도 모델이 도메인 원리를 학습했다는 별개의 유의미한 결론이 된다. 어느 쪽이든 모르고 넘어가는 것보다 낫다.

9 최종 학습 데이터셋 스펙

이 편에서 내린 모든 결정을 합쳐 최종 산출물의 스펙은 다음과 같이 확정된다.

항목	값
파일명	`dl_cleaned_domain_train_data.parquet`
레코드 수	7,698건
클래스 수	14 (`DOMAIN_GROUPS_14`)
컬럼	`domain`, `domain_group`
입력 피처	`domain` 단일 (도메인명)
출력 레이블	`domain_group` (14-class)
도메인명 평균 길이	6.31자 (중앙값 6, 최대 17)
클래스 분포	463~634건 (1.37x 비율)
결측률	0%
중복	0건
소스 구성	LLM 37.3% + 규칙 36.4% + RAG 26.4%

입력이 최종적으로 domain 한 컬럼이 된 것, 그리고 분포가 사실상 균형이고 결측·중복이 0%라는 세 가지 사실이 03편 이후 모든 실험의 전제가 된다.

10 다음 편 예고

03편에서는 이 데이터셋을 학습할 후보 모델 8개를 다룬다. 한국어 전용 BERT 계열(KoBERT·KLUE-RoBERTa·ALBERT (Kor)·DistilKoBERT), 다국어 모델(mBERT·XLM-RoBERTa), from-scratch (BiLSTM), 임베딩 + 선형 분류기(multilingual-e5)로 네 개의 전략 공간을 커버한다.

각 모델에 대해 (a) 왜 후보에 포함했는가, (b) 핵심 기술과 구조, (c) 이 task에서 기대되는 장점, (d) 우려되는 단점, (e) 사전 가설, (f) 실측 결과 요약, (g) 선택·탈락 근거 요약을 정리한다. 03편의 목적은 “최고 성능 모델 찾기”가 아니라 의사결정 공간을 scanning하기 위한 probe 8개를 왜 이렇게 구성했는가를 설명하는 것이다.

11 관련 주제

이 편의 선행

01편: 기획과 의도 — MINERVA 맥락, 하이브리드 엔진, 성공 기준
DL 학습 데이터가 거의 없을 때 — 도메인 분류기 증강 전략 — 증강 방법론 세부, 샘플 수 추정, Learning Curve

시리즈 내 다음 편들

관련 카테고리

CRISP-DM Data Understanding — EDA와 데이터 품질 진단 — 이 편의 분포 분석이 준거하는 방법론
데이터 표준화 원칙 — 14 도메인 그룹 정의의 원본