Kwangmin Kim - AI 서비스의 사용자 분류와 데이터 수집 전략

1 개요

대규모 AI 서비스에서는 수백만 건의 사용자 대화가 매일 생성된다. 이 데이터를 효과적으로 활용하려면 “누구의 데이터를 어떻게 수집하고, 어떤 기준으로 분류하여, 무엇에 사용할 것인가”에 대한 체계적 전략이 필요하다.

단순 랜덤 샘플링만으로는 희귀 사용자(Power User)의 고품질 데이터가 사실상 수집되지 않는 문제가 발생한다. 이를 해결하기 위해 AI 서비스 제공자들은 다층 샘플링 구조, 행동 기반 분류, Hard Example Mining 등 다양한 전략을 결합한다.

2 사용자 유형 분포

AI 서비스의 실제 사용자 분포는 전형적인 롱테일(Long-tail) 구조를 따른다:

유형	비율	특징	데이터 가치
Casual User	~60%	일상 질문, 검색형 사용	낮음 (단순 패턴)
Productivity User	~25%	업무 활용, 문서 작성/요약	중간 (실무 패턴)
Developer User	~10%	코드 생성, API 활용	중간-높음 (기술 패턴)
Power User	~4%	고도 활용, 다학문 질문	높음 (복잡 패턴)
Probing User	~1%	모델 테스트, 한계 탐색	매우 높음 (취약점 발견)

노트

Power User와 Probing User의 교집합은 전체 사용자의 약 1% 미만이지만, 모델 개선에 기여하는 데이터 가치는 불균형적으로 높다. 이 사용자들이 생성하는 대화는 모델의 약점을 드러내는 “스트레스 테스트” 역할을 하기 때문이다.

2.1 일반 사용자 vs 고급 사용자의 질문 패턴

특성	일반 사용자	고급 사용자
질문 구조	“요약해줘”, “설명해줘”, “추천해줘”	개념 테스트, 논리 일관성 검증, 환각 유도
대화 패턴	질문 → 답 → 종료	질문 → 답변 검증 → 반박 → 추가 질문
도메인	단일 분야	다학문 교차 (Cross-domain)
모델 활용	결과 소비	결과 비판 및 검증

3 사용자 분류에 사용되는 행동 특징

AI 서비스에서는 사용자를 분류하기 위해 다음 네 가지 행동 특징(Behavioral Feature)을 추출한다.

3.1 1. Prompt Complexity (질문 복잡도)

사용자 질문의 인지적 복잡도를 측정한다.

측정 지표:

어휘 다양성 (Lexical Diversity): Type-Token Ratio(TTR)로 측정. 전문 용어의 비율이 높을수록 복잡도 증가
구문 복잡도 (Syntactic Complexity): 문장 길이, 종속절 수, 논리 연결사 빈도
개념 밀도 (Concept Density): 단위 문장당 등장하는 독립적 개념의 수

Low complexity:  "오늘 날씨 알려줘"
Mid complexity:  "Python에서 리스트 컴프리헨션 사용법 알려줘"
High complexity: "Transformer의 attention scaling limitation이
                  lost in the middle 현상과 어떤 관계가 있는지
                  수학적으로 설명해줘"

3.2 2. Domain Diversity (도메인 다양성)

대화에서 등장하는 학문 영역의 수와 교차 빈도를 측정한다.

단일 도메인 내 질문: 일반 사용자 패턴
다학문 교차 질문: 고급 사용자 패턴

예를 들어 한 세션에서 경제학, 생화학, AI, 철학을 넘나드는 질문을 하는 사용자는 Cross-domain Reasoning 능력을 테스트하는 것으로 분류될 수 있다.

3.3 3. Conversation Depth (대화 깊이)

대화의 턴 수와 논리적 심화 정도를 측정한다.

패턴	분류	특징
질문 → 답변 → 종료	Single-turn	대부분의 일반 사용자
질문 → 답변 → 후속 질문	Multi-turn	업무 활용 사용자
질문 → 답변 검증 → 반박 → 수정 요청 → 재검증	Multi-turn Reasoning	고급 사용자

Multi-turn Reasoning Interaction에서는 사용자가 모델의 답변을 비판적으로 평가하고, 논리적 허점을 지적하며, 수정된 답변의 일관성을 재검증한다. 이 과정에서 생성되는 데이터는 모델의 추론 능력과 자기 수정 능력을 평가하는 데 매우 유용하다.

3.4 4. Adversarial Probing (적대적 탐색)

모델의 한계를 의도적으로 테스트하는 행동이다.

유형	예시	발견되는 약점
환각 유도	존재하지 않는 논문/사건에 대해 질문	Factual Hallucination
논리 모순 테스트	모순된 전제를 포함한 질문	논리적 일관성
시스템 내부 질문	“너의 학습 데이터는?”, “너의 한계는?”	Self-awareness
AI 능력 비교	“GPT vs Claude vs Gemini 비교해줘”	편향성, 객관성

일반 사용자에게서는 이런 질문이 거의 나타나지 않기 때문에, Adversarial Probing 행동의 존재 자체가 강력한 분류 신호이다.

4 사용자 분류 파이프라인

행동 특징을 추출한 후 다음과 같은 파이프라인으로 사용자를 분류한다:

사용자 대화 로그
      ↓
특징 추출 (Feature Extraction)
  - Prompt Complexity Score
  - Domain Diversity Score
  - Conversation Depth Score
  - Adversarial Probing Score
      ↓
임베딩 (Embedding)
  - 특징 벡터를 고차원 공간에 매핑
      ↓
클러스터링 (Clustering)
  - K-Means, DBSCAN, 또는 Gaussian Mixture Model
      ↓
사용자 유형 라벨링
  - casual / productivity / developer / power / probing

힌트

이 분류는 보통 비지도 학습(Unsupervised Learning)으로 시작하여 자연스러운 클러스터를 발견한 후, 도메인 전문가가 각 클러스터에 라벨을 부여하는 반지도(Semi-supervised) 방식으로 진행된다.

5 데이터 수집 파이프라인

5.1 전체 구조

AI 서비스에서 사용자 대화 데이터를 수집하고 활용하는 전체 파이프라인은 다음과 같다:

전체 대화 로그
      ↓
익명화 (Anonymization)
  - PII(개인식별정보) 제거
  - 사용자 ID 해시화
      ↓
자동 품질 분석 (Automated Quality Analysis)
  - Hallucination Score
  - Reasoning Score
  - Helpfulness Score
      ↓
샘플링 (Multi-strategy Sampling)
  ├─ 랜덤 샘플링
  ├─ 계층 샘플링
  ├─ 피드백 기반 샘플링
  └─ Hard Example Mining
      ↓
Human Review (일부)
      ↓
모델 개선 데이터로 활용
  - RLHF 학습 데이터
  - 평가 벤치마크
  - 프롬프트 엔지니어링 개선

5.2 자동 품질 분석

대부분의 데이터는 사람이 직접 읽지 않고 다른 모델이 자동으로 평가한다:

메트릭	측정 내용	활용
Hallucination Score	생성된 답변의 사실 정확도	환각이 발생한 대화를 우선 검토
Reasoning Score	논리적 추론의 정합성	추론 실패 사례 수집
Helpfulness Score	사용자 질문에 대한 응답의 유용성	낮은 점수의 대화를 개선 대상으로
Safety Score	유해 콘텐츠 생성 여부	안전성 위반 사례 즉시 검토

6 샘플링 전략

6.1 왜 단순 랜덤 샘플링이 불충분한가

전체 대화에서 랜덤하게 1%를 샘플링하면, Power User/Probing User의 대화는 전체의 약 5%이므로 샘플에 포함될 확률이 0.05%에 불과하다. 이는 모델 개선에 가장 유용한 데이터가 사실상 수집되지 않는다는 것을 의미한다.

6.2 계층 샘플링 (Stratified Sampling)

사용자 유형별로 차별화된 샘플링 비율을 적용한다:

사용자 유형	모집단 비율	샘플링 비율	과대표본 배율
Casual User	60%	0.5%	1x
Productivity User	25%	1%	1x
Developer User	10%	3%	1.2x
Power User	4%	10%	10x
Probing User	1%	20%	80x

중요

Power User와 Probing User의 샘플링 비율을 일반 사용자보다 수십 배 높게 설정하여, 최종 데이터셋에서 이들의 대화가 충분히 대표되도록 한다. 이는 역학 연구에서 희귀 질환 환자를 과대표본 추출(Oversampling)하는 것과 동일한 원리이다.

6.3 피드백 기반 샘플링 (Feedback-based Sampling)

사용자의 명시적 피드백이 있는 대화를 우선적으로 수집한다:

피드백 유형	설명	데이터 가치
좋아요/싫어요	답변 품질에 대한 이진 평가	Reward Model 학습에 직접 활용
A/B 선택	두 답변 중 선호 답변 선택	RLHF의 핵심 학습 데이터
문제 보고	환각, 유해 콘텐츠, 오류 보고	최우선 검토 대상
재생성 요청	답변이 불만족스러워 재생성	모델 약점 패턴 분석

피드백이 있는 대화는 검토될 확률이 일반 대화보다 수십 배 높아진다. 특히 “싫어요” 피드백이나 문제 보고가 있는 대화는 거의 확실하게 검토 파이프라인에 진입한다.

6.4 Hard Example Mining

모델이 어려워하는 질문을 자동으로 탐지하여 우선 수집하는 전략이다.

탐지 기준:

기준	측정 방법	의미
높은 Perplexity	모델의 다음 토큰 예측 불확실성	모델이 “당황하는” 질문
낮은 Confidence	최종 답변에 대한 자체 신뢰도	모델이 확신하지 못하는 답변
답변 길이 불안정	같은 질문에 대해 답변 길이의 분산이 큼	일관된 답변을 생성하지 못함
자기 모순	같은 대화 내에서 상반된 주장	논리적 일관성 결여

힌트

Hard Example Mining은 Active Learning의 일종으로, 모델이 가장 “불확실한” 데이터를 선택적으로 학습하여 적은 데이터로 최대의 성능 향상을 달성하는 전략이다.

6.5 A/B Evaluation Pool

모델 버전 간 비교 평가를 위해 난이도 높은 질문을 별도로 수집하여 평가 데이터셋을 구성한다.

이 평가 풀에 포함되는 질문 유형:

다단계 추론이 필요한 질문
논리적 함정이 포함된 질문
최신 정보가 필요한 질문
도메인 전문 지식이 필요한 질문
모델 간 답변 품질 차이가 큰 질문

7 Human Preference Data의 가치

LLM 학습에서 가장 가치 있는 데이터 중 하나가 Human Preference Data(인간 선호 데이터)이다.

7.1 RLHF에서의 역할

RLHF(Reinforcement Learning from Human Feedback)의 핵심은 Reward Model 학습이며, 이를 위해 “어떤 답변이 더 좋은가”에 대한 인간의 판단 데이터가 필요하다:

\[r_\theta(x, y_w) > r_\theta(x, y_l)\]

여기서 \(y_w\)는 선호된 답변, \(y_l\)은 비선호된 답변이다.

7.2 질문 난이도에 따른 데이터 가치

질문 난이도	선호 데이터 가치	이유
쉬운 질문	낮음	모든 모델이 비슷하게 잘 답변하므로 변별력 없음
중간 질문	중간	모델 간 차이가 일부 나타남
어려운 질문	매우 높음	모델의 실질적 능력 차이가 극명하게 드러남

중요

단순 질문(“서울의 인구는?”)에 대한 선호 데이터는 모델 개선에 거의 기여하지 못한다. 반면 고급 사용자의 복잡한 질문(“Transformer의 attention 희석이 RAG 성능에 미치는 영향을 분석해줘”)에 대한 선호 데이터는 모델의 추론 능력을 직접적으로 개선할 수 있다.

8 AI 연구에서 가장 유용한 사용자 그룹

AI 연구에서 가장 유용한 사용자 그룹은 두 가지 극단이다:

그룹	기여 영역	발견하는 문제
완전 초보 사용자	UX/사용성 개선	직관적이지 않은 인터페이스, 혼란스러운 응답 형식
매우 고급 사용자	모델 능력 개선	환각, 논리 붕괴, 추론 한계, 지식 공백

중간 사용자(업무 활용, 일반 개발)도 중요하지만, 모델의 근본적 한계를 드러내는 데이터는 주로 양 극단의 사용자에서 생성된다. 이는 소프트웨어 테스팅에서 “경계값 분석(Boundary Value Analysis)”이 내부 값 테스트보다 더 많은 버그를 발견하는 것과 동일한 원리이다.