1 연구 설계 대분류: 역학·임상시험과 IT 실험의 계보
1.1 Study Design과 역학(Epidemiology)의 관계
Study Design은 역학(Epidemiology)의 하위 개념이 아니라, 여러 학문이 공유하는 방법론적 도구다.
1.1.1 관계 구조
통계학 (Fisher, Neyman-Pearson)
│ 실험 계획법(DOE), 무작위 배정, 검정력 분석
↓
역학 (Epidemiology) ←──── Study Design의 핵심 생산자
│ 코호트, 케이스-컨트롤, 단면연구, RCT 등을 체계화
↓
임상시험 (Clinical Trials) ←── 역학 방법론을 의학 규제에 적용
│ ICH E9 가이드라인, ITT, DSMB, 블라인딩
↓
사회과학 / 경제학 ←── DiD, IV, RDD, SCM 발전
↓
IT / A/B Testing ←── 임상시험 + 경제학 방법론을 소프트웨어 환경에 이식
1.1.2 역학(Epidemiology)이 Study Design의 핵심 생산자인 이유
역학(Epidemiology)은 “인구 집단에서 질병의 분포와 결정 요인을 연구”하는 학문이다. 이 목표 자체가 Study Design 방법론 발전을 주도한다.
- 무작위 배정 없이 자연 발생 데이터만 있어서 → 관찰 연구 설계를 정교화한다
- 희귀 질환 연구 필요성 → 케이스-컨트롤을 고안한다
- 장기 추적 필요성 → 코호트 설계를 체계화한다
- 인과 추론의 엄밀성 요구 → 교란 변수 통제, DAG 방법론을 발전시킨다
1.1.3 포함 관계 정리
| 내용 | |
|---|---|
| 역학(Epidemiology) → Study Design | 역학이 관찰 연구 설계의 핵심 방법론을 만들었다 |
| Study Design ⊃ 역학(Epidemiology) | Study Design 전체는 역학보다 넓다 (통계학·경제학·IT 포함) |
| 실질적 포함 관계 | 코호트·케이스-컨트롤·단면연구는 역학의 하위 개념, RCT·Factorial·MAB는 임상시험·통계학 개념, DiD·IV·RDD는 경제학 개념이다 |
이 파일의 내용 중 역학(Epidemiology) 고유 영역은 관찰 연구 설계(코호트, 케이스-컨트롤, 단면연구)이며, RCT는 임상시험·통계학에서, DiD·IV·RDD는 경제학에서 발전했다. Study Design은 이 모든 방법론을 IT 실험 맥락에서 통합한 상위 프레임워크다.
역학(Epidemiology)은 Study Design의 핵심 기여자이지만, Study Design 전체를 포함하지는 않는다. 역학·임상시험·경제학·통계학이 각자 발전시킨 방법론들의 교집합을 IT 실험 맥락에서 통합한 것이 이 파일의 내용이다.
1.2 왜 역학(Epidemiology)/임상시험인가
- IT·이커머스의 A/B 테스트 방법론은 의학적 임상시험(Clinical Trial) 에서 직접 가져왔다.
- 좀 더 구체적으로, 현대의 온라인 실험 설계는 20세기 초 통계학 및 의학에서 정립된 무작위 대조군 실험(Randomized Controlled Trial, RCT)의 메커니즘을 그대로 계승하고 있다.
- 따라서, A/B 테스트의 설계 원칙과 한계를 깊이 이해하기 위해서는 RCT를 포함한 역학적 연구 설계의 전체 지도를 아는 것이 도움이 된다.
의학 (100년 이상의 역사) IT/이커머스 (2000년대 이후)
──────────────────────────────────────────────────────
RCT (무작위 대조 시험) → A/B Test (무작위 배정)
위약군 (Placebo Control) → 홀드아웃 그룹 (Holdout)
블라인딩 (Blinding) → 사용자 모름 처리 (UI 노출)
ITT 분석 → 의도한 처치 기준 분석
ANCOVA (공변량 조정) → CUPED
계층화 무작위 배정 → Stratified Randomization
중간 분석 (Interim Analysis) → Sequential Testing
다중 비교 보정 → Bonferroni / BH 보정
코호트 추적 → 사용자 코호트 분석
케이스-컨트롤 → 로그 기반 후향 분석
이 구조를 이해하면 A/B 테스트의 한계와 설계상의 선택이 왜 그렇게 되어 있는지 명확해진다.
A/B 테스트는 RCT의 통계적 프레임워크를 소프트웨어 환경에 이식한 ’디지털 임상시험’이라고 볼 수 있다.
두 방법론은 “특정 처치(Treatment)가 결과(Outcome)에 유의미한 변화를 주는가?”라는 인과관계 추론(Causal Inference)을 목표로 하며, 이를 위해 무작위 할당(Randomization)과 대조군(Control Group) 설정이라는 동일한 논리 구조를 공유한다.
1.2.1 기술적 근거 및 계보
1.2.1.1 통계적 기초: 로널드 피셔(Ronald Fisher)의 설계
임상시험과 A/B 테스트의 공통 조상은 1920년대 로널드 피셔가 농업 시험장(Rothamsted Experimental Station)에서 정립한 실험 계획법(Design of Experiments, DOE)이다.
- 핵심 메커니즘: 귀무가설(\(H_0: \mu_A = \mu_B\))과 대립가설(\(H_1: \mu_A \neq \mu_B\))을 설정하고, p-value를 통해 유의성을 검정하는 빈도주의(Frequentist) 통계학의 표준이 여기서 완성되었다.
- 임상시험으로의 전이: 1948년 영국의 MRC(Medical Research Council)가 스트렙토마이신 결핵 치료 효과를 검증하기 위해 세계 최초의 현대적 RCT를 수행하며 의학계의 표준이 되었다.
- IT로의 전이: 1990년대 중반, Google(41 shades of blue)과 Amazon이 웹 환경에서 사용자 행동을 최적화하기 위해 이 설계를 차용하며 ’A/B 테스트’라는 이름으로 대중화되었다.
1.2.1.2 구조적 동일성
| 구성 요소 | 의학 임상시험 (RCT) | IT A/B 테스트 |
|---|---|---|
| 실험군(Treatment) | 신약 투여군 | 신규 기능/UI 노출 그룹 |
| 대조군(Control) | 위약(Placebo) 투여군 | 기존 기능/UI 유지 그룹 |
| 무작위 할당(Randomization) | 환자 무작위 배정 (Selection Bias 제거) | 유저 쿠키/ID 기반 무작위 분할 |
| 성과 지표 | 완치율, 사망률 | 전환율(CVR), 클릭률(CTR), 매출 |
1.2.2 한계점 및 대안 (IT 환경의 특수성)
- 한계점 (SUTVA 위반): SUTVA(Stable Unit Treatment Value Assumption)란 “한 사용자의 처치가 다른 사용자의 결과에 영향을 주지 않는다”는 가정이다. 임상시험에서는 환자 A의 약 복용이 환자 B에게 영향을 주지 않으므로 이 가정이 대체로 성립한다. 그러나 IT/이커머스에서는 네트워크 효과와 시장 효과로 인해 SUTVA가 쉽게 깨진다.
SUTVA 위반이 발생하는 IT 상황들:
1. 쿠폰/프로모션:
유저 A에게 50% 할인 쿠폰을 주면 → A가 해당 상품을 구매
→ 재고가 줄어 유저 B(대조군)가 구매 불가
→ 대조군의 결과가 처치군 때문에 악화됨
2. 양면 시장 (배달/라이드헤일링):
처치군 드라이버에게 수수료 할인 → 드라이버 공급 증가
→ 대조군 드라이버도 대기시간 감소 효과를 받음
→ 대조군의 결과가 처치로 인해 "오염"됨
3. 소셜 네트워크:
처치군 유저가 친구에게 기능을 공유 → 대조군 친구도 간접 노출
→ 처치 효과가 대조군으로 "누출(spillover)"됨
4. 검색/추천 알고리즘:
처치군에서 특정 아이템 클릭 ↑ → 전체 랭킹 변동
→ 대조군의 검색 결과도 달라짐
- 대안 (Switchback Test): SUTVA 위반이 심한 환경에서는 유저 단위 무작위 배정 대신, 시간/지역 단위로 처치를 교차하는 Switchback 디자인을 사용한다. 예를 들어 배달 플랫폼에서 “오전에는 새 알고리즘, 오후에는 기존 알고리즘”으로 교차하면, 같은 시간대의 모든 유저가 동일한 조건에 노출되어 유저 간 간섭이 제거된다. 단, Switchback은 시간 단위 간 이월 효과(carryover effect) — 이전 시간대의 처치가 다음 시간대로 넘어오는 현상 — 를 주의해야 한다.
1.2.3 불확실성 및 지표 (Metrics)
임상시험은 윤리적 이유로 표본 크기(\(n\))를 최소화하면서 검정력(Power)을 확보해야 하지만, IT 환경은 대량의 트래픽을 보유하므로 매우 작은 효과 크기(Effect Size)도 유의미하게 검출될 위험(p-hacking)이 있습니다.
- 핵심 지표: \(1 - \beta\) (검정력), \(\alpha\) (유의수준), MDE (Minimum Detectable Effect).
- 특히 IT에서는 연속적 검정(Sequential Testing)을 통해 실험 기간을 단축하려는 시도가 활발하며, 이는 고정 표본 설계를 따르는 전통적 RCT와 가장 큰 차이점이다.
1.3 연구 설계 전체 지도
연구 설계
│
├── 실험적 (Experimental) ← 연구자가 처치를 배정
│ │
│ ├── 고정 설계 (Fixed Design) ← 배정 규칙이 실험 전 확정
│ │ ├── 무작위 배정 (Randomized)
│ │ │ ├── RCT (Randomized Controlled Trial) ← 임상의 황금 기준
│ │ │ ├── Cluster RCT ← 집단 단위 배정
│ │ │ ├── Crossover Trial ← 교차 설계 (개인 내 비교)
│ │ │ ├── Factorial Design ← 복수 처치 교차: 상호작용 추정
│ │ │ └── A/B Test ← IT 버전의 RCT
│ │ │
│ │ └── 비무작위 배정 (Non-randomized / Quasi-experimental)
│ │ ├── Difference-in-Differences (DiD)
│ │ ├── Synthetic Control Method (SCM) ← DiD의 확장, 가상 대조군 생성
│ │ ├── Interrupted Time Series (ITS)
│ │ ├── Regression Discontinuity Design (RDD)
│ │ └── Stepped Wedge Design
│ │
│ └── 적응적 설계 (Adaptive Design) ← 배정 규칙이 누적 데이터에 따라 변경
│ ├── Multi-Armed Bandit (MAB) ← 탐색·수확 균형, 트래픽 손실 최소화
│ ├── Thompson Sampling ← 베이지안 MAB
│ └── Sequential Testing (mSPRT) ← 언제든 유효한 p-value
│
└── 관찰적 (Observational) ← 연구자가 개입하지 않음
│
├── 분석적 (Analytic) ← 인과 관계 탐색
│ ├── 코호트 연구 (Cohort Study)
│ │ ├── 전향적 코호트 (Prospective Cohort) ← 바이오마커 추적 연구
│ │ └── 후향적 코호트 (Retrospective Cohort)
│ ├── 케이스-컨트롤 연구 (Case-Control Study)
│ │ ├── 전통적 케이스-컨트롤 (Traditional Case-Control)
│ │ ├── Nested Case-Control ← 코호트 내 케이스-컨트롤
│ │ └── Case-Cohort Study ← 코호트 내 서브샘플 비교
│ ├── 종단 연구 (Longitudinal Study) ← 반복 측정 바이오마커
│ └── 도구 변수 (Instrumental Variables, IV) ← 내생성 해결, 관찰 연구의 RCT 대안
│
└── 기술적 (Descriptive) ← 현상 기술
├── 단면 연구 (Cross-sectional)
├── 생태학적 연구 (Ecological)
└── 사례 보고 (Case Report / Case Series)
1.4 증거 수준 위계 (Hierarchy of Evidence)
의학에서 정립된 증거의 신뢰도 순위. 위로 갈수록 인과 추론에 강하다.
▲
│ [최상위] 체계적 문헌고찰 + 메타분석
│ (Systematic Review + Meta-analysis)
│
│ [높음] 무작위 대조 시험 (RCT)
│ = A/B Test
│
│ [중간] 코호트 연구 (Cohort)
│ = 사용자 코호트 분석
│
│ [중간] 케이스-컨트롤 (Case-Control)
│ = 로그 기반 후향 분석
│
│ [낮음] 단면 연구 (Cross-sectional)
│ = 스냅샷 분석, 일회성 설문
│
│ [최하위] 사례 보고 (Case Report)
▼ = 개별 사례 분석
핵심: 인과 추론의 강도는 교란 변수(Confounding) 통제 능력에 달려 있다. RCT/A/B 테스트는 무작위 배정으로 모든 교란 변수를 원칙적으로 통제한다.
1.5 연구 설계별 IT 실무 매핑
| 연구 설계 | IT 실무 적용 | 분석 방법 |
|---|---|---|
| RCT | A/B 테스트 | t-test, z-test, LMM |
| Factorial Design | 복수 처치 동시 실험 (UI × 가격) | 2-way ANOVA, LMM |
| Crossover Trial | 동일 유저에 A/B 교차 노출 (알고리즘 평가) | LMM, paired t-test |
| MAB | 실시간 트래픽 최적 배분 | Thompson Sampling, UCB |
| 전향적 코호트 | 신규 기능 출시 후 사용자 추적 | 생존 분석, 코호트 리텐션 |
| 후향적 코호트 | 로그 기반 사용자 행동 분석 | 코호트 분석, 이탈 예측 |
| 케이스-컨트롤 | 이탈 사용자 vs 유지 사용자 비교 | 로지스틱 회귀, OR |
| 단면 연구 | 특정 날짜 스냅샷 분석 | 기술 통계, 교차 분석 |
| DiD | 지역별 순차 출시 효과 | DiD 회귀, FE |
| SCM | 단일 국가/도시 정책 효과 | 합성 대조군 회귀 |
| ITS | 알고리즘 변경 전/후 시계열 | 시계열 회귀 |
| RDD | 등급/임계값 기반 혜택 효과 | 국소 다항 회귀 |
| Stepped Wedge | 단계적 개인화 적용 | Mixed DiD |
| IV | Encouragement Design (알림 → 기능 사용) | 2SLS, LATE 추정 |
| PSM | 비실험 데이터 처치 효과 추정 | ATT, 매칭 후 회귀 |
| 메타분석 | 여러 A/B 결과 통합 | 메타 분석 |
1.6 시리즈 구성
연구 설계 Overview (이 파일) ← 전체 지도
│
├── 21 — 각 연구 설계 상세
│ RCT/ITT, 코호트, 케이스-컨트롤, 단면,
│ 준실험, Factorial, MAB, SCM, IV 등
│
├── 22 — 타당성·편향·인과 추론·효과 지표
│ 내적/외적 타당성, 편향 3대 범주,
│ 반사실 프레임워크, ATE 체계, PSM,
│ 효과 측정 지표, A/B 임상시험 원칙 적용
│
├── 32 — RCT와 A/B 테스트의 설계 원칙 (확장)
├── 33 — 관찰 연구 설계 (확장)
├── 34 — 준실험적 설계 (확장)
└── 35 — 인과 추론 프레임워크 총정리 (확장)
핵심 메시지: IT 실험 설계는 역학·임상시험 방법론에서 왔다. 원류를 이해하면 A/B 테스트의 가정, 한계, 확장 방향이 자연스럽게 보인다.