1 연구 설계 대분류: 역학·임상시험과 IT 실험의 계보

1.1 Study Design과 역학(Epidemiology)의 관계

Study Design은 역학(Epidemiology)의 하위 개념이 아니라, 여러 학문이 공유하는 방법론적 도구다.

1.1.1 관계 구조

통계학 (Fisher, Neyman-Pearson)
    │  실험 계획법(DOE), 무작위 배정, 검정력 분석
    ↓
역학 (Epidemiology)  ←──── Study Design의 핵심 생산자
    │  코호트, 케이스-컨트롤, 단면연구, RCT 등을 체계화
    ↓
임상시험 (Clinical Trials)  ←── 역학 방법론을 의학 규제에 적용
    │  ICH E9 가이드라인, ITT, DSMB, 블라인딩
    ↓
사회과학 / 경제학  ←── DiD, IV, RDD, SCM 발전
    ↓
IT / A/B Testing  ←── 임상시험 + 경제학 방법론을 소프트웨어 환경에 이식

1.1.2 역학(Epidemiology)이 Study Design의 핵심 생산자인 이유

역학(Epidemiology)은 “인구 집단에서 질병의 분포와 결정 요인을 연구”하는 학문이다. 이 목표 자체가 Study Design 방법론 발전을 주도한다.

무작위 배정 없이 자연 발생 데이터만 있어서 → 관찰 연구 설계를 정교화한다
희귀 질환 연구 필요성 → 케이스-컨트롤을 고안한다
장기 추적 필요성 → 코호트 설계를 체계화한다
인과 추론의 엄밀성 요구 → 교란 변수 통제, DAG 방법론을 발전시킨다

1.1.3 포함 관계 정리

	내용
역학(Epidemiology) → Study Design	역학이 관찰 연구 설계의 핵심 방법론을 만들었다
Study Design ⊃ 역학(Epidemiology)	Study Design 전체는 역학보다 넓다 (통계학·경제학·IT 포함)
실질적 포함 관계	코호트·케이스-컨트롤·단면연구는 역학의 하위 개념, RCT·Factorial·MAB는 임상시험·통계학 개념, DiD·IV·RDD는 경제학 개념이다

이 파일의 내용 중 역학(Epidemiology) 고유 영역은 관찰 연구 설계(코호트, 케이스-컨트롤, 단면연구)이며, RCT는 임상시험·통계학에서, DiD·IV·RDD는 경제학에서 발전했다. Study Design은 이 모든 방법론을 IT 실험 맥락에서 통합한 상위 프레임워크다.

역학(Epidemiology)은 Study Design의 핵심 기여자이지만, Study Design 전체를 포함하지는 않는다. 역학·임상시험·경제학·통계학이 각자 발전시킨 방법론들의 교집합을 IT 실험 맥락에서 통합한 것이 이 파일의 내용이다.

1.2 왜 역학(Epidemiology)/임상시험인가

IT·이커머스의 A/B 테스트 방법론은 의학적 임상시험(Clinical Trial) 에서 직접 가져왔다.
좀 더 구체적으로, 현대의 온라인 실험 설계는 20세기 초 통계학 및 의학에서 정립된 무작위 대조군 실험(Randomized Controlled Trial, RCT)의 메커니즘을 그대로 계승하고 있다.
따라서, A/B 테스트의 설계 원칙과 한계를 깊이 이해하기 위해서는 RCT를 포함한 역학적 연구 설계의 전체 지도를 아는 것이 도움이 된다.

의학 (100년 이상의 역사)          IT/이커머스 (2000년대 이후)
──────────────────────────────────────────────────────
RCT (무작위 대조 시험)       →    A/B Test (무작위 배정)
위약군 (Placebo Control)     →    홀드아웃 그룹 (Holdout)
블라인딩 (Blinding)          →    사용자 모름 처리 (UI 노출)
ITT 분석                     →    의도한 처치 기준 분석
ANCOVA (공변량 조정)          →    CUPED
계층화 무작위 배정             →    Stratified Randomization
중간 분석 (Interim Analysis)  →    Sequential Testing
다중 비교 보정                →    Bonferroni / BH 보정
코호트 추적                   →    사용자 코호트 분석
케이스-컨트롤                 →    로그 기반 후향 분석

이 구조를 이해하면 A/B 테스트의 한계와 설계상의 선택이 왜 그렇게 되어 있는지 명확해진다.

A/B 테스트는 RCT의 통계적 프레임워크를 소프트웨어 환경에 이식한 ’디지털 임상시험’이라고 볼 수 있다.

두 방법론은 “특정 처치(Treatment)가 결과(Outcome)에 유의미한 변화를 주는가?”라는 인과관계 추론(Causal Inference)을 목표로 하며, 이를 위해 무작위 할당(Randomization)과 대조군(Control Group) 설정이라는 동일한 논리 구조를 공유한다.

1.2.1 기술적 근거 및 계보

1.2.1.1 통계적 기초: 로널드 피셔(Ronald Fisher)의 설계

임상시험과 A/B 테스트의 공통 조상은 1920년대 로널드 피셔가 농업 시험장(Rothamsted Experimental Station)에서 정립한 실험 계획법(Design of Experiments, DOE)이다.

핵심 메커니즘: 귀무가설(\(H_0: \mu_A = \mu_B\))과 대립가설(\(H_1: \mu_A \neq \mu_B\))을 설정하고, p-value를 통해 유의성을 검정하는 빈도주의(Frequentist) 통계학의 표준이 여기서 완성되었다.
임상시험으로의 전이: 1948년 영국의 MRC(Medical Research Council)가 스트렙토마이신 결핵 치료 효과를 검증하기 위해 세계 최초의 현대적 RCT를 수행하며 의학계의 표준이 되었다.
IT로의 전이: 1990년대 중반, Google(41 shades of blue)과 Amazon이 웹 환경에서 사용자 행동을 최적화하기 위해 이 설계를 차용하며 ’A/B 테스트’라는 이름으로 대중화되었다.

1.2.1.2 구조적 동일성

구성 요소	의학 임상시험 (RCT)	IT A/B 테스트
실험군(Treatment)	신약 투여군	신규 기능/UI 노출 그룹
대조군(Control)	위약(Placebo) 투여군	기존 기능/UI 유지 그룹
무작위 할당(Randomization)	환자 무작위 배정 (Selection Bias 제거)	유저 쿠키/ID 기반 무작위 분할
성과 지표	완치율, 사망률	전환율(CVR), 클릭률(CTR), 매출

1.2.2 한계점 및 대안 (IT 환경의 특수성)

한계점 (SUTVA 위반): SUTVA(Stable Unit Treatment Value Assumption)란 “한 사용자의 처치가 다른 사용자의 결과에 영향을 주지 않는다”는 가정이다. 임상시험에서는 환자 A의 약 복용이 환자 B에게 영향을 주지 않으므로 이 가정이 대체로 성립한다. 그러나 IT/이커머스에서는 네트워크 효과와 시장 효과로 인해 SUTVA가 쉽게 깨진다.

SUTVA 위반이 발생하는 IT 상황들:

1. 쿠폰/프로모션:
   유저 A에게 50% 할인 쿠폰을 주면 → A가 해당 상품을 구매
   → 재고가 줄어 유저 B(대조군)가 구매 불가
   → 대조군의 결과가 처치군 때문에 악화됨

2. 양면 시장 (배달/라이드헤일링):
   처치군 드라이버에게 수수료 할인 → 드라이버 공급 증가
   → 대조군 드라이버도 대기시간 감소 효과를 받음
   → 대조군의 결과가 처치로 인해 "오염"됨

3. 소셜 네트워크:
   처치군 유저가 친구에게 기능을 공유 → 대조군 친구도 간접 노출
   → 처치 효과가 대조군으로 "누출(spillover)"됨

4. 검색/추천 알고리즘:
   처치군에서 특정 아이템 클릭 ↑ → 전체 랭킹 변동
   → 대조군의 검색 결과도 달라짐

대안 (Switchback Test): SUTVA 위반이 심한 환경에서는 유저 단위 무작위 배정 대신, 시간/지역 단위로 처치를 교차하는 Switchback 디자인을 사용한다. 예를 들어 배달 플랫폼에서 “오전에는 새 알고리즘, 오후에는 기존 알고리즘”으로 교차하면, 같은 시간대의 모든 유저가 동일한 조건에 노출되어 유저 간 간섭이 제거된다. 단, Switchback은 시간 단위 간 이월 효과(carryover effect) — 이전 시간대의 처치가 다음 시간대로 넘어오는 현상 — 를 주의해야 한다.

1.2.3 불확실성 및 지표 (Metrics)

임상시험은 윤리적 이유로 표본 크기(\(n\))를 최소화하면서 검정력(Power)을 확보해야 하지만, IT 환경은 대량의 트래픽을 보유하므로 매우 작은 효과 크기(Effect Size)도 유의미하게 검출될 위험(p-hacking)이 있습니다.

핵심 지표: \(1 - \beta\) (검정력), \(\alpha\) (유의수준), MDE (Minimum Detectable Effect).
특히 IT에서는 연속적 검정(Sequential Testing)을 통해 실험 기간을 단축하려는 시도가 활발하며, 이는 고정 표본 설계를 따르는 전통적 RCT와 가장 큰 차이점이다.

1.3 연구 설계 전체 지도

연구 설계
│
├── 실험적 (Experimental) ← 연구자가 처치를 배정
│   │
│   ├── 고정 설계 (Fixed Design) ← 배정 규칙이 실험 전 확정
│   │   ├── 무작위 배정 (Randomized)
│   │   │   ├── RCT (Randomized Controlled Trial)    ← 임상의 황금 기준
│   │   │   ├── Cluster RCT                          ← 집단 단위 배정
│   │   │   ├── Crossover Trial                      ← 교차 설계 (개인 내 비교)
│   │   │   ├── Factorial Design                     ← 복수 처치 교차: 상호작용 추정
│   │   │   └── A/B Test                             ← IT 버전의 RCT
│   │   │
│   │   └── 비무작위 배정 (Non-randomized / Quasi-experimental)
│   │       ├── Difference-in-Differences (DiD)
│   │       ├── Synthetic Control Method (SCM)       ← DiD의 확장, 가상 대조군 생성
│   │       ├── Interrupted Time Series (ITS)
│   │       ├── Regression Discontinuity Design (RDD)
│   │       └── Stepped Wedge Design
│   │
│   └── 적응적 설계 (Adaptive Design) ← 배정 규칙이 누적 데이터에 따라 변경
│       ├── Multi-Armed Bandit (MAB)                 ← 탐색·수확 균형, 트래픽 손실 최소화
│       ├── Thompson Sampling                        ← 베이지안 MAB
│       └── Sequential Testing (mSPRT)               ← 언제든 유효한 p-value
│
└── 관찰적 (Observational) ← 연구자가 개입하지 않음
    │
    ├── 분석적 (Analytic) ← 인과 관계 탐색
    │   ├── 코호트 연구 (Cohort Study)
    │   │   ├── 전향적 코호트 (Prospective Cohort)   ← 바이오마커 추적 연구
    │   │   └── 후향적 코호트 (Retrospective Cohort)
    │   ├── 케이스-컨트롤 연구 (Case-Control Study)
    │   │   ├── 전통적 케이스-컨트롤 (Traditional Case-Control)
    │   │   ├── Nested Case-Control                  ← 코호트 내 케이스-컨트롤
    │   │   └── Case-Cohort Study                    ← 코호트 내 서브샘플 비교
    │   ├── 종단 연구 (Longitudinal Study)            ← 반복 측정 바이오마커
    │   └── 도구 변수 (Instrumental Variables, IV)   ← 내생성 해결, 관찰 연구의 RCT 대안
    │
    └── 기술적 (Descriptive) ← 현상 기술
        ├── 단면 연구 (Cross-sectional)
        ├── 생태학적 연구 (Ecological)
        └── 사례 보고 (Case Report / Case Series)

1.4 증거 수준 위계 (Hierarchy of Evidence)

의학에서 정립된 증거의 신뢰도 순위. 위로 갈수록 인과 추론에 강하다.

         ▲
         │  [최상위] 체계적 문헌고찰 + 메타분석
         │           (Systematic Review + Meta-analysis)
         │
         │  [높음] 무작위 대조 시험 (RCT)
         │         = A/B Test
         │
         │  [중간] 코호트 연구 (Cohort)
         │         = 사용자 코호트 분석
         │
         │  [중간] 케이스-컨트롤 (Case-Control)
         │         = 로그 기반 후향 분석
         │
         │  [낮음] 단면 연구 (Cross-sectional)
         │         = 스냅샷 분석, 일회성 설문
         │
         │  [최하위] 사례 보고 (Case Report)
         ▼            = 개별 사례 분석

핵심: 인과 추론의 강도는 교란 변수(Confounding) 통제 능력에 달려 있다. RCT/A/B 테스트는 무작위 배정으로 모든 교란 변수를 원칙적으로 통제한다.

1.5 연구 설계별 IT 실무 매핑

연구 설계	IT 실무 적용	분석 방법
RCT	A/B 테스트	t-test, z-test, LMM
Factorial Design	복수 처치 동시 실험 (UI × 가격)	2-way ANOVA, LMM
Crossover Trial	동일 유저에 A/B 교차 노출 (알고리즘 평가)	LMM, paired t-test
MAB	실시간 트래픽 최적 배분	Thompson Sampling, UCB
전향적 코호트	신규 기능 출시 후 사용자 추적	생존 분석, 코호트 리텐션
후향적 코호트	로그 기반 사용자 행동 분석	코호트 분석, 이탈 예측
케이스-컨트롤	이탈 사용자 vs 유지 사용자 비교	로지스틱 회귀, OR
단면 연구	특정 날짜 스냅샷 분석	기술 통계, 교차 분석
DiD	지역별 순차 출시 효과	DiD 회귀, FE
SCM	단일 국가/도시 정책 효과	합성 대조군 회귀
ITS	알고리즘 변경 전/후 시계열	시계열 회귀
RDD	등급/임계값 기반 혜택 효과	국소 다항 회귀
Stepped Wedge	단계적 개인화 적용	Mixed DiD
IV	Encouragement Design (알림 → 기능 사용)	2SLS, LATE 추정
PSM	비실험 데이터 처치 효과 추정	ATT, 매칭 후 회귀
메타분석	여러 A/B 결과 통합	메타 분석

1.6 시리즈 구성

연구 설계 Overview (이 파일) ← 전체 지도
    │
    ├── 21 — 각 연구 설계 상세
    │   RCT/ITT, 코호트, 케이스-컨트롤, 단면,
    │   준실험, Factorial, MAB, SCM, IV 등
    │
    ├── 22 — 타당성·편향·인과 추론·효과 지표
    │   내적/외적 타당성, 편향 3대 범주,
    │   반사실 프레임워크, ATE 체계, PSM,
    │   효과 측정 지표, A/B 임상시험 원칙 적용
    │
    ├── 32 — RCT와 A/B 테스트의 설계 원칙 (확장)
    ├── 33 — 관찰 연구 설계 (확장)
    ├── 34 — 준실험적 설계 (확장)
    └── 35 — 인과 추론 프레임워크 총정리 (확장)

핵심 메시지: IT 실험 설계는 역학·임상시험 방법론에서 왔다. 원류를 이해하면 A/B 테스트의 가정, 한계, 확장 방향이 자연스럽게 보인다.