Kwangmin Kim - 전후 비교(Before-and-After)가 위험한 이유

1 전후 비교란 무엇인가

전후 비교(Before-and-After Analysis)는 특정 처치(Treatment)를 적용하기 전과 후의 지표를 비교하여 효과를 판단하는 방법이다. 예를 들어 “UI를 변경한 후 전환율이 3%에서 5%로 올랐으므로 UI 변경이 효과적이다”라고 결론 내리는 방식이다.

직관적이고 구현이 쉬워 실무에서 자주 사용되지만, 통계학적으로는 ‘기초적’이라기보다 ’위험한(Naive)’ 분석에 가깝다.

2 왜 위험한가: 부정방정식의 함정

전후 비교는 단일 집단 사전-사후 설계(One-group Pretest-Posttest Design)에 해당한다. 이 설계에서 관측되는 변화량은 다음과 같이 분해된다:

\[\Delta Y = (Y_{post} - Y_{pre}) = \tau + \epsilon_{time} + \epsilon_{external}\]

\(\tau\): 처치 효과 (우리가 알고 싶은 것)
\(\epsilon_{time}\): 시간의 흐름에 따른 자연적 변화
\(\epsilon_{external}\): 외부 환경 요인에 의한 변화

우리가 알고 싶은 것은 처치 효과(\(\tau\))이지만, 전후 비교 데이터에는 세 가지 성분이 뒤섞여 있어 \(\tau\)를 분리(Isolate)할 수 없다. 이는 식은 하나인데 미지수가 세 개인 부정방정식을 푸는 것과 같다.

3 구체적 편향 유형

3.1 1. 성숙 효과 (Maturation)

서비스 변경과 무관하게, 시간이 흐르면서 사용자가 서비스에 익숙해지거나 자연스럽게 이탈하는 현상이다.

노트

예시: 신규 가입자의 첫 주 활성도는 자연스럽게 높고, 이후 점차 감소하는 것이 일반적이다. 이 시점에 UI를 변경하면 “활성도 하락을 UI 변경 탓”으로 오귀인하거나, 반대로 자연적 회복을 “UI 개선 덕분”으로 오해할 수 있다.

3.2 2. 계절성 및 외부 이벤트 (Seasonality & History)

외부 환경 변화가 지표에 미치는 영향이다.

쇼핑몰에서 UI를 변경한 시점이 마침 블랙 프라이데이 시즌이었다면, 매출 상승이 UI 덕분인지 시즌 특수인지 구별할 수 없다.
경쟁사가 대규모 프로모션을 시작한 시기와 겹쳐도 동일한 문제가 발생한다.

수식으로 표현하면:

\[E(Y_{post} - Y_{pre} | Treatment) \neq \tau\]

처치 효과 \(\tau\) 이외의 시간 의존적 요인이 기대값에 포함되기 때문이다.

3.3 3. 평균 회귀 (Regression to the Mean)

특정 시점에 지표가 비정상적으로 낮았을 때(또는 높았을 때) 개선안을 적용하면, 아무런 조치를 취하지 않아도 지표는 평균으로 돌아오려는 통계적 성질이 있다.

경고

실무에서의 전형적 함정: 지표가 급락한 시점에 경영진이 “뭔가 해라”고 지시하면, 그 이후 자연적으로 회복되는 것을 “조치의 효과”로 보고하게 된다. 이는 통계적으로 무의미한 결론이다.

3.4 4. 요일 효과 (Weekly Cycle)

실무에서 특히 강력한 교란 요인이다. 평일과 주말의 사용자 행동이 완전히 다르기 때문에, “첫 주에 A를 적용하고 다음 주에 B를 적용”하는 방식은 요일별 특성에 데이터가 오염된다.

따라서 반드시 동일한 기간 내에 트래픽을 분할하여 비교하는 것이 원칙이다.

4 반사실적 프레임워크 (Counterfactual Framework)

4.1 핵심 개념

A/B 테스트의 목적은 “만약 처치(Treatment)를 가하지 않았더라면 발생했을 결과(Counterfactual)”를 추정하는 것이다.

방법	대조군의 성격	환경 통제
전후 비교	‘과거의 나’	시간적 차이로 인해 환경이 다름
A/B 테스트	‘동일 시점의 또 다른 나’	동일 환경에서 처치 여부만 다름

무작위 배정은 “동일 시점의 또 다른 나”를 만들어냄으로써 환경적 변수를 상쇄(Cancel out)한다. 이것이 전후 비교와의 결정적인 차이이다.

4.2 Rubin의 잠재적 결과 모형 (Potential Outcomes Framework)

각 개체 \(i\)에 대해 두 가지 잠재적 결과가 존재한다:

\(Y_i(1)\): 처치를 받았을 때의 결과
\(Y_i(0)\): 처치를 받지 않았을 때의 결과

개별 처치 효과(Individual Treatment Effect)는 \(\tau_i = Y_i(1) - Y_i(0)\)이지만, 한 개체가 동시에 두 상태를 경험할 수 없으므로 이를 직접 관측하는 것은 불가능하다. 이를 인과 추론의 근본 문제(Fundamental Problem of Causal Inference)라 한다.

무작위 배정을 통해 평균 처치 효과(ATE, Average Treatment Effect)를 추정한다:

\[ATE = E[Y(1) - Y(0)] = E[Y | T=1] - E[Y | T=0]\]

무작위 배정이 보장되면 \(E[Y(0) | T=1] = E[Y(0) | T=0]\)이 성립하여, 위 등식이 편향 없이 성립한다.

5 분석의 통계적 층위

데이터 과학에서 분석의 수준은 방법론의 난이도가 아니라 인과 추론(Causal Inference)의 가능 여부로 결정된다.

층위	설명	예시	수준
기술 통계 (Descriptive)	“과거에 이랬다”	단순 전후 비교	기초
상관 분석 (Correlation)	“A가 변할 때 B도 변하는 경향이 있다”	회귀 분석, 상관계수	중급
인과 추론 (Causal Inference)	“A 때문에 B가 변했다”	A/B Test, RCT	실무 핵심

전후 비교는 첫 번째 층위(기술 통계)에 머물러 있다. 비즈니스 의사결정자가 원하는 것은 “무엇이 변했는가”가 아니라 “무엇 때문에 변했는가”이다. 전후 비교는 현상을 요약하는 데는 유용하지만, 다음 액션(Action Item)을 결정하는 근거로는 신뢰도가 매우 낮다.

중요

실무에서 전후 비교만으로 결론을 내리는 것은 ’데이터 과학자’가 아닌 ’대시보드 관리자’의 역할에 머무는 것이다. 전후 비교는 ‘분석의 시작점(Exploratory)’으로 사용하되, 최종 판단은 반드시 대조군이 존재하는 실험을 통해 검증해야 한다.

6 무작위 배정이 불가능할 때: 준실험 설계

기술적 제약이나 윤리적 문제로 무작위 배정이 불가능한 경우, 다음과 같은 준실험(Quasi-experiment) 설계를 활용한다.

6.1 1. 이중차분법 (Difference-in-Differences, DiD)

실험군과 대조군의 전후 변화량 차이를 비교하여 공통적인 시간 흐름 효과를 제거한다.

\[\hat{\tau}_{DiD} = (Y_{treatment,post} - Y_{treatment,pre}) - (Y_{control,post} - Y_{control,pre})\]

노트

핵심 가정 - 평행 추세 가정(Parallel Trends Assumption): 처치가 없었다면 실험군과 대조군의 지표가 동일한 추세로 변했을 것이라는 가정이다. 이 가정이 충족되지 않으면 DiD 추정치는 편향된다.

검증 방법: 처치 이전 기간의 데이터에서 두 그룹의 추세가 평행한지 시각적으로 또는 통계적으로 확인한다(Pre-trend Test).

6.2 2. 합성 대조군 기법 (Synthetic Control Method)

여러 대조군을 가중 평균하여 실험군과 유사한 가상의 대조군을 생성한다. 단일 대조군보다 실험군의 특성을 더 정확하게 반영할 수 있다.

\[Y_{synthetic} = \sum_{j=1}^{J} w_j \cdot Y_j, \quad \sum w_j = 1, \quad w_j \geq 0\]

가중치 \(w_j\)는 처치 이전 기간의 결과 변수와 예측 변수가 실험군과 최대한 유사하도록 최적화된다.

적용 사례: 특정 지역에만 정책을 시행한 경우, 다른 지역들의 가중 조합으로 “정책을 시행하지 않았을 경우의 해당 지역”을 추정
장점: DiD보다 유연한 가정 (평행 추세 가정을 완화)
한계: 대조군 풀(Donor Pool)이 충분히 크고 다양해야 함

6.3 3. 회귀 불연속 설계 (Regression Discontinuity Design, RDD)

특정 임계치(Cutoff) 근처의 관측치를 비교하여 처치 효과를 추정한다. 임계치 바로 위와 아래의 개체는 거의 동일한 특성을 가지므로, 사실상 무작위 배정과 유사한 효과를 얻는다.

\[\hat{\tau}_{RDD} = \lim_{x \to c^+} E[Y|X=x] - \lim_{x \to c^-} E[Y|X=x]\]

적용 사례: 신용 점수 700점 이상에게만 프리미엄 서비스를 제공할 때, 699점과 701점 사용자의 결과를 비교
장점: 내적 타당도가 높음 (임계치 근처에서는 준-무작위)
한계: 임계치 근처의 국소적 효과(LATE)만 추정 가능하며, 전체 모집단에 대한 일반화가 어려움

6.4 4. 성향 점수 매칭 (Propensity Score Matching, PSM)

관찰 데이터에서 처치군과 대조군의 관측 가능한 특성을 균형시키는 방법이다. 각 개체가 처치를 받을 확률(성향 점수)을 추정하고, 비슷한 성향 점수를 가진 개체끼리 매칭한다.

\[e(X) = P(T=1 | X)\]

장점: 관찰 데이터만으로도 인과 추론을 시도할 수 있음
한계: 관측 불가능한 교란 변수(Unobservable Confounders)는 통제할 수 없음

6.5 방법론 비교

방법	내적 타당도	외적 타당도	핵심 가정	데이터 요구사항
A/B 테스트 (RCT)	매우 높음	높음	SUTVA	실험 인프라
DiD	중간	중간	평행 추세	실험군/대조군 패널 데이터
Synthetic Control	중간-높음	낮음	충분한 대조군 풀	다수의 대조군 시계열
RDD	높음 (국소)	낮음	임계치 근처 연속성	임계치 변수
PSM	낮음-중간	중간	무교란성	풍부한 공변량

7 보정 기법: 시계열 모델의 한계

아무리 고도화된 시계열 모델(Prophet, CausalImpact 등)을 사용하여 전후 비교를 보정하더라도, 무작위 배정이 보장된 A/B 테스트만큼의 신뢰도를 확보하기는 불가능에 가깝다.

Google의 CausalImpact 패키지는 베이지안 구조 시계열 모델을 사용하여 반사실(Counterfactual)을 추정하지만, 이 역시 다음과 같은 가정에 의존한다:

공변량과 결과 변수의 관계가 처치 전후로 안정적이어야 한다
사용된 공변량이 처치에 의해 영향을 받지 않아야 한다

이러한 가정이 충족되지 않으면 추정치의 편향은 불가피하다. 따라서 전후 비교 기반 분석은 항상 탐색적 분석(Exploratory Analysis)의 위치에 두고, 가능한 한 실험적 검증으로 확인하는 것이 원칙이다.