1 정의

정의: Causal Analytics

데이터로부터 원인(cause) 을 추출하는 분석. “what if?” 또는 “what will be, under different conditions” 의 질문에 답한다 (Buisson, 2021, Ch.1).

가장 잘 알려진 도구는 A/B 테스트(RCT) 이지만, 인과 분석은 RCT 만이 아니다. 실험을 할 수 없는 상황에서도 인과 다이어그램(causal diagrams) 을 통해 인과 질문에 답할 수 있다.

2 개념 및 원리

2.1 분석의 3 유형 — 목적에 따른 구분

Buisson 은 분석을 목적에 따라 셋으로 나눈다. 같은 회귀(regression) 도구를 써도 목적이 다르면 변수 mix·해석이 정반대가 된다.

유형	핵심 질문	사용 시점	대표 도구	책임
Descriptive	“what is” / “what we’ve measured”	현재 상태 보고	평균·합계·시각화	비즈니스 리포팅, 운영 대시보드
Predictive	“what will be, assuming current conditions persist”	미지의 값 추정	신경망·gradient boosting·로지스틱	사기 거래 분류, 이탈 고객 예측
Causal	“what if?” / “what will be, under different conditions”	개입의 효과 추정	RCT, 인과 다이어그램, IV	쿠폰 효과 측정, 정책 효과 평가

경계는 흐릿하다

Buisson 자신이 “in reality, there is more of a gradient between these three categories” 라고 명시한다. prescriptive analytics 같은 다른 명명도 존재한다. 그러나 목적이 명확하지 않으면 도구 선택을 잘못한다 — 이게 핵심이다.

2.2 1. Descriptive Analytics — 단순하지만 과소평가된 분석

기술 분석은 가장 단순한 분석이지만 체감보다 어렵다. 한 회사 안에서 “지금 직원이 몇 명인가” 같은 단일 정답을 가질 법한 질문도 부서마다 다르게 답하는 경우가 흔하다.

재무 부서: 정규직 + 임원 중심
운영 부서: 모든 active 계정 (계약직·인턴 포함)
HR: 계약 현황 기준

같은 질문, 다른 답 — 데이터의 정의(definition)와 수집 시점(snapshot)이 다르기 때문이다. 기술 분석의 진정한 가치는 “조직 내 단일 진실(single source of truth)”을 만드는 데 있다.

2.3 2. Predictive Analytics — 지난 20년의 성공

예측 분석은 ML 의 부상과 함께 비즈니스를 변화시켰다. 데이터 사이언티스트 직군이 이를 증명한다. 답하는 질문 형태는 다음과 같다.

“다음 달에 몇 명의 고객이 구독을 해지할 것인가?”
“이 거래가 사기인가?”
“이 사용자에게 어떤 상품을 추천하면 가장 클릭할 가능성이 높은가?”

핵심 가정: “현재 조건이 지속된다(current conditions persist)” — 즉 시스템의 동학이 변하지 않는다.

이 가정이 깨지는 순간 — 마케팅 캠페인을 시작했거나, 가격 정책을 바꿨거나, 외부 충격(코로나)이 왔다 — 예측 모형은 외삽(extrapolation) 영역에 들어가 신뢰성을 잃는다.

2.4 3. Causal Analytics — 비교적 새로운 도구

인과 분석은 두 가지 도구를 양 축으로 한다.

2.4.1 A/B 테스트 (RCT)

가장 강력한 인과 분석 도구다. “쿠폰을 보내지 않으면 다음 달 해지 고객은 몇 명인가” 라는 질문에 답하는 가장 단순하고 확실한 방법은 무작위 부분집합에 쿠폰을 보내고 대조군과 비교하는 것이다.

무작위 배정이 교환가능성(exchangeability) 을 보장
처치 효과의 인과적 추정이 가능
Buisson 책의 Part IV 에서 자세히 다룸 (Phase E §11.5 의 E-BUI8 ~ E-BUI10 시리즈)

2.4.2 인과 다이어그램 (Causal Diagrams)

실험을 할 수 없는 상황 — 윤리적 제약, 비용, 시간, 기술적 한계 — 에서 사용한다. 변수들의 인과 관계를 그래프로 표현하고, 어떤 변수를 통제하면 인과 효과를 식별할 수 있는지 판별한다.

Buisson 의 Part II 에서 본격 도입 (Phase E §11.5 의 E-BUI3 ~ E-BUI5)
Hernan 정통 lens 에서는 Causal_Inference/06 DAG 와 Ch.7 교란 으로 다룸

Buisson 의 권고

“It is one of my goals to get you to think more broadly about causal analytics rather than just equate it with experimentation.” (Buisson, 2021, Ch.1)

인과 분석 = 실험으로만 보지 말 것. 인과 다이어그램과 결합해야 진짜 도구다.

3 왜 필요한가 — 인간 행동은 풍력 터빈이 아니다

예측 분석이 그토록 성공했는데 왜 인과 분석이 필요한가? Buisson 의 답은 한 줄이다.

Human beings are more complicated than wind turbines.

물리 시스템(풍력 터빈)은 영향 요인이 적고 일정하다. 어떤 법칙이 휴일에 쉬거나 새 법칙이 갑자기 등장하지 않는다. 따라서 데이터 점이 차원에 비해 풍부하고, 우리는 거의 항상 보간(interpolation) 영역에 있다. 1-in-100-year 폭풍 같은 외삽 사례에서도 결과는 어느 정도 예측 가능하다 — 블레이드가 부러져 물에 떨어지지 날아가지 않는다.

반면 인간 행동은 다음을 갖는다.

다원적 원인 — 성격·사회 규범·환경 요인이 복합 작용
맥락 의존 — default 의 사소한 변경이 큰 행동 변화 유발
비결정성 — 같은 상황 같은 사람도 다르게 행동
혁신성 — 한 번도 안 해본 행동을 즉흥적으로 함
전략성 — 다른 사람의 행동·의도에 반응

→ 데이터 점이 차원에 비해 빈약하므로 자주 외삽 = 차원의 저주.

이 함정에서 벗어나려면 표면 변수가 아니라 더 깊은 모수(deeper parameters) — 행동의 원인 — 을 측정해야 한다. Robert Lucas 가 1970년대에 지적한 Lucas critique 의 분석 버전이다.

3.1 비즈니스 의사결정에서의 핵심

비즈니스 의사결정은 본질적으로 개입(intervention) 이다. 가격을 올린다, 신상품을 출시한다, 광고를 한다, 정책을 바꾼다. 모든 의사결정은 다음 질문에 답해야 한다.

“이 개입이 어떤 결과를 만들 것인가?”

이는 반사실(counterfactual) 질문 — 즉 인과 질문이다. 예측 분석은 “현재 조건이 지속된다” 를 가정하지만, 비즈니스 의사결정 자체가 그 조건을 바꾸려는 행위이므로 예측 분석만으로는 답할 수 없다.

4 응용 분야 — 인과 질문의 사례

영역	인과 질문	답하는 도구
구독 비즈니스	쿠폰을 보내면 해지율이 얼마나 줄어드는가	A/B 테스트
마케팅	신규 광고 캠페인이 매출에 미친 효과는	A/B 테스트 또는 DiD
가격 정책	가격을 10% 올리면 수요가 얼마나 줄어드는가	인과 다이어그램 + IV (또는 quasi-experiment)
제품 UX	1-클릭 예약 버튼이 예약 확률을 올리는가	A/B 테스트
HR	신규 교육 프로그램이 retention 에 미치는 효과는	A/B 테스트 또는 매칭
공공 정책	학자금 지원이 졸업률을 올리는가	RDD 또는 DiD
의료	신약이 사망률을 줄이는가	RCT (임상 시험)

공통 패턴: 개입(treatment) → 결과(outcome) 의 인과 효과를 묻는다. RCT 가 가능하면 가장 강력하지만, 가능하지 않을 때 인과 다이어그램·IV·DiD·RDD 같은 quasi-experimental 도구가 대안이다.

5 예시 — 구독 해지에서의 세 분석 적용

같은 비즈니스 문제(구독 해지율 감소) 에 세 분석을 차례로 적용한다.

5.1 Step 1 — Descriptive

지난 달 해지 고객은 1,200명. 평균 가입 기간 14개월. 해지 사유 1위는 “가격이 비싸다” (38%).

한계: 이 정보는 “현재 상태” 만 알려준다. 어떤 조치가 효과적일지는 모른다.

5.2 Step 2 — Predictive

머신러닝 모형이 다음 달 해지 위험이 높은 고객 5,000명을 식별. 정확도 AUC 0.82.

한계: 누가 해지할지 알아도 — 무엇을 해야 해지를 줄일 수 있는지는 모른다. 쿠폰? 무료 한 달? 가격 인하? 어느 것이 효과적인가?

5.3 Step 3 — Causal

5,000명을 무작위로 셋으로 나눠 — 쿠폰 그룹 / 무료 한 달 그룹 / 대조군 — 다음 달 해지율 비교. 쿠폰 그룹 -8% (CI: -10% ~ -6%), 무료 한 달 그룹 -3% (CI: -5% ~ -1%).

결론: 쿠폰이 더 효과적. 이제 비즈니스 의사결정 가능.

세 분석은 단계적으로 함께 작동한다. 하지만 인과 분석 단계 없이는 의사결정이 불가능하다.

6 코드 예시 — RCT 의 시뮬레이션

import numpy as np
from scipy import stats

np.random.seed(42)

n = 5000
treatment_assignment = np.random.binomial(1, 0.5, n)

# 잠재적 결과 (counterfactual)
# 처치 없는 경우: 해지율 30%
# 처치 있는 경우: 해지율 22% (쿠폰 효과 -8%)
churn_no_treatment = np.random.binomial(1, 0.30, n)
churn_with_treatment = np.random.binomial(1, 0.22, n)

# 관측된 결과 (consistency)
churn_observed = np.where(treatment_assignment == 1,
                          churn_with_treatment,
                          churn_no_treatment)

# 처치 효과 추정
treated_churn = churn_observed[treatment_assignment == 1].mean()
control_churn = churn_observed[treatment_assignment == 0].mean()
ate = treated_churn - control_churn

# 유의성
treated = churn_observed[treatment_assignment == 1]
control = churn_observed[treatment_assignment == 0]
t_stat, p_value = stats.ttest_ind(treated, control)

print(f"처치군 해지율: {treated_churn:.3f}")
print(f"대조군 해지율: {control_churn:.3f}")
print(f"ATE (Average Treatment Effect): {ate:+.3f}")
print(f"t = {t_stat:.2f}, p = {p_value:.4f}")

이 시뮬레이션은 다음을 보여준다.

잠재적 결과 \(Y_i(1), Y_i(0)\) 은 모든 개인에게 정의되지만 한쪽만 관측됨 (인과 추론의 근본 문제)
무작위 배정 이 처치군과 대조군의 기대 잠재적 결과를 같게 만듦 → 단순 평균 차이가 ATE 의 비편향 추정량
유의성 검정 으로 우연에 의한 차이를 배제

실제 비즈니스에서는 표본 크기·검정력 계산이 선행되어야 한다 — Phase E §11.5 의 E-BUI8 실험 설계 기초 에서 다룬다.

7 관련 주제

7.1 Ch.1 의 다음 sub-section

E-BUI1-2 인간 행동의 복잡성과 교란 — Human Beings Are Complicated + Confound It!
E-BUI1-3 상관 vs 인과 + 변수 과다의 함정 — Why Correlation Is Not Causation + Too Many Variables

7.2 후속 챕터

E-BUI3-0 인과 다이어그램 도입 — Buisson Ch.3: Chains, Forks, Colliders
E-BUI8-0 실험 설계 기초 — Buisson Ch.8: A/B 테스트의 실무 설계

7.3 Hernan 정통 cross-link

Causal_Inference/01 인과 추론 개요 — 학술적 정통
Causal_Inference/02 인과 효과의 정의와 잠재 결과 — 잠재적 결과 \(Y^a\)
Causal_Inference/03 무작위 실험과 교환가능성 — RCT 의 통계적 base

7.4 카테고리 진입점

Experimentation 학습 로드맵 — 11 Phase × 7 교재 매핑
E-BUI1-0 Causal-Behavioral Framework overview — Ch.1 전체 흐름