1 정의
행동(behaviors)을 정점에 두고 인과 다이어그램(causal diagrams) 과 데이터(data) 를 두 다리로 삼는 데이터 분석 프레임워크다. 행동을 이해·변화시키는 것이 응용 분석(applied analytics)의 궁극 목표이며, 이 목표는 인과 다이어그램과 데이터를 결합할 때만 달성된다 (Buisson, 2021, Ch.1).
이 프레임워크의 핵심 주장은 두 가지다.
- 행동은 이해의 대상이지 단순 예측의 대상이 아니다. “왜 이 고객이 구독을 해지했는가” 를 알아야 “어떻게 해지를 줄일 것인가” 를 답할 수 있다.
- 인과 분석(causal analytics) 은 데이터에서 인과관계를 추출하는 분석 도구이며, A/B test (RCT) 와 인과 다이어그램 을 두 축으로 한다.
이 글은 이 프레임워크를 도입한 Buisson Ch.1 의 흐름을 압축한다. 자세한 sub-section 은 후속 글들(E-BUI1-1 ~ E-BUI1-3) 에서 다룬다.
2 개념 및 원리
2.1 분석의 3 유형
Buisson 은 분석을 목적에 따라 셋으로 나눈다.
| 유형 | 핵심 질문 | 예시 |
|---|---|---|
| Descriptive (기술) | “what is” / “what we’ve measured” | 지난 달 해지 고객 수, 작년 영업이익 |
| Predictive (예측) | “what will be, assuming current conditions persist” | 다음 달 해지 고객 수 예측, 사기 거래 분류 |
| Causal (인과) | “what if?” / “what will be, under different conditions” | 쿠폰을 보내지 않으면 해지 고객은 몇 명이 될 것인가 |
경계는 흐릿하다 — Buisson 자신이 “in reality, there is more of a gradient” 라고 명시한다. 그러나 목적이 다르므로 사용 도구도 다르다. 같은 회귀(regression) 라도 예측 분석과 인과 분석에서 정반대로 작동한다 (자세한 비교는 §왜 필요한가 참조).
2.2 인간 행동의 5 특성
Buisson 은 풍력 터빈 같은 물리 시스템과 인간 행동을 대비한다. 인간 행동은 다음 5 특성 때문에 단순 예측이 어렵다.
- 다원적 원인 (Has multiple causes) — 개인 성격·사회 규범·성장 환경 등 변수가 너무 많다. 단일 변수의 예측력은 거의 항상 실망스럽다.
- 맥락 의존 (Is context-dependent) — 선택지의 default 같은 사소한 변경이 큰 행동 변화를 만든다. 행동 설계 관점에서는 축복이지만 분석 관점에서는 저주다.
- 비결정성 (Is variable) — 같은 사람이 같은 상황에서 다른 행동을 한다. 일시적(기분) 또는 장기적(권태) 효과가 모두 영향.
- 혁신성 (Is innovative) — 한 번도 해 본 적 없는 행동을 즉흥적으로 한다 (사고로 우회 도로 선택 등).
- 전략성 (Is strategic) — 다른 사람의 행동·의도를 추론해 반응한다 (협력 회복 또는 의도적 obfuscation).
이 5 특성이 시사하는 바는 행동의 표면(surface) 이 아니라 원인(causes) 을 측정해야 한다는 것이다. “월요일 오트밀을 먹었다” 는 화요일에도 같다고 보장할 수 없지만, “어떤 아침이든 먹는다” 는 더 안정적이다.
2.3 차원의 저주와 Lucas 비판
수학적 표현으로는 인간 행동 분석에서 외삽(extrapolation) 이 자주 일어나기 때문에 예측이 불안정하다.
- 보간(interpolation): 관측 점들 사이의 값을 추정. 일반적으로 안전·신뢰 가능.
- 외삽(extrapolation): 관측 범위 밖으로 나가는 추정. 항상 추측적 — “안에서 적용된 규칙이 밖에서도 적용된다” 는 가정의 도약(leap of faith).
물리 시스템(풍력 터빈)은 영향 요인이 적고 일정해서 데이터 점이 차원에 비해 풍부 → 거의 항상 보간. 반면 인간 행동은 영향 요인이 많고 변동하므로 데이터 점이 차원에 비해 드물 → 자주 외삽 = 차원의 저주(curse of dimensionality).
거시경제학자 Robert Lucas 가 1970년대에 같은 비판을 했다. Lucas 비판(Lucas critique) 은 케인즈 모형이 정책 변화 시 무너지는 이유를 “표면 수준 변수가 아니라 더 깊은 모수(consumer preferences 등) 를 식별해야 한다” 는 것으로 설명했다. Buisson 의 인과 분석 권고는 이 비판의 분석 버전이다.
3 왜 필요한가 — Confounder 문제
같은 회귀 도구라도 변수 mix 가 정반대로 짜여야 한다.
- 예측 분석의 회귀: 종속 변수 값(prediction)을 정확히 맞추는 것이 목표. 변수 선정은 “어떤 변수를 추가하면 예측이 더 정확해지는가” 기준.
- 인과 분석의 회귀: 독립 변수의 계수가 인과 효과(causal effect)의 정확한 측정값이 되는 것이 목표. 변수 선정은 “어떤 변수를 추가하면 계수가 왜곡되지 않는가” 기준.
→ 두 목적은 종종 정반대 변수 mix 를 요구한다. 예측에 도움이 되는 변수가 인과 계수를 망가뜨릴 수 있고, 그 반대도 성립한다 (Buisson, 2021, Ch.1).
이 차이가 발생하는 이유는 회귀의 각 변수가 다른 변수의 계수를 변경하는 잠재력을 가지기 때문이다. 예측 정확도를 위해 추가한 변수가 인과 계수를 편향시키는 사례 셋이 Ch.1 에서 다뤄진다.
- 교란 변수(confounder) 누락 — C-Mart 아이스크림과 생수 판매: 여름 방학이라는 공통 원인을 무시하면 두 변수의 가짜 상관이 인과처럼 보임.
- 다중공선성(multicollinearity) 유발 — 같은 정보를 담은 변수(아이스드 커피, 아이스크림)를 모두 회귀에 넣으면 계수가 불안정.
- 충돌 변수(collider) 조건부 분석 — 두 원인의 공통 결과를 회귀에 포함하면 두 원인 사이에 가짜 상관이 생긴다 (바닐라-초콜릿 선호도 사례).
이 사례들이 §개념 및 원리 의 “회귀가 다르게 작동한다” 를 구체화한다. 자세한 분석은 후속 글 E-BUI1-3 상관 vs 인과 + 변수 과다의 함정 에서 다룬다.
4 응용 분야
Causal-behavioral framework 가 적용되는 영역은 다음과 같다.
| 영역 | 핵심 인과 질문 |
|---|---|
| 구독 비즈니스 | 쿠폰이 해지율을 줄이는가, 얼마나 줄이는가 |
| 이커머스 / 리테일 | 무료 배송 임계값이 장바구니 크기에 미치는 효과 |
| 마케팅 / 광고 | 캠페인이 전환율을 올리는가, 어느 세그먼트에서 가장 효과적인가 |
| 공공 정책 / 비영리 | 캠페인이 장기 기증 등록률을 올리는가 |
| HR / 인사 | 교육 프로그램이 직원 retention 에 미치는 효과 |
| 제품 UX | 1-클릭 예약 버튼이 예약 확률을 올리는가 |
공통 패턴은 “사건 X 가 일어났을 때, 만약 X 가 안 일어났다면(반사실) 결과 Y 는 어떻게 달라졌을 것인가” 를 묻는 것이다. 이는 반사실(counterfactual) 추론의 정의 그 자체이며, Buisson 의 후속 챕터들이 이 추론을 데이터로 답하는 도구를 다룬다.
5 예시 — Causal-Behavioral Framework 의 첫 적용
Ch.1 의 도입 사례는 추상적이지만 다음 질문이 책 전반의 thread 를 형성한다.
고객 만족도(CSAT) 가 향후 고객 지출(future spending) 을 얼마나 증가시키는가?
전통적 접근으로는 답하기 어렵다. CSAT 와 spending 사이에 양방향 영향(역인과)이 있고 공통 원인(교란)도 많다. 만족한 고객이 더 쓰는가, 많이 쓴 고객이 만족한다고 답하는가? 본인이 부유해서 둘 다 높은가?
Buisson 의 답은 마지막 챕터(Ch.12)의 한 줄 코드: 도구변수(IV) 회귀. 그 한 줄이 작동하기까지 책 전반에 걸쳐 다음 도구가 필요하다.
- 인과 다이어그램 (Ch.3~5) — 교란·매개·충돌 변수를 시각화
- 결측 데이터 처리 (Ch.6) — MCAR/MAR/MNAR 진단
- 부트스트랩 (Ch.7) — 비정규 분포에서의 신뢰구간
- 실험 설계 (Ch.8~10) — RCT, 층화·군집 무작위 배정
- 조절·매개 분석 (Ch.11~12) — Moderation, Mediation, IV
각 도구는 §11.5 의 후속 글(E-BUI2 ~ E-BUI12) 에서 다룬다.
6 관련 주제
6.1 Ch.1 의 sub-section 분해
- E-BUI1-1 인과 분석의 필요성과 분석 유형 — Why We Need Causal + The Different Types
- E-BUI1-2 인간 행동의 복잡성과 교란 — Human Beings Are Complicated + Confound It!
- E-BUI1-3 상관 vs 인과 + 변수 과다의 함정 — Why Correlation Is Not Causation + Too Many Variables Spoil the Broth
6.2 후속 챕터
- E-BUI2-0 행동 데이터 이해 overview — Buisson Ch.2: 인간 행동의 5 구성요소
- E-BUI3-0 인과 다이어그램 도입 — Buisson Ch.3: Chains, Forks, Colliders
- E-BUI5-0 Deconfounding overview — Buisson Ch.5: Disjunctive Cause vs Backdoor Criterion
6.3 Phase D (Hernan 정통) 와의 대비
이 글은 Buisson 의 비즈니스 lens 다. 같은 인과추론을 학술적 정통으로 보려면 Phase D (Hernan & Robins 2020, Ch.1~23) 를 참조한다.
Hernan 은 반사실 표기 \(Y^a\) 를 base 로 하는 정통 학술서, Buisson 은 같은 개념을 비즈니스 사례(C-Mart, AirCnC) 로 풀어낸 실용서. 두 lens 가 같은 진리를 다루지만 어조와 강조점이 다르다.
6.4 카테고리 진입점
- Experimentation 학습 로드맵 — 11 Phase × 7 교재 매핑
- Phase E 핸드오프 (작성자 참조용)