행동 데이터 인과분석 — 인과·행동·데이터 삼각 (Buisson Ch.1 overview)

Causal-Behavioral Framework: 왜 예측 분석만으로는 인간 행동을 설명할 수 없는가

Buisson (2021) 의 Behavioral Data Analysis with R and Python Ch.1 전체 흐름을 압축한 overview. 분석 3유형 (descriptive / predictive / causal), 인간 행동의 5 특성, 차원의 저주와 Lucas 비판, 그리고 회귀를 예측 분석과 인과 분석에서 어떻게 다르게 사용하는가를 정리한다.

Experimentation
Causal Inference
저자

Kwangmin Kim

공개

2026년 05월 08일

1 정의

정의: Causal-Behavioral Framework

행동(behaviors)을 정점에 두고 인과 다이어그램(causal diagrams)데이터(data) 를 두 다리로 삼는 데이터 분석 프레임워크다. 행동을 이해·변화시키는 것이 응용 분석(applied analytics)의 궁극 목표이며, 이 목표는 인과 다이어그램과 데이터를 결합할 때만 달성된다 (Buisson, 2021, Ch.1).

이 프레임워크의 핵심 주장은 두 가지다.

  1. 행동은 이해의 대상이지 단순 예측의 대상이 아니다. “왜 이 고객이 구독을 해지했는가” 를 알아야 “어떻게 해지를 줄일 것인가” 를 답할 수 있다.
  2. 인과 분석(causal analytics) 은 데이터에서 인과관계를 추출하는 분석 도구이며, A/B test (RCT)인과 다이어그램 을 두 축으로 한다.

이 글은 이 프레임워크를 도입한 Buisson Ch.1 의 흐름을 압축한다. 자세한 sub-section 은 후속 글들(E-BUI1-1 ~ E-BUI1-3) 에서 다룬다.

2 개념 및 원리

2.1 분석의 3 유형

Buisson 은 분석을 목적에 따라 셋으로 나눈다.

유형 핵심 질문 예시
Descriptive (기술) “what is” / “what we’ve measured” 지난 달 해지 고객 수, 작년 영업이익
Predictive (예측) “what will be, assuming current conditions persist” 다음 달 해지 고객 수 예측, 사기 거래 분류
Causal (인과) “what if?” / “what will be, under different conditions” 쿠폰을 보내지 않으면 해지 고객은 몇 명이 될 것인가

경계는 흐릿하다 — Buisson 자신이 “in reality, there is more of a gradient” 라고 명시한다. 그러나 목적이 다르므로 사용 도구도 다르다. 같은 회귀(regression) 라도 예측 분석과 인과 분석에서 정반대로 작동한다 (자세한 비교는 §왜 필요한가 참조).

2.2 인간 행동의 5 특성

Buisson 은 풍력 터빈 같은 물리 시스템과 인간 행동을 대비한다. 인간 행동은 다음 5 특성 때문에 단순 예측이 어렵다.

  1. 다원적 원인 (Has multiple causes) — 개인 성격·사회 규범·성장 환경 등 변수가 너무 많다. 단일 변수의 예측력은 거의 항상 실망스럽다.
  2. 맥락 의존 (Is context-dependent) — 선택지의 default 같은 사소한 변경이 큰 행동 변화를 만든다. 행동 설계 관점에서는 축복이지만 분석 관점에서는 저주다.
  3. 비결정성 (Is variable) — 같은 사람이 같은 상황에서 다른 행동을 한다. 일시적(기분) 또는 장기적(권태) 효과가 모두 영향.
  4. 혁신성 (Is innovative) — 한 번도 해 본 적 없는 행동을 즉흥적으로 한다 (사고로 우회 도로 선택 등).
  5. 전략성 (Is strategic) — 다른 사람의 행동·의도를 추론해 반응한다 (협력 회복 또는 의도적 obfuscation).

이 5 특성이 시사하는 바는 행동의 표면(surface) 이 아니라 원인(causes) 을 측정해야 한다는 것이다. “월요일 오트밀을 먹었다” 는 화요일에도 같다고 보장할 수 없지만, “어떤 아침이든 먹는다” 는 더 안정적이다.

2.3 차원의 저주와 Lucas 비판

수학적 표현으로는 인간 행동 분석에서 외삽(extrapolation) 이 자주 일어나기 때문에 예측이 불안정하다.

  • 보간(interpolation): 관측 점들 사이의 값을 추정. 일반적으로 안전·신뢰 가능.
  • 외삽(extrapolation): 관측 범위 밖으로 나가는 추정. 항상 추측적 — “안에서 적용된 규칙이 밖에서도 적용된다” 는 가정의 도약(leap of faith).

물리 시스템(풍력 터빈)은 영향 요인이 적고 일정해서 데이터 점이 차원에 비해 풍부 → 거의 항상 보간. 반면 인간 행동은 영향 요인이 많고 변동하므로 데이터 점이 차원에 비해 드물 → 자주 외삽 = 차원의 저주(curse of dimensionality).

거시경제학자 Robert Lucas 가 1970년대에 같은 비판을 했다. Lucas 비판(Lucas critique) 은 케인즈 모형이 정책 변화 시 무너지는 이유를 “표면 수준 변수가 아니라 더 깊은 모수(consumer preferences 등) 를 식별해야 한다” 는 것으로 설명했다. Buisson 의 인과 분석 권고는 이 비판의 분석 버전이다.

3 왜 필요한가 — Confounder 문제

회귀를 예측에 쓸 때 vs 인과에 쓸 때

같은 회귀 도구라도 변수 mix 가 정반대로 짜여야 한다.

  • 예측 분석의 회귀: 종속 변수 값(prediction)을 정확히 맞추는 것이 목표. 변수 선정은 “어떤 변수를 추가하면 예측이 더 정확해지는가” 기준.
  • 인과 분석의 회귀: 독립 변수의 계수가 인과 효과(causal effect)의 정확한 측정값이 되는 것이 목표. 변수 선정은 “어떤 변수를 추가하면 계수가 왜곡되지 않는가” 기준.

두 목적은 종종 정반대 변수 mix 를 요구한다. 예측에 도움이 되는 변수가 인과 계수를 망가뜨릴 수 있고, 그 반대도 성립한다 (Buisson, 2021, Ch.1).

이 차이가 발생하는 이유는 회귀의 각 변수가 다른 변수의 계수를 변경하는 잠재력을 가지기 때문이다. 예측 정확도를 위해 추가한 변수가 인과 계수를 편향시키는 사례 셋이 Ch.1 에서 다뤄진다.

  1. 교란 변수(confounder) 누락 — C-Mart 아이스크림과 생수 판매: 여름 방학이라는 공통 원인을 무시하면 두 변수의 가짜 상관이 인과처럼 보임.
  2. 다중공선성(multicollinearity) 유발 — 같은 정보를 담은 변수(아이스드 커피, 아이스크림)를 모두 회귀에 넣으면 계수가 불안정.
  3. 충돌 변수(collider) 조건부 분석 — 두 원인의 공통 결과를 회귀에 포함하면 두 원인 사이에 가짜 상관이 생긴다 (바닐라-초콜릿 선호도 사례).

이 사례들이 §개념 및 원리 의 “회귀가 다르게 작동한다” 를 구체화한다. 자세한 분석은 후속 글 E-BUI1-3 상관 vs 인과 + 변수 과다의 함정 에서 다룬다.

4 응용 분야

Causal-behavioral framework 가 적용되는 영역은 다음과 같다.

영역 핵심 인과 질문
구독 비즈니스 쿠폰이 해지율을 줄이는가, 얼마나 줄이는가
이커머스 / 리테일 무료 배송 임계값이 장바구니 크기에 미치는 효과
마케팅 / 광고 캠페인이 전환율을 올리는가, 어느 세그먼트에서 가장 효과적인가
공공 정책 / 비영리 캠페인이 장기 기증 등록률을 올리는가
HR / 인사 교육 프로그램이 직원 retention 에 미치는 효과
제품 UX 1-클릭 예약 버튼이 예약 확률을 올리는가

공통 패턴은 “사건 X 가 일어났을 때, 만약 X 가 안 일어났다면(반사실) 결과 Y 는 어떻게 달라졌을 것인가” 를 묻는 것이다. 이는 반사실(counterfactual) 추론의 정의 그 자체이며, Buisson 의 후속 챕터들이 이 추론을 데이터로 답하는 도구를 다룬다.

5 예시 — Causal-Behavioral Framework 의 첫 적용

Ch.1 의 도입 사례는 추상적이지만 다음 질문이 책 전반의 thread 를 형성한다.

고객 만족도(CSAT) 가 향후 고객 지출(future spending) 을 얼마나 증가시키는가?

전통적 접근으로는 답하기 어렵다. CSAT 와 spending 사이에 양방향 영향(역인과)이 있고 공통 원인(교란)도 많다. 만족한 고객이 더 쓰는가, 많이 쓴 고객이 만족한다고 답하는가? 본인이 부유해서 둘 다 높은가?

Buisson 의 답은 마지막 챕터(Ch.12)의 한 줄 코드: 도구변수(IV) 회귀. 그 한 줄이 작동하기까지 책 전반에 걸쳐 다음 도구가 필요하다.

  • 인과 다이어그램 (Ch.3~5) — 교란·매개·충돌 변수를 시각화
  • 결측 데이터 처리 (Ch.6) — MCAR/MAR/MNAR 진단
  • 부트스트랩 (Ch.7) — 비정규 분포에서의 신뢰구간
  • 실험 설계 (Ch.8~10) — RCT, 층화·군집 무작위 배정
  • 조절·매개 분석 (Ch.11~12) — Moderation, Mediation, IV

각 도구는 §11.5 의 후속 글(E-BUI2 ~ E-BUI12) 에서 다룬다.

6 관련 주제

6.1 Ch.1 의 sub-section 분해

6.2 후속 챕터

6.3 Phase D (Hernan 정통) 와의 대비

이 글은 Buisson 의 비즈니스 lens 다. 같은 인과추론을 학술적 정통으로 보려면 Phase D (Hernan & Robins 2020, Ch.1~23) 를 참조한다.

Hernan 은 반사실 표기 \(Y^a\) 를 base 로 하는 정통 학술서, Buisson 은 같은 개념을 비즈니스 사례(C-Mart, AirCnC) 로 풀어낸 실용서. 두 lens 가 같은 진리를 다루지만 어조와 강조점이 다르다.

6.4 카테고리 진입점

Subscribe

Enjoy this blog? Get notified of new posts by email: