Kwangmin Kim - Kohavi Ch.23 개관 — Long-Term Treatment Effects (장기 처리 효과)

1 정의

정의: Long-Term Treatment Effect (장기 처리 효과)

Treatment 의 asymptotic (점근) 효과 — 시간이 매우 길어졌을 때 의 결과 (Kohavi, Tang, Xu, 2020, Ch.23).

1.0.0.1 실무 정의

이론 적: \(t \to \infty\) 의 effect
실무 적: 3+ months 또는 exposure 횟수 (예: feature 10 회 이상 노출 한 user 의 effect)

1.0.0.2 Short-term 과 의 비교

Short-term: 1~2 주 의 average effect — 책 권장 일반 실험 기간
Long-term: 3 개월 + 또는 사용자 의 adapted 행동 의 effect

1.0.0.3 인용 (Roy Amara)

“We tend to overestimate the effect of a technology in the short run and underestimate the effect in the long run.”

직관

short-term effect 가 long-term effect 와 같다 는 가정 은 대부분 의 실험 에서 맞다. 하지만 예외 가 위험:

가격 인상: 단기 revenue ↑, 장기 user abandon 으로 ↓
광고 ↑: 단기 click ↑, 장기 사용자 회피 로 search 감소
검색 품질 저하: 단기 query 증가 (재검색), 장기 사용자 이탈

레슨: short-term ≠ long-term 이 언제 발생 하는지 알아야 한다. 알 수 없는 경우 명시적 long-term 측정 필요.

2 왜 long-term 이 다른가 — 6 갈래

1. User-Learned Effects

2.0.0.1 Mechanism

사용자 가 새 feature 에 학습·적응 하면서 행동 변화
시간 따라 equilibrium 도달

2.0.0.2 예시

product crash: 첫 occurrence 에는 사용자 떠나지 않음, 반복 시 떠남
low-quality ad: 사용자 가 학습 → click rate 감소
새 feature 의 discoverability: 처음 못 발견 → 시간 지나 발견 → engagement 증가
novelty effect: 처음 관심 → 시간 지나 desensitized

2.0.0.3 인용

Hohnhold et al. (2015), Huang, Reiley, Raibov (2018), Kohavi et al. (2009)

2. Network Effects

2.0.0.4 Mechanism

feature 의 가치 가 친구 사용 비율 에 의존
viral 전파 의 시간 lag

2.0.0.5 예시

Live Video (Facebook Messenger, Skype): 친구 가 사용해야 본인 도 사용
Two-sided marketplace (Airbnb): 새 feature 가 demand ↑ → supply 늦게 catch up

2.0.0.6 Long-term 측정 의 도전

network effect 는 supply 제약 마저 결합:

Treatment effect 가 short-term 에 demand 폭증
중간기 supply 부족 → revenue 정체
장기 supply 도 catch up → revenue 회복 (또는 새 equilibrium)

short-term 의 demand spike 가 과장 된 effect, 장기 의 equilibrium 이 진짜.

3. Delayed Experience and Measurement

2.0.0.7 Mechanism

사용자 의 online 경험 과 offline 결과 사이 시간 gap
측정 metric 이 누적 cumulative

2.0.0.8 예시

Airbnb·Booking.com: 예약 후 몇 달 뒤 도착 → user retention 의 변화 가 늦게 반영
연간 계약: 1 년 후 갱신 의사결정 시점 까지 effect 누적
학생 학습: feature 가 학기말 시험에 effect 반영

2.0.0.9 Long-term 의 의무

이런 영역 은 short-term metric 만 으로 결정 시 큰 위험 — 장기 retention 의 측정 필수.

4. Ecosystem Change

여러 sub-mechanism:

2.0.0.10 Other features launching

다른 팀 의 새 feature 가 launch → 본 feature 의 가치 변화
예: Live Video 가 더 많은 product 에 embed → 본 feature 의 marginal value 증가

2.0.0.11 Seasonality

gift card 가 Christmas 에 잘 작동, 다른 계절 에 약함
back-to-school, holiday season 등 의 강한 시간성

2.0.0.12 Competitive landscape

경쟁사 가 같은 feature launch → 본 feature 의 차별성 감소
launch 시점 따라 effect 매우 다름

2.0.0.13 Government policies

GDPR 의 ad targeting 영향 — 데이터 사용 가능 범위 변화
새 정책 의 effect 가 ramp 형태 로 누적

2.0.0.14 Concept drift

ML model 의 학습 데이터 분포 가 변화
model 의 성능 점차 degrade

2.0.0.15 Software rot

maintain 안 되는 feature 가 환경 변화 따라 degrade
시스템 가정 의 invalidation

직관: 6 갈래 의 시간 척도

Mechanism	typical 척도	측정 가능성
User-learned	주~월	high (post-period)
Network	월~분기	medium (cohort)
Delayed measurement	분기~년	low (cohort + waiting)
Ecosystem change	분기~년	low (exogenous)
Concept drift	분기	medium (model 비교)
Software rot	년	low (software audit)

규칙: 짧은 척도 (user-learned, network) 는 측정 가능, 긴 척도 (delayed, ecosystem) 는 exogenous factor 와 분리 어려움.

3 측정 목적 — 3 가지

1. Attribution

3.0.0.1 정의

새 feature 가 얼마 만큼 의 long-term value 를 만들었는가? 팀 목표 추적 + 재무 forecast 에 사용.

3.0.0.2 도전

endogenous (user-learned) 와 exogenous (경쟁 변화) 의 분리
compounding — 새 feature 가 이전 feature 위 에 build → 누적 attribution 어려움

3.0.0.3 사용 사례

OKRs 또는 KPI tracking 시 기능 별 정확한 long-term 기여도 필요.

2. Institutional Learning

3.0.0.4 정의

short-term 과 long-term 의 차이 자체 를 학습 — 왜 다른가?

3.0.0.5 통찰

큰 novelty effect → user discovery 가 너무 느림 → in-product education 으로 교정 가능
큰 abandon rate → low quality 또는 click-bait — 다음 iteration 의 설계 정보

3.0.0.6 사용 사례

product team 의 design pattern·UX 개선 의 fine-grained insight.

3. Generalization

3.0.0.7 정의

특정 실험 의 long-term 측정을 다른 비슷한 실험 의 short-term 으로 부터 외삽 (extrapolate).

3.0.0.8 사용 사례 (Hohnhold et al. 2015)

광고 ad-load 실험 의 historical long-term 데이터
새 ad-load 변화 의 short-term effect 만 으로 long-term 예측

3.0.0.9 도전

exogenous factor 와 의 분리 (기간 별 다른 economic 환경)
generalize 가능 한 general principle 인지 검증

3.0.0.10 가치

generalize 가능 시 모든 새 실험 에 short-term → long-term mapping 즉시 적용.

직관: 목적 의 우선 순위

이 3 가지 는 서로 다른 method 를 요구:

Attribution: cohort analysis + holdback experiment
Institutional learning: post-period analysis (학습 효과 의 명시적 측정)
Generalization: time-staggered + 누적 실험 데이터 의 회귀

선택 의 원칙: 왜 long-term 측정 하는가 를 먼저 정의 → 적합 method 선택.

4 4 가지 측정 Method — 한눈에

Method #1: Cohort Analysis

4.0.0.1 절차

실험 시작 전 stable cohort 정의 (logged-in user ID 또는 stable identifier)
이 cohort 의 short-term, long-term effect 만 분석

4.0.0.2 강점

dilution 보정 (multi-device 의 일부 만 capture)
survivorship bias 일부 보정 (cohort 가 안정 적일 때)

4.0.0.3 한계

cohort 가 representative 아닌 경우 external validity 위협
cookie-based ID 처럼 churn 큰 경우 작동 안 함

Method #2: Post-Period Analysis

4.0.0.4 절차

실험 종료 후 모두 Treatment 또는 모두 Control 로 통일 (= A/A 상태)
기존 Treatment·Control group 의 post-period 의 metric 차이 측정

4.0.0.5 측정 의미

learning effect (Hohnhold et al. 2015) — 사용자·시스템 이 학습 한 결과
user-learned vs system-learned 분리 가능

4.0.0.6 강점

exogenous factor 의 분리 (post-period 는 모두 같은 environment)
새 feature 와 의 interaction 차단

4.0.0.7 한계

dilution·survivorship bias 잔존
system-learned effect 가 0 인 경우 만 정확 (개인화·opt-out 등 은 system-learned 발생)

Method #3: Time-Staggered Treatments

4.0.0.8 절차

같은 Treatment 의 두 버전: \(T_0\) (시점 \(t=0\) 시작), \(T_1\) (시점 \(t=1\) 시작)
시점 \(t > 1\) 에서 두 버전 의 효과 차이 측정 — A/A 인 셈

4.0.0.9 의미

\(T_1(t) - T_0(t) \to 0\) 가 수렴 의 신호
수렴 시점 = long-term effect 측정 가능 시점
후 post-period method 적용

4.0.0.10 강점

명시적 수렴 판단 — “충분 한 시간” 의 객관적 기준
큰 변동 (요일·계절성) 보정 가능

4.0.0.11 한계

두 staggered 사이 의 충분 한 시간 gap 필요 (학습 시간 보다 길게)
\(T_1(t) - T_0(t)\) 의 작은 차이 검출 위해 power 필요 (Type II error rate 낮춤)

Method #4: Holdback and Reverse Experiment

4.0.0.12 Holdback

launch 후 10% user 를 Control 에 유지
90% Treatment, 10% Control 의 분석 을 몇 주~몇 달 지속

4.0.0.13 Reverse experiment

100% launch 후 10% 를 Control 로 되돌림
모든 user 가 한 번은 Treatment 경험 후 의 변화 측정

4.0.0.14 강점

launch 후 의 long-term effect 직접 측정 (real launch state)
network·equilibrium effect 도달 후 측정 가능

4.0.0.15 한계

Control group 의 opportunity cost (launch 받지 못함)
작은 Control → power 부족
reverse experiment: 사용자 confusion 위험 (UI 변화 의 reversal)

직관: method 선택 의 매트릭스

도전	1차 추천 method
dilution + survivorship	Cohort + Post-Period
user learning 분리	Post-Period
수렴 시점 판단	Time-Staggered
launch 후 monitoring	Holdback
시간 gap 측정 정밀화	Time-Staggered + Post-Period

규칙: 한 method 가 모든 도전을 해결 하지 않음. 결합 이 일반적 — Cohort + Post-Period 또는 Time-Staggered + Post-Period.

5 비교

차원	Long-Running 단순	Cohort	Post-Period	Time-Staggered	Holdback
구현 비용	낮음	중간	중간	높음	중간
Dilution 보정	약	강	약 (잔존)	중	중
Survivorship 보정	없음	강 (안정 cohort)	약	중	약
학습 효과 측정	함께 측정	함께 측정	분리 측정	분리	함께
수렴 판단	trend 관찰	동일	모름	명시적	모름
Launch 후 monitoring	no	yes	yes	no	yes
Power	medium	medium	medium	medium	low (10% C)

6 응용

Search ranking: long-running + post-period (학습 효과 측정)
Ad load: time-staggered (수렴 판단) + holdback (launch 후 monitoring)
Marketplace: cohort (logged-in user) + reverse experiment (equilibrium 도달)
Personalization: post-period (system-learned 분리 어려움 — 한계 명시)
Subscription: cohort (sign-up 시점 분리) + holdback (renewal 측정)

7 Phase F 의 후속 글

F23-1: What Are + Why Differ + Why Measure — 단기/장기 차이의 6 갈래 와 측정 목적
F23-2: Long-Running Experiments — 단순 long-running 의 4 가지 한계
F23-3: Methods 1~4 — Cohort, Post-Period, Time-Staggered, Holdback 의 디테일

8 관련 주제

Ch.3 (Twyman’s Law) — short-term·long-term 차이 의 원인 일부
Ch.6 (F-KOH6) — Goal/Driver/Guardrail metric — long-term 측정 의 metric 설계
Ch.7 (F-KOH7) — OEC 가 short-term 측정 가능 + long-term 영향 가능 으로 정의 됨
Ch.15 (F-KOH15) — Ramp Long-Term Holdout 단계
Ch.22 (F-KOH22) — Network leakage 와 long-term 의 결합
D-21 (Hernan 22) — Target Trial Emulation 의 follow-up time

출처

Kohavi, Tang, Xu (2020). Trustworthy Online Controlled Experiments. Ch.23.
Hohnhold, O’Brien, Tang (2015). “Focus on the Long-Term.” KDD 2015.
Dmitriev, Frasca, Gupta, Kohavi, Vaz (2016). “Pitfalls of Long-Term Online Controlled Experiments.” IEEE Big Data 2016.
Huang, Reiley, Raibov (2018). “Pandora Listener Demand Curve.”
Chen, Liu, Xu (2019). “How A/B Tests Could Go Wrong.” WSDM 2019.
Gupta et al. (2019). “Top Challenges from the OCE Summit.” SIGKDD Explorations.
Xu, Duan, Huang (2018). “Holdback Experiment.”
Varian (2007). Control group opportunity cost.