Kohavi Ch.23 개관 — Long-Term Treatment Effects (장기 처리 효과)

단기 vs 장기 차이의 6 갈래 · 측정 목적 3 가지 · 4 가지 method (Cohort·Post-Period·Time-Staggered·Holdback)

Kohavi (2020) Ch.23 의 흐름을 한 편으로 압축한다. 단기 와 장기 effect 가 다른 6 가지 메커니즘 (user-learned, network, delayed, ecosystem change, concept drift, software rot), 측정 목적 3 가지 (attribution, institutional learning, generalization), 4 가지 측정 method (Cohort Analysis, Post-Period Analysis, Time-Staggered Treatment, Holdback/Reverse) 의 전체 지도.

Experimentation
A/B Test
저자

Kwangmin Kim

공개

2026년 05월 09일

1 정의

정의: Long-Term Treatment Effect (장기 처리 효과)

Treatment 의 asymptotic (점근) 효과 — 시간이 매우 길어졌을 때 의 결과 (Kohavi, Tang, Xu, 2020, Ch.23).

1.0.0.1 실무 정의
  • 이론 적: \(t \to \infty\) 의 effect
  • 실무 적: 3+ months 또는 exposure 횟수 (예: feature 10 회 이상 노출 한 user 의 effect)
1.0.0.2 Short-term 과 의 비교
  • Short-term: 1~2 주 의 average effect — 책 권장 일반 실험 기간
  • Long-term: 3 개월 + 또는 사용자 의 adapted 행동 의 effect
1.0.0.3 인용 (Roy Amara)

“We tend to overestimate the effect of a technology in the short run and underestimate the effect in the long run.”

직관

short-term effect 가 long-term effect 와 같다 는 가정 은 대부분 의 실험 에서 맞다. 하지만 예외 가 위험:

  • 가격 인상: 단기 revenue ↑, 장기 user abandon 으로 ↓
  • 광고 ↑: 단기 click ↑, 장기 사용자 회피 로 search 감소
  • 검색 품질 저하: 단기 query 증가 (재검색), 장기 사용자 이탈

레슨: short-term ≠ long-term 이 언제 발생 하는지 알아야 한다. 알 수 없는 경우 명시적 long-term 측정 필요.

2 왜 long-term 이 다른가 — 6 갈래

1. User-Learned Effects
2.0.0.1 Mechanism
  • 사용자 가 새 feature 에 학습·적응 하면서 행동 변화
  • 시간 따라 equilibrium 도달
2.0.0.2 예시
  • product crash: 첫 occurrence 에는 사용자 떠나지 않음, 반복 시 떠남
  • low-quality ad: 사용자 가 학습 → click rate 감소
  • 새 feature 의 discoverability: 처음 못 발견 → 시간 지나 발견 → engagement 증가
  • novelty effect: 처음 관심 → 시간 지나 desensitized
2.0.0.3 인용

Hohnhold et al. (2015), Huang, Reiley, Raibov (2018), Kohavi et al. (2009)

2. Network Effects
2.0.0.4 Mechanism
  • feature 의 가치 가 친구 사용 비율 에 의존
  • viral 전파 의 시간 lag
2.0.0.5 예시
  • Live Video (Facebook Messenger, Skype): 친구 가 사용해야 본인 도 사용
  • Two-sided marketplace (Airbnb): 새 feature 가 demand ↑ → supply 늦게 catch up
2.0.0.6 Long-term 측정 의 도전

network effect 는 supply 제약 마저 결합:

Treatment effect 가 short-term 에 demand 폭증
중간기 supply 부족 → revenue 정체
장기 supply 도 catch up → revenue 회복 (또는 새 equilibrium)

short-term 의 demand spike 가 과장 된 effect, 장기 의 equilibrium 이 진짜.

3. Delayed Experience and Measurement
2.0.0.7 Mechanism
  • 사용자 의 online 경험 과 offline 결과 사이 시간 gap
  • 측정 metric 이 누적 cumulative
2.0.0.8 예시
  • Airbnb·Booking.com: 예약 후 몇 달 뒤 도착 → user retention 의 변화 가 늦게 반영
  • 연간 계약: 1 년 후 갱신 의사결정 시점 까지 effect 누적
  • 학생 학습: feature 가 학기말 시험에 effect 반영
2.0.0.9 Long-term 의 의무

이런 영역 은 short-term metric 만 으로 결정 시 큰 위험 — 장기 retention 의 측정 필수.

4. Ecosystem Change

여러 sub-mechanism:

2.0.0.10 Other features launching
  • 다른 팀 의 새 feature 가 launch → 본 feature 의 가치 변화
  • 예: Live Video 가 더 많은 product 에 embed → 본 feature 의 marginal value 증가
2.0.0.11 Seasonality
  • gift card 가 Christmas 에 잘 작동, 다른 계절 에 약함
  • back-to-school, holiday season 등 의 강한 시간성
2.0.0.12 Competitive landscape
  • 경쟁사 가 같은 feature launch → 본 feature 의 차별성 감소
  • launch 시점 따라 effect 매우 다름
2.0.0.13 Government policies
  • GDPR 의 ad targeting 영향 — 데이터 사용 가능 범위 변화
  • 새 정책 의 effect 가 ramp 형태 로 누적
2.0.0.14 Concept drift
  • ML model 의 학습 데이터 분포 가 변화
  • model 의 성능 점차 degrade
2.0.0.15 Software rot
  • maintain 안 되는 feature 가 환경 변화 따라 degrade
  • 시스템 가정 의 invalidation
직관: 6 갈래 의 시간 척도
Mechanism typical 척도 측정 가능성
User-learned 주~월 high (post-period)
Network 월~분기 medium (cohort)
Delayed measurement 분기~년 low (cohort + waiting)
Ecosystem change 분기~년 low (exogenous)
Concept drift 분기 medium (model 비교)
Software rot low (software audit)

규칙: 짧은 척도 (user-learned, network) 는 측정 가능, 긴 척도 (delayed, ecosystem) 는 exogenous factor 와 분리 어려움.

3 측정 목적 — 3 가지

1. Attribution
3.0.0.1 정의

새 feature 가 얼마 만큼 의 long-term value 를 만들었는가? 팀 목표 추적 + 재무 forecast 에 사용.

3.0.0.2 도전
  • endogenous (user-learned) 와 exogenous (경쟁 변화) 의 분리
  • compounding — 새 feature 가 이전 feature 위 에 build → 누적 attribution 어려움
3.0.0.3 사용 사례

OKRs 또는 KPI tracking 시 기능 별 정확한 long-term 기여도 필요.

2. Institutional Learning
3.0.0.4 정의

short-term 과 long-term 의 차이 자체 를 학습 — 왜 다른가?

3.0.0.5 통찰
  • 큰 novelty effect → user discovery 가 너무 느림 → in-product education 으로 교정 가능
  • 큰 abandon rate → low quality 또는 click-bait — 다음 iteration 의 설계 정보
3.0.0.6 사용 사례

product team 의 design pattern·UX 개선 의 fine-grained insight.

3. Generalization
3.0.0.7 정의

특정 실험 의 long-term 측정을 다른 비슷한 실험 의 short-term 으로 부터 외삽 (extrapolate).

3.0.0.8 사용 사례 (Hohnhold et al. 2015)
  • 광고 ad-load 실험 의 historical long-term 데이터
  • 새 ad-load 변화 의 short-term effect 만 으로 long-term 예측
3.0.0.9 도전
  • exogenous factor 와 의 분리 (기간 별 다른 economic 환경)
  • generalize 가능 한 general principle 인지 검증
3.0.0.10 가치

generalize 가능 시 모든 새 실험 에 short-term → long-term mapping 즉시 적용.

직관: 목적 의 우선 순위

이 3 가지 는 서로 다른 method 를 요구:

  • Attribution: cohort analysis + holdback experiment
  • Institutional learning: post-period analysis (학습 효과 의 명시적 측정)
  • Generalization: time-staggered + 누적 실험 데이터 의 회귀

선택 의 원칙: 왜 long-term 측정 하는가 를 먼저 정의 → 적합 method 선택.

4 4 가지 측정 Method — 한눈에

Method #1: Cohort Analysis
4.0.0.1 절차
  • 실험 시작 전 stable cohort 정의 (logged-in user ID 또는 stable identifier)
  • 이 cohort 의 short-term, long-term effect 만 분석
4.0.0.2 강점
  • dilution 보정 (multi-device 의 일부 만 capture)
  • survivorship bias 일부 보정 (cohort 가 안정 적일 때)
4.0.0.3 한계
  • cohort 가 representative 아닌 경우 external validity 위협
  • cookie-based ID 처럼 churn 큰 경우 작동 안 함
Method #2: Post-Period Analysis
4.0.0.4 절차
  • 실험 종료 후 모두 Treatment 또는 모두 Control 로 통일 (= A/A 상태)
  • 기존 Treatment·Control group 의 post-period 의 metric 차이 측정
4.0.0.5 측정 의미
  • learning effect (Hohnhold et al. 2015) — 사용자·시스템 이 학습 한 결과
  • user-learned vs system-learned 분리 가능
4.0.0.6 강점
  • exogenous factor 의 분리 (post-period 는 모두 같은 environment)
  • 새 feature 와 의 interaction 차단
4.0.0.7 한계
  • dilution·survivorship bias 잔존
  • system-learned effect 가 0 인 경우 만 정확 (개인화·opt-out 등 은 system-learned 발생)
Method #3: Time-Staggered Treatments
4.0.0.8 절차
  • 같은 Treatment 의 두 버전: \(T_0\) (시점 \(t=0\) 시작), \(T_1\) (시점 \(t=1\) 시작)
  • 시점 \(t > 1\) 에서 두 버전 의 효과 차이 측정 — A/A 인 셈
4.0.0.9 의미
  • \(T_1(t) - T_0(t) \to 0\)수렴 의 신호
  • 수렴 시점 = long-term effect 측정 가능 시점
  • 후 post-period method 적용
4.0.0.10 강점
  • 명시적 수렴 판단 — “충분 한 시간” 의 객관적 기준
  • 큰 변동 (요일·계절성) 보정 가능
4.0.0.11 한계
  • 두 staggered 사이 의 충분 한 시간 gap 필요 (학습 시간 보다 길게)
  • \(T_1(t) - T_0(t)\) 의 작은 차이 검출 위해 power 필요 (Type II error rate 낮춤)
Method #4: Holdback and Reverse Experiment
4.0.0.12 Holdback
  • launch 후 10% user 를 Control 에 유지
  • 90% Treatment, 10% Control 의 분석 을 몇 주~몇 달 지속
4.0.0.13 Reverse experiment
  • 100% launch 후 10% 를 Control 로 되돌림
  • 모든 user 가 한 번은 Treatment 경험 후 의 변화 측정
4.0.0.14 강점
  • launch 후 의 long-term effect 직접 측정 (real launch state)
  • network·equilibrium effect 도달 후 측정 가능
4.0.0.15 한계
  • Control group 의 opportunity cost (launch 받지 못함)
  • 작은 Control → power 부족
  • reverse experiment: 사용자 confusion 위험 (UI 변화 의 reversal)
직관: method 선택 의 매트릭스
도전 1차 추천 method
dilution + survivorship Cohort + Post-Period
user learning 분리 Post-Period
수렴 시점 판단 Time-Staggered
launch 후 monitoring Holdback
시간 gap 측정 정밀화 Time-Staggered + Post-Period

규칙: 한 method 가 모든 도전을 해결 하지 않음. 결합 이 일반적 — Cohort + Post-Period 또는 Time-Staggered + Post-Period.

5 비교

차원 Long-Running 단순 Cohort Post-Period Time-Staggered Holdback
구현 비용 낮음 중간 중간 높음 중간
Dilution 보정 약 (잔존)
Survivorship 보정 없음 강 (안정 cohort)
학습 효과 측정 함께 측정 함께 측정 분리 측정 분리 함께
수렴 판단 trend 관찰 동일 모름 명시적 모름
Launch 후 monitoring no yes yes no yes
Power medium medium medium medium low (10% C)

6 응용

  • Search ranking: long-running + post-period (학습 효과 측정)
  • Ad load: time-staggered (수렴 판단) + holdback (launch 후 monitoring)
  • Marketplace: cohort (logged-in user) + reverse experiment (equilibrium 도달)
  • Personalization: post-period (system-learned 분리 어려움 — 한계 명시)
  • Subscription: cohort (sign-up 시점 분리) + holdback (renewal 측정)

7 Phase F 의 후속 글

  • F23-1: What Are + Why Differ + Why Measure — 단기/장기 차이의 6 갈래 와 측정 목적
  • F23-2: Long-Running Experiments — 단순 long-running 의 4 가지 한계
  • F23-3: Methods 1~4 — Cohort, Post-Period, Time-Staggered, Holdback 의 디테일

8 관련 주제

  • Ch.3 (Twyman’s Law) — short-term·long-term 차이 의 원인 일부
  • Ch.6 (F-KOH6) — Goal/Driver/Guardrail metric — long-term 측정 의 metric 설계
  • Ch.7 (F-KOH7) — OEC 가 short-term 측정 가능 + long-term 영향 가능 으로 정의 됨
  • Ch.15 (F-KOH15) — Ramp Long-Term Holdout 단계
  • Ch.22 (F-KOH22) — Network leakage 와 long-term 의 결합
  • D-21 (Hernan 22) — Target Trial Emulation 의 follow-up time
출처
  • Kohavi, Tang, Xu (2020). Trustworthy Online Controlled Experiments. Ch.23.
  • Hohnhold, O’Brien, Tang (2015). “Focus on the Long-Term.” KDD 2015.
  • Dmitriev, Frasca, Gupta, Kohavi, Vaz (2016). “Pitfalls of Long-Term Online Controlled Experiments.” IEEE Big Data 2016.
  • Huang, Reiley, Raibov (2018). “Pandora Listener Demand Curve.”
  • Chen, Liu, Xu (2019). “How A/B Tests Could Go Wrong.” WSDM 2019.
  • Gupta et al. (2019). “Top Challenges from the OCE Summit.” SIGKDD Explorations.
  • Xu, Duan, Huang (2018). “Holdback Experiment.”
  • Varian (2007). Control group opportunity cost.

Subscribe

Enjoy this blog? Get notified of new posts by email: