Kohavi Ch.23.1~23.3 — Long-Term Effect 의 정의 · 단기/장기 차이의 6 갈래 · 측정 목적 3 가지

user-learned · network · delayed · ecosystem · concept drift · software rot · attribution / institutional learning / generalization

Kohavi (2020) Ch.23 의 도입부 — long-term effect 의 정의, short-term 과 다른 6 가지 메커니즘, 측정 의 3 가지 목적 (Attribution, Institutional Learning, Generalization) 을 사례·인용·직관 으로 풀어 정리한다.

Experimentation
A/B Test
저자

Kwangmin Kim

공개

2026년 05월 09일

1 정의

정의: Long-Term Treatment Effect

Treatment 의 asymptotic (점근) 효과 — 시간이 매우 길어졌을 때 의 결과 (Kohavi, Tang, Xu, 2020, Ch.23).

1.0.0.1 실무 판정 기준
  • 이론: \(t \to \infty\)
  • 실무: 3+ 개월 또는 일정 횟수 의 노출 (예: feature 10 회 이상 본 user)
1.0.0.2 Short-term 의 정의
  • 1~2 주 의 average effect (책 권장 일반 실험 기간)
  • “stable 하고 generalizes 한다” 는 가정 하에 long-term 의 proxy 로 사용
1.0.0.3 가정 의 부하

대부분 의 실험에서 short-term ≈ long-term 가정 이 작동. 하지만 이 가정 이 깨질 가능성 을 인지하고 언제 깨지는지 알아야 한다.

직관: 시간 의 두 척도

비유 — 식이 요법:

  • short-term (1 주): 체중 ↓ (수분 손실)
  • long-term (1 년): 체중 ↑ 또는 ↓ (실제 체질 변화 또는 yo-yo 효과)

short-term 의 편의적 metric 만 보고 launch 결정 하면 yo-yo 위험.

레슨: short-term 이 long-term 과 다를 수 있는 영역 을 식별 → 명시적 측정.

2 1. User-Learned Effects

Mechanism

사용자 가 새 feature 에 학습· adapt 하면서 행동 변화. 시간 따라 equilibrium 도달.

2.0.0.1 5 가지 sub-mechanism
  1. Crash 누적: 첫 occurrence 에는 사용자 떠나지 않음, 반복 시 떠남
  2. Quality 학습: low-quality ad 의 click rate 가 시간 따라 ↓
  3. Discoverability: 새 feature 를 처음 못 발견 → 시간 지나 발견 → engagement ↑
  4. Priming: 기존 feature 에 익숙 → 새 feature 학습 에 시간 필요
  5. Novelty exploration: 처음 호기심 → 시간 지나 desensitized
2.0.0.2 인용
  • Hohnhold et al. (2015): ad-load 의 user-learned effect
  • Huang, Reiley, Raibov (2018): Pandora 의 ad sensitivity 학습
  • Chen, Liu, Xu (2019): A/B 의 invalid pattern 진단
  • Kohavi et al. (2009): Seven Pitfalls
사례 디테일
2.0.0.3 Crash example
  • Treatment 가 새 feature 도입 — 0.5% crash rate 추가
  • Day 1: 사용자 첫 crash → “이상한데”
  • Day 7: 두 번째 crash → 의구심
  • Day 30: 다섯 번째 crash → 사용자 떠남
  • short-term: 사용자 retention 변화 미미
  • long-term: 사용자 retention 큰 감소
2.0.0.4 Discoverability example
  • Treatment 가 new shortcut button 추가
  • Day 1: 사용자 의 5% 만 발견
  • Day 14: 사용자 의 25% 발견·사용
  • Day 60: 사용자 의 50% 발견·사용
  • short-term: small effect
  • long-term: large effect (with right metric)
2.0.0.5 Novelty effect
  • 새 UI element (예: confetti animation)
  • Day 1: 호기심 으로 관심 ↑
  • Day 7: 신선 → 클릭 ↑
  • Day 30: 익숙 함, 거의 무시
  • short-term: positive effect (overestimate)
  • long-term: 0 또는 negative (overestimate 의 보정 필요)
직관: 5 sub-mechanism 의 방향
  • Crash, Quality 학습: short-term 이 낙관 (long-term 보다 높음) → 측정 효과 가 over
  • Discoverability: short-term 이 비관 (long-term 보다 낮음) → 측정 효과 가 under
  • Priming, Novelty: short-term 의 방향 이 long-term 과 정반대 가능

규칙: 새 feature 의 카테고리 식별 (crash 위험·discoverability 의존·novelty) → 어떤 방향 의 학습 효과 인지 예측.

3 2. Network Effects

Mechanism

feature 의 가치 가 친구 사용 비율 에 의존 — viral 전파 의 시간 lag.

3.0.0.1 양면 매개체
  • direct social: friend 가 사용 → 본인 도 사용 (Live Video)
  • 양면 marketplace: Treatment 가 demand ↑ → supply 늦게 catch up (Airbnb)
  • recommendation: 처음 다양 한 추천 → 시간 지나 popularity bias → 효과 감소
3.0.0.2 인용
  • Ch.22 (leakage interference) 와 직접 연관
  • Hohnhold et al. (2015), Eckles et al. (2017)
사례 — Airbnb (two-sided marketplace)
3.0.0.3 시간 단계
  • Week 1: Treatment conversion 개선 → demand ↑ (예: +5% booking rate)
  • Week 2-4: 동일 inventory → Treatment 의 booking 이 inventory 잠식 → revenue ↑
  • Month 2: host 가 demand 변화 인지 → 가격 ↑ 또는 새 host 가입
  • Month 3+: equilibrium — supply 가 catch up, marginal revenue 감소
3.0.0.4 측정 의 함정
  • short-term (Week 1-2): conversion 개선 효과 가 과장 (inventory contention)
  • mid-term (Month 1-2): 효과 감소 (host 의 가격 반응)
  • long-term (Month 3+): 새 equilibrium (실제 효과 보다 작거나 다름)

short-term 만 보면 +5% — 하지만 long-term 은 +1% 또는 0%.

직관

network effect 가 있는 영역 은 equilibrium 도달 시점 까지 측정 의무. equilibrium 미도달 의 short-term 결과 는 과도기 — 영구 적 효과 와 다르다.

검증: ramp 의 1% → 50% → 100% 비교. effect size 가 비율 따라 증가 시 supply 측 catch up 미발생, 감소 시 supply 가 catch up 시작.

4 3. Delayed Experience and Measurement

Mechanism

사용자 의 online 경험 과 offline 결과 사이 시간 gap. 측정 metric 이 누적 cumulative.

4.0.0.1 사례
  • Airbnb·Booking.com: 예약 후 몇 달 뒤 도착 → user retention 의 변화 가 늦게 반영
  • 연간 계약: 1 년 후 갱신 의사결정 시점 까지 effect 누적
  • 학습 platform: feature 가 학기말 시험에 effect 반영
  • 금융 product: 큰 거래 의 결과 가 분기 마감 시 의 보고
4.0.0.2 시간 척도
  • 즉시 metric (page view, click): 분~시간
  • 단기 metric (purchase, sign-up): 일~주
  • 중기 metric (retention 30day): 월
  • 장기 metric (renewal, lifetime value): 분기~년
직관: metric 의 시간 척도

각 metric 의 natural lag 가 다름:

click → CTR 측정: 즉시
sign-up → activation: 1 일
trial → purchase: 14 일
purchase → retention 30day: 30 일
purchase → renewal: 365 일

Treatment effect 의 진짜 측정 은 metric 의 lag 만큼 의 시간 필요. shorter measurement window 의 metric 은 intermediate proxy — 진짜 outcome 의 일부.

규칙: long-term metric 측정 위해 충분한 follow-up 필수. 부족 시 cohort method 결합.

5 4. Ecosystem Change

6 sub-mechanism
5.0.0.1 Other features launching

다른 팀 의 새 feature 가 launch — 본 feature 와 interaction:

  • 새 push notification feature 가 launch → 기존 push feature 의 marginal effect 감소
  • 새 onboarding flow 가 launch → 기존 onboarding 의 effect 다른 방향 으로 변화
5.0.0.2 Seasonality
  • gift card 가 Christmas 시즌 에만 잘 작동
  • back-to-school, holiday season 등 의 강한 시간성
  • short-term 측정 시점 의 계절 → 다른 계절 에 generalize 어려움
5.0.0.3 Competitive landscape
  • 경쟁사 의 같은 feature launch → 본 feature 의 차별성 감소
  • launch 시점 따라 effect 매우 다름
5.0.0.4 Government policies
  • GDPR 의 ad targeting 영향 — 데이터 사용 가능 범위 변화
  • 새 정책 의 effect 가 ramp 형태 로 누적
  • 인용: European Commission 2016, Basin et al. 2018, Google 2019
5.0.0.5 Concept drift
  • ML model 의 학습 데이터 분포 가 변화
  • model 의 성능 점차 degrade
  • 예: search query 분포, ad keyword 분포 의 변화
5.0.0.6 Software rot
  • maintain 안 되는 feature 가 환경 변화 따라 degrade
  • 시스템 가정 의 invalidation
  • 예: API version 변경, browser engine 업데이트
직관: ecosystem change 의 exogenous

이 6 sub-mechanism 의 공통점: Treatment 와 무관 — exogenous factor.

규칙: long-term 측정 시 Treatment effectecosystem change 의 분리 필요. post-period analysis 가 가장 효과 적 (Treatment 종료 후 두 group 의 같은 environment).

6 측정 목적 — 3 가지

1. Attribution
6.0.0.1 정의

새 feature 가 얼마 만큼 의 long-term value 를 만들었는가?

6.0.0.2 사용 사례
  • OKR / KPI tracking — 팀 의 기능 별 long-term 기여도
  • 재무 forecast — feature 의 future revenue 추정
  • 인센티브 — 팀 별 launch effect
6.0.0.3 도전
  • endogenous (user-learned) 와 exogenous (경쟁 변화) 의 분리
  • compounding — 새 feature 가 이전 feature 위 에 build → 누적 attribution 어려움
6.0.0.4 적합 method
  • Cohort + Post-Period 결합
  • Holdback experiment (launch 후 monitoring)
2. Institutional Learning
6.0.0.5 정의

short-term 과 long-term 의 차이 자체 를 학습 — 왜 다른가?

6.0.0.6 통찰 의 가치
  • 큰 novelty effect → user discovery 가 너무 느림 → in-product education 으로 교정 가능
  • 큰 abandon rate → low quality 또는 click-bait — 다음 iteration 의 설계 정보
  • 큰 학습 효과 → onboarding 의 critical importance
6.0.0.7 적합 method
  • Post-Period analysis (학습 효과 의 분리 측정)
  • Time-Staggered (수렴 시점 의 명시적 판단)
3. Generalization
6.0.0.8 정의

특정 실험 의 long-term 측정을 다른 비슷한 실험 의 short-term 으로 부터 외삽 (extrapolate).

6.0.0.9 사용 사례 (Hohnhold et al. 2015)
  • 광고 ad-load 실험 의 historical long-term 데이터 누적
  • 새 ad-load 변화 의 short-term effect 만 으로 long-term 예측
6.0.0.10 도전
  • exogenous factor 와 의 분리 (기간 별 다른 economic 환경)
  • generalize 가능 한 general principle 인지 검증
  • big shock 제외 (만약 exogenous shock 이 있으면 generalize 부정확)
6.0.0.11 가치

generalize 가능 시 모든 새 실험 에 short-term → long-term mapping 즉시 적용. 이건 복제 가능 한 platform-level 자산.

6.0.0.12 적합 method
  • 누적 long-running experiment 데이터 의 회귀
  • short-term metric 의 predictive 한 design (Goal·Driver metric, Ch.6)
직관: 목적 → method 의 의사결정

3 가지 목적 은 서로 다른 method 를 요구:

목적 1차 method 2차 method
Attribution Cohort Post-Period, Holdback
Institutional Learning Post-Period Time-Staggered
Generalization 누적 데이터 회귀 Time-Staggered

규칙: 어떤 long-term 측정 인가 결정 전 — 목적 명확화. “그냥 long-term 측정” 은 자원 낭비. 목적 별 적합 method 선택 → 효율 적 측정.

7 OEC 와 long-term 의 연결

OEC 의 정의 (Ch.7) 의 부담

OEC 는 short-term measurable + long-term causally impactful — 두 조건 만족.

short-term measurable: 1~2 주 안 측정 가능 long-term causally impactful: long-term 목표 (revenue, retention) 에 진짜로 영향

7.0.0.1 Long-term 측정 의 의무

OEC 의 causally impactful 부분 검증 위해 주기적 long-term 측정 필요. 이게 빠지면 OEC 가 짐작 — Goodhart 의 함정.

7.0.0.2 인용

Hauser and Katz (1998) — “Metrics: You Are What You Measure!”

직관

OEC 는 short-term proxy — long-term 의 진짜 outcome 을 예측 하기 위함. proxy 의 예측 력 검증 의무 가 long-term 측정 의 정당성.

규칙: OEC 의 generalization 측정 (1) 분기 마다 자동 update, (2) 변화 시 OEC 의 weight 재조정.

8 비교 — short-term vs long-term

차원 Short-term (1~2 weeks) Long-term (3+ months)
측정 비용 낮음 높음
Sample size 작음 (cohort) 또는 동일
Treatment 가정 static dynamic
학습 효과 부분 완료
Network 효과 partial equilibrium
Exogenous factor 적음 많음
Decision 적합성 빠른 iteration 큰 launch decision
적합 metric OEC, click, conversion retention, lifetime value

9 응용

  • 검색 엔진: long-running + post-period (학습 효과 측정)
  • Ad platform: time-staggered + generalization (새 ad type 의 long-term 외삽)
  • Subscription: cohort (sign-up 시점) + holdback (renewal 측정)
  • Marketplace: post-period (equilibrium 도달) + ramp 단계 분석
  • Social network: cohort + edge-level analysis (Ch.22) 결합

10 실무 체크리스트

  1. 실험 의 short-term ≠ long-term 의심 영역 식별 (5+ checklist)
  2. 목적 명확화 (attribution / learning / generalization)
  3. 적합 method 선택 (cohort / post-period / time-staggered / holdback)
  4. measurement window 충분 한지 (metric 의 natural lag)
  5. exogenous factor 통제 가능 여부 (post-period 권장)
  6. cohort 의 representativeness 검증
  7. SRM (Ch.21) 점검 — long-running 시 cookie churn 의 SRM
  8. 결과 보고 시 uncertainty 명시 — long-term 은 본질 적 noise 큼

11 관련 주제

  • F23-0 overview — Ch.23 전체 지도
  • F23-2 — Long-Running Experiments 의 4 가지 한계
  • F23-3 — 4 method 의 디테일
  • Ch.7 (F-KOH7) — OEC 의 short-term + long-term proxy 의무
  • Ch.6 (F-KOH6) — Goal/Driver/Guardrail metric 의 long-term 측정 설계
  • Ch.22 (F-KOH22) — Network leakage 와 long-term 의 결합
  • Ch.21 (F-KOH21) — long-running 의 SRM 점검
출처
  • Kohavi, Tang, Xu (2020). Trustworthy Online Controlled Experiments. Ch.23.1~23.3.
  • Hohnhold, O’Brien, Tang (2015). “Focus on the Long-Term.” KDD 2015.
  • Huang, Reiley, Raibov (2018). Pandora ad sensitivity.
  • Chen, Liu, Xu (2019). “How A/B Tests Could Go Wrong.” WSDM 2019.
  • Kohavi et al. (2009, 2012). Seven Pitfalls + search query share.
  • European Commission (2016, 2018). GDPR.
  • Basin, Debois, Hildebrandt (2018). GDPR compliance.
  • Hauser and Katz (1998). “Metrics: You Are What You Measure!”
  • Goodhart (1975), Goodhart’s law (2018).

Subscribe

Enjoy this blog? Get notified of new posts by email: