Kwangmin Kim - Kohavi Ch.23.1~23.3 — Long-Term Effect 의 정의 · 단기/장기 차이의 6 갈래

1 정의

정의: Long-Term Treatment Effect

Treatment 의 asymptotic (점근) 효과 — 시간이 매우 길어졌을 때 의 결과 (Kohavi, Tang, Xu, 2020, Ch.23).

1.0.0.1 실무 판정 기준

이론: \(t \to \infty\)
실무: 3+ 개월 또는 일정 횟수 의 노출 (예: feature 10 회 이상 본 user)

1.0.0.2 Short-term 의 정의

1~2 주 의 average effect (책 권장 일반 실험 기간)
“stable 하고 generalizes 한다” 는 가정 하에 long-term 의 proxy 로 사용

1.0.0.3 가정 의 부하

대부분 의 실험에서 short-term ≈ long-term 가정 이 작동. 하지만 이 가정 이 깨질 가능성 을 인지하고 언제 깨지는지 알아야 한다.

직관: 시간 의 두 척도

비유 — 식이 요법:

short-term (1 주): 체중 ↓ (수분 손실)
long-term (1 년): 체중 ↑ 또는 ↓ (실제 체질 변화 또는 yo-yo 효과)

short-term 의 편의적 metric 만 보고 launch 결정 하면 yo-yo 위험.

레슨: short-term 이 long-term 과 다를 수 있는 영역 을 식별 → 명시적 측정.

2 1. User-Learned Effects

Mechanism

사용자 가 새 feature 에 학습· adapt 하면서 행동 변화. 시간 따라 equilibrium 도달.

2.0.0.1 5 가지 sub-mechanism

Crash 누적: 첫 occurrence 에는 사용자 떠나지 않음, 반복 시 떠남
Quality 학습: low-quality ad 의 click rate 가 시간 따라 ↓
Discoverability: 새 feature 를 처음 못 발견 → 시간 지나 발견 → engagement ↑
Priming: 기존 feature 에 익숙 → 새 feature 학습 에 시간 필요
Novelty exploration: 처음 호기심 → 시간 지나 desensitized

2.0.0.2 인용

Hohnhold et al. (2015): ad-load 의 user-learned effect
Huang, Reiley, Raibov (2018): Pandora 의 ad sensitivity 학습
Chen, Liu, Xu (2019): A/B 의 invalid pattern 진단
Kohavi et al. (2009): Seven Pitfalls

사례 디테일

2.0.0.3 Crash example

Treatment 가 새 feature 도입 — 0.5% crash rate 추가
Day 1: 사용자 첫 crash → “이상한데”
Day 7: 두 번째 crash → 의구심
Day 30: 다섯 번째 crash → 사용자 떠남
short-term: 사용자 retention 변화 미미
long-term: 사용자 retention 큰 감소

2.0.0.4 Discoverability example

Treatment 가 new shortcut button 추가
Day 1: 사용자 의 5% 만 발견
Day 14: 사용자 의 25% 발견·사용
Day 60: 사용자 의 50% 발견·사용
short-term: small effect
long-term: large effect (with right metric)

2.0.0.5 Novelty effect

새 UI element (예: confetti animation)
Day 1: 호기심 으로 관심 ↑
Day 7: 신선 → 클릭 ↑
Day 30: 익숙 함, 거의 무시
short-term: positive effect (overestimate)
long-term: 0 또는 negative (overestimate 의 보정 필요)

직관: 5 sub-mechanism 의 방향

Crash, Quality 학습: short-term 이 낙관 (long-term 보다 높음) → 측정 효과 가 over
Discoverability: short-term 이 비관 (long-term 보다 낮음) → 측정 효과 가 under
Priming, Novelty: short-term 의 방향 이 long-term 과 정반대 가능

규칙: 새 feature 의 카테고리 식별 (crash 위험·discoverability 의존·novelty) → 어떤 방향 의 학습 효과 인지 예측.

3 2. Network Effects

Mechanism

feature 의 가치 가 친구 사용 비율 에 의존 — viral 전파 의 시간 lag.

3.0.0.1 양면 매개체

direct social: friend 가 사용 → 본인 도 사용 (Live Video)
양면 marketplace: Treatment 가 demand ↑ → supply 늦게 catch up (Airbnb)
recommendation: 처음 다양 한 추천 → 시간 지나 popularity bias → 효과 감소

3.0.0.2 인용

Ch.22 (leakage interference) 와 직접 연관
Hohnhold et al. (2015), Eckles et al. (2017)

사례 — Airbnb (two-sided marketplace)

3.0.0.3 시간 단계

Week 1: Treatment conversion 개선 → demand ↑ (예: +5% booking rate)
Week 2-4: 동일 inventory → Treatment 의 booking 이 inventory 잠식 → revenue ↑
Month 2: host 가 demand 변화 인지 → 가격 ↑ 또는 새 host 가입
Month 3+: equilibrium — supply 가 catch up, marginal revenue 감소

3.0.0.4 측정 의 함정

short-term (Week 1-2): conversion 개선 효과 가 과장 (inventory contention)
mid-term (Month 1-2): 효과 감소 (host 의 가격 반응)
long-term (Month 3+): 새 equilibrium (실제 효과 보다 작거나 다름)

short-term 만 보면 +5% — 하지만 long-term 은 +1% 또는 0%.

직관

network effect 가 있는 영역 은 equilibrium 도달 시점 까지 측정 의무. equilibrium 미도달 의 short-term 결과 는 과도기 — 영구 적 효과 와 다르다.

검증: ramp 의 1% → 50% → 100% 비교. effect size 가 비율 따라 증가 시 supply 측 catch up 미발생, 감소 시 supply 가 catch up 시작.

4 3. Delayed Experience and Measurement

Mechanism

사용자 의 online 경험 과 offline 결과 사이 시간 gap. 측정 metric 이 누적 cumulative.

4.0.0.1 사례

Airbnb·Booking.com: 예약 후 몇 달 뒤 도착 → user retention 의 변화 가 늦게 반영
연간 계약: 1 년 후 갱신 의사결정 시점 까지 effect 누적
학습 platform: feature 가 학기말 시험에 effect 반영
금융 product: 큰 거래 의 결과 가 분기 마감 시 의 보고

4.0.0.2 시간 척도

즉시 metric (page view, click): 분~시간
단기 metric (purchase, sign-up): 일~주
중기 metric (retention 30day): 월
장기 metric (renewal, lifetime value): 분기~년

직관: metric 의 시간 척도

각 metric 의 natural lag 가 다름:

click → CTR 측정: 즉시
sign-up → activation: 1 일
trial → purchase: 14 일
purchase → retention 30day: 30 일
purchase → renewal: 365 일

Treatment effect 의 진짜 측정 은 metric 의 lag 만큼 의 시간 필요. shorter measurement window 의 metric 은 intermediate proxy — 진짜 outcome 의 일부.

규칙: long-term metric 측정 위해 충분한 follow-up 필수. 부족 시 cohort method 결합.

5 4. Ecosystem Change

6 sub-mechanism

5.0.0.1 Other features launching

다른 팀 의 새 feature 가 launch — 본 feature 와 interaction:

새 push notification feature 가 launch → 기존 push feature 의 marginal effect 감소
새 onboarding flow 가 launch → 기존 onboarding 의 effect 다른 방향 으로 변화

5.0.0.2 Seasonality

gift card 가 Christmas 시즌 에만 잘 작동
back-to-school, holiday season 등 의 강한 시간성
short-term 측정 시점 의 계절 → 다른 계절 에 generalize 어려움

5.0.0.3 Competitive landscape

경쟁사 의 같은 feature launch → 본 feature 의 차별성 감소
launch 시점 따라 effect 매우 다름

5.0.0.4 Government policies

GDPR 의 ad targeting 영향 — 데이터 사용 가능 범위 변화
새 정책 의 effect 가 ramp 형태 로 누적
인용: European Commission 2016, Basin et al. 2018, Google 2019

5.0.0.5 Concept drift

ML model 의 학습 데이터 분포 가 변화
model 의 성능 점차 degrade
예: search query 분포, ad keyword 분포 의 변화

5.0.0.6 Software rot

maintain 안 되는 feature 가 환경 변화 따라 degrade
시스템 가정 의 invalidation
예: API version 변경, browser engine 업데이트

직관: ecosystem change 의 exogenous 성

이 6 sub-mechanism 의 공통점: Treatment 와 무관 — exogenous factor.

규칙: long-term 측정 시 Treatment effect 와 ecosystem change 의 분리 필요. post-period analysis 가 가장 효과 적 (Treatment 종료 후 두 group 의 같은 environment).

6 측정 목적 — 3 가지

1. Attribution

6.0.0.1 정의

새 feature 가 얼마 만큼 의 long-term value 를 만들었는가?

6.0.0.2 사용 사례

OKR / KPI tracking — 팀 의 기능 별 long-term 기여도
재무 forecast — feature 의 future revenue 추정
인센티브 — 팀 별 launch effect

6.0.0.3 도전

endogenous (user-learned) 와 exogenous (경쟁 변화) 의 분리
compounding — 새 feature 가 이전 feature 위 에 build → 누적 attribution 어려움

6.0.0.4 적합 method

Cohort + Post-Period 결합
Holdback experiment (launch 후 monitoring)

2. Institutional Learning

6.0.0.5 정의

short-term 과 long-term 의 차이 자체 를 학습 — 왜 다른가?

6.0.0.6 통찰 의 가치

큰 novelty effect → user discovery 가 너무 느림 → in-product education 으로 교정 가능
큰 abandon rate → low quality 또는 click-bait — 다음 iteration 의 설계 정보
큰 학습 효과 → onboarding 의 critical importance

6.0.0.7 적합 method

Post-Period analysis (학습 효과 의 분리 측정)
Time-Staggered (수렴 시점 의 명시적 판단)

3. Generalization

6.0.0.8 정의

특정 실험 의 long-term 측정을 다른 비슷한 실험 의 short-term 으로 부터 외삽 (extrapolate).

6.0.0.9 사용 사례 (Hohnhold et al. 2015)

광고 ad-load 실험 의 historical long-term 데이터 누적
새 ad-load 변화 의 short-term effect 만 으로 long-term 예측

6.0.0.10 도전

exogenous factor 와 의 분리 (기간 별 다른 economic 환경)
generalize 가능 한 general principle 인지 검증
big shock 제외 (만약 exogenous shock 이 있으면 generalize 부정확)

6.0.0.11 가치

generalize 가능 시 모든 새 실험 에 short-term → long-term mapping 즉시 적용. 이건 복제 가능 한 platform-level 자산.

6.0.0.12 적합 method

누적 long-running experiment 데이터 의 회귀
short-term metric 의 predictive 한 design (Goal·Driver metric, Ch.6)

직관: 목적 → method 의 의사결정

3 가지 목적 은 서로 다른 method 를 요구:

목적	1차 method	2차 method
Attribution	Cohort	Post-Period, Holdback
Institutional Learning	Post-Period	Time-Staggered
Generalization	누적 데이터 회귀	Time-Staggered

규칙: 어떤 long-term 측정 인가 결정 전 — 목적 명확화. “그냥 long-term 측정” 은 자원 낭비. 목적 별 적합 method 선택 → 효율 적 측정.

7 OEC 와 long-term 의 연결

OEC 의 정의 (Ch.7) 의 부담

OEC 는 short-term measurable + long-term causally impactful — 두 조건 만족.

short-term measurable: 1~2 주 안 측정 가능 long-term causally impactful: long-term 목표 (revenue, retention) 에 진짜로 영향

7.0.0.1 Long-term 측정 의 의무

OEC 의 causally impactful 부분 검증 위해 주기적 long-term 측정 필요. 이게 빠지면 OEC 가 짐작 — Goodhart 의 함정.

7.0.0.2 인용

Hauser and Katz (1998) — “Metrics: You Are What You Measure!”

직관

OEC 는 short-term proxy — long-term 의 진짜 outcome 을 예측 하기 위함. proxy 의 예측 력 검증 의무 가 long-term 측정 의 정당성.

규칙: OEC 의 generalization 측정 (1) 분기 마다 자동 update, (2) 변화 시 OEC 의 weight 재조정.

8 비교 — short-term vs long-term

차원	Short-term (1~2 weeks)	Long-term (3+ months)
측정 비용	낮음	높음
Sample size	큼	작음 (cohort) 또는 동일
Treatment 가정	static	dynamic
학습 효과	부분	완료
Network 효과	partial	equilibrium
Exogenous factor	적음	많음
Decision 적합성	빠른 iteration	큰 launch decision
적합 metric	OEC, click, conversion	retention, lifetime value

9 응용

검색 엔진: long-running + post-period (학습 효과 측정)
Ad platform: time-staggered + generalization (새 ad type 의 long-term 외삽)
Subscription: cohort (sign-up 시점) + holdback (renewal 측정)
Marketplace: post-period (equilibrium 도달) + ramp 단계 분석
Social network: cohort + edge-level analysis (Ch.22) 결합

10 실무 체크리스트

실험 의 short-term ≠ long-term 의심 영역 식별 (5+ checklist)
목적 명확화 (attribution / learning / generalization)
적합 method 선택 (cohort / post-period / time-staggered / holdback)
measurement window 충분 한지 (metric 의 natural lag)
exogenous factor 통제 가능 여부 (post-period 권장)
cohort 의 representativeness 검증
SRM (Ch.21) 점검 — long-running 시 cookie churn 의 SRM
결과 보고 시 uncertainty 명시 — long-term 은 본질 적 noise 큼

11 관련 주제

F23-0 overview — Ch.23 전체 지도
F23-2 — Long-Running Experiments 의 4 가지 한계
F23-3 — 4 method 의 디테일
Ch.7 (F-KOH7) — OEC 의 short-term + long-term proxy 의무
Ch.6 (F-KOH6) — Goal/Driver/Guardrail metric 의 long-term 측정 설계
Ch.22 (F-KOH22) — Network leakage 와 long-term 의 결합
Ch.21 (F-KOH21) — long-running 의 SRM 점검

출처

Kohavi, Tang, Xu (2020). Trustworthy Online Controlled Experiments. Ch.23.1~23.3.
Hohnhold, O’Brien, Tang (2015). “Focus on the Long-Term.” KDD 2015.
Huang, Reiley, Raibov (2018). Pandora ad sensitivity.
Chen, Liu, Xu (2019). “How A/B Tests Could Go Wrong.” WSDM 2019.
Kohavi et al. (2009, 2012). Seven Pitfalls + search query share.
European Commission (2016, 2018). GDPR.
Basin, Debois, Hildebrandt (2018). GDPR compliance.
Hauser and Katz (1998). “Metrics: You Are What You Measure!”
Goodhart (1975), Goodhart’s law (2018).