1 정의
Treatment 의 asymptotic (점근) 효과 — 시간이 매우 길어졌을 때 의 결과 (Kohavi, Tang, Xu, 2020, Ch.23).
1.0.0.1 실무 정의
- 이론 적: \(t \to \infty\) 의 effect
- 실무 적: 3+ months 또는 exposure 횟수 (예: feature 10 회 이상 노출 한 user 의 effect)
1.0.0.2 Short-term 과 의 비교
- Short-term: 1~2 주 의 average effect — 책 권장 일반 실험 기간
- Long-term: 3 개월 + 또는 사용자 의 adapted 행동 의 effect
1.0.0.3 인용 (Roy Amara)
“We tend to overestimate the effect of a technology in the short run and underestimate the effect in the long run.”
short-term effect 가 long-term effect 와 같다 는 가정 은 대부분 의 실험 에서 맞다. 하지만 예외 가 위험:
- 가격 인상: 단기 revenue ↑, 장기 user abandon 으로 ↓
- 광고 ↑: 단기 click ↑, 장기 사용자 회피 로 search 감소
- 검색 품질 저하: 단기 query 증가 (재검색), 장기 사용자 이탈
레슨: short-term ≠ long-term 이 언제 발생 하는지 알아야 한다. 알 수 없는 경우 명시적 long-term 측정 필요.
2 왜 long-term 이 다른가 — 6 갈래
2.0.0.1 Mechanism
- 사용자 가 새 feature 에 학습·적응 하면서 행동 변화
- 시간 따라 equilibrium 도달
2.0.0.2 예시
- product crash: 첫 occurrence 에는 사용자 떠나지 않음, 반복 시 떠남
- low-quality ad: 사용자 가 학습 → click rate 감소
- 새 feature 의 discoverability: 처음 못 발견 → 시간 지나 발견 → engagement 증가
- novelty effect: 처음 관심 → 시간 지나 desensitized
2.0.0.3 인용
Hohnhold et al. (2015), Huang, Reiley, Raibov (2018), Kohavi et al. (2009)
2.0.0.4 Mechanism
- feature 의 가치 가 친구 사용 비율 에 의존
- viral 전파 의 시간 lag
2.0.0.5 예시
- Live Video (Facebook Messenger, Skype): 친구 가 사용해야 본인 도 사용
- Two-sided marketplace (Airbnb): 새 feature 가 demand ↑ → supply 늦게 catch up
2.0.0.6 Long-term 측정 의 도전
network effect 는 supply 제약 마저 결합:
Treatment effect 가 short-term 에 demand 폭증
중간기 supply 부족 → revenue 정체
장기 supply 도 catch up → revenue 회복 (또는 새 equilibrium)
short-term 의 demand spike 가 과장 된 effect, 장기 의 equilibrium 이 진짜.
2.0.0.7 Mechanism
- 사용자 의 online 경험 과 offline 결과 사이 시간 gap
- 측정 metric 이 누적 cumulative
2.0.0.8 예시
- Airbnb·Booking.com: 예약 후 몇 달 뒤 도착 → user retention 의 변화 가 늦게 반영
- 연간 계약: 1 년 후 갱신 의사결정 시점 까지 effect 누적
- 학생 학습: feature 가 학기말 시험에 effect 반영
2.0.0.9 Long-term 의 의무
이런 영역 은 short-term metric 만 으로 결정 시 큰 위험 — 장기 retention 의 측정 필수.
여러 sub-mechanism:
2.0.0.10 Other features launching
- 다른 팀 의 새 feature 가 launch → 본 feature 의 가치 변화
- 예: Live Video 가 더 많은 product 에 embed → 본 feature 의 marginal value 증가
2.0.0.11 Seasonality
- gift card 가 Christmas 에 잘 작동, 다른 계절 에 약함
- back-to-school, holiday season 등 의 강한 시간성
2.0.0.12 Competitive landscape
- 경쟁사 가 같은 feature launch → 본 feature 의 차별성 감소
- launch 시점 따라 effect 매우 다름
2.0.0.13 Government policies
- GDPR 의 ad targeting 영향 — 데이터 사용 가능 범위 변화
- 새 정책 의 effect 가 ramp 형태 로 누적
2.0.0.14 Concept drift
- ML model 의 학습 데이터 분포 가 변화
- model 의 성능 점차 degrade
2.0.0.15 Software rot
- maintain 안 되는 feature 가 환경 변화 따라 degrade
- 시스템 가정 의 invalidation
| Mechanism | typical 척도 | 측정 가능성 |
|---|---|---|
| User-learned | 주~월 | high (post-period) |
| Network | 월~분기 | medium (cohort) |
| Delayed measurement | 분기~년 | low (cohort + waiting) |
| Ecosystem change | 분기~년 | low (exogenous) |
| Concept drift | 분기 | medium (model 비교) |
| Software rot | 년 | low (software audit) |
규칙: 짧은 척도 (user-learned, network) 는 측정 가능, 긴 척도 (delayed, ecosystem) 는 exogenous factor 와 분리 어려움.
3 측정 목적 — 3 가지
3.0.0.1 정의
새 feature 가 얼마 만큼 의 long-term value 를 만들었는가? 팀 목표 추적 + 재무 forecast 에 사용.
3.0.0.2 도전
- endogenous (user-learned) 와 exogenous (경쟁 변화) 의 분리
- compounding — 새 feature 가 이전 feature 위 에 build → 누적 attribution 어려움
3.0.0.3 사용 사례
OKRs 또는 KPI tracking 시 기능 별 정확한 long-term 기여도 필요.
3.0.0.4 정의
short-term 과 long-term 의 차이 자체 를 학습 — 왜 다른가?
3.0.0.5 통찰
- 큰 novelty effect → user discovery 가 너무 느림 → in-product education 으로 교정 가능
- 큰 abandon rate → low quality 또는 click-bait — 다음 iteration 의 설계 정보
3.0.0.6 사용 사례
product team 의 design pattern·UX 개선 의 fine-grained insight.
3.0.0.7 정의
특정 실험 의 long-term 측정을 다른 비슷한 실험 의 short-term 으로 부터 외삽 (extrapolate).
3.0.0.8 사용 사례 (Hohnhold et al. 2015)
- 광고 ad-load 실험 의 historical long-term 데이터
- 새 ad-load 변화 의 short-term effect 만 으로 long-term 예측
3.0.0.9 도전
- exogenous factor 와 의 분리 (기간 별 다른 economic 환경)
- generalize 가능 한 general principle 인지 검증
3.0.0.10 가치
generalize 가능 시 모든 새 실험 에 short-term → long-term mapping 즉시 적용.
이 3 가지 는 서로 다른 method 를 요구:
- Attribution: cohort analysis + holdback experiment
- Institutional learning: post-period analysis (학습 효과 의 명시적 측정)
- Generalization: time-staggered + 누적 실험 데이터 의 회귀
선택 의 원칙: 왜 long-term 측정 하는가 를 먼저 정의 → 적합 method 선택.
4 4 가지 측정 Method — 한눈에
4.0.0.1 절차
- 실험 시작 전 stable cohort 정의 (logged-in user ID 또는 stable identifier)
- 이 cohort 의 short-term, long-term effect 만 분석
4.0.0.2 강점
- dilution 보정 (multi-device 의 일부 만 capture)
- survivorship bias 일부 보정 (cohort 가 안정 적일 때)
4.0.0.3 한계
- cohort 가 representative 아닌 경우 external validity 위협
- cookie-based ID 처럼 churn 큰 경우 작동 안 함
4.0.0.4 절차
- 실험 종료 후 모두 Treatment 또는 모두 Control 로 통일 (= A/A 상태)
- 기존 Treatment·Control group 의 post-period 의 metric 차이 측정
4.0.0.5 측정 의미
- learning effect (Hohnhold et al. 2015) — 사용자·시스템 이 학습 한 결과
- user-learned vs system-learned 분리 가능
4.0.0.6 강점
- exogenous factor 의 분리 (post-period 는 모두 같은 environment)
- 새 feature 와 의 interaction 차단
4.0.0.7 한계
- dilution·survivorship bias 잔존
- system-learned effect 가 0 인 경우 만 정확 (개인화·opt-out 등 은 system-learned 발생)
4.0.0.8 절차
- 같은 Treatment 의 두 버전: \(T_0\) (시점 \(t=0\) 시작), \(T_1\) (시점 \(t=1\) 시작)
- 시점 \(t > 1\) 에서 두 버전 의 효과 차이 측정 — A/A 인 셈
4.0.0.9 의미
- \(T_1(t) - T_0(t) \to 0\) 가 수렴 의 신호
- 수렴 시점 = long-term effect 측정 가능 시점
- 후 post-period method 적용
4.0.0.10 강점
- 명시적 수렴 판단 — “충분 한 시간” 의 객관적 기준
- 큰 변동 (요일·계절성) 보정 가능
4.0.0.11 한계
- 두 staggered 사이 의 충분 한 시간 gap 필요 (학습 시간 보다 길게)
- \(T_1(t) - T_0(t)\) 의 작은 차이 검출 위해 power 필요 (Type II error rate 낮춤)
4.0.0.12 Holdback
- launch 후 10% user 를 Control 에 유지
- 90% Treatment, 10% Control 의 분석 을 몇 주~몇 달 지속
4.0.0.13 Reverse experiment
- 100% launch 후 10% 를 Control 로 되돌림
- 모든 user 가 한 번은 Treatment 경험 후 의 변화 측정
4.0.0.14 강점
- launch 후 의 long-term effect 직접 측정 (real launch state)
- network·equilibrium effect 도달 후 측정 가능
4.0.0.15 한계
- Control group 의 opportunity cost (launch 받지 못함)
- 작은 Control → power 부족
- reverse experiment: 사용자 confusion 위험 (UI 변화 의 reversal)
| 도전 | 1차 추천 method |
|---|---|
| dilution + survivorship | Cohort + Post-Period |
| user learning 분리 | Post-Period |
| 수렴 시점 판단 | Time-Staggered |
| launch 후 monitoring | Holdback |
| 시간 gap 측정 정밀화 | Time-Staggered + Post-Period |
규칙: 한 method 가 모든 도전을 해결 하지 않음. 결합 이 일반적 — Cohort + Post-Period 또는 Time-Staggered + Post-Period.
5 비교
| 차원 | Long-Running 단순 | Cohort | Post-Period | Time-Staggered | Holdback |
|---|---|---|---|---|---|
| 구현 비용 | 낮음 | 중간 | 중간 | 높음 | 중간 |
| Dilution 보정 | 약 | 강 | 약 (잔존) | 중 | 중 |
| Survivorship 보정 | 없음 | 강 (안정 cohort) | 약 | 중 | 약 |
| 학습 효과 측정 | 함께 측정 | 함께 측정 | 분리 측정 | 분리 | 함께 |
| 수렴 판단 | trend 관찰 | 동일 | 모름 | 명시적 | 모름 |
| Launch 후 monitoring | no | yes | yes | no | yes |
| Power | medium | medium | medium | medium | low (10% C) |
6 응용
- Search ranking: long-running + post-period (학습 효과 측정)
- Ad load: time-staggered (수렴 판단) + holdback (launch 후 monitoring)
- Marketplace: cohort (logged-in user) + reverse experiment (equilibrium 도달)
- Personalization: post-period (system-learned 분리 어려움 — 한계 명시)
- Subscription: cohort (sign-up 시점 분리) + holdback (renewal 측정)
7 Phase F 의 후속 글
- F23-1: What Are + Why Differ + Why Measure — 단기/장기 차이의 6 갈래 와 측정 목적
- F23-2: Long-Running Experiments — 단순 long-running 의 4 가지 한계
- F23-3: Methods 1~4 — Cohort, Post-Period, Time-Staggered, Holdback 의 디테일
8 관련 주제
- Ch.3 (Twyman’s Law) — short-term·long-term 차이 의 원인 일부
- Ch.6 (F-KOH6) — Goal/Driver/Guardrail metric — long-term 측정 의 metric 설계
- Ch.7 (F-KOH7) — OEC 가 short-term 측정 가능 + long-term 영향 가능 으로 정의 됨
- Ch.15 (F-KOH15) — Ramp Long-Term Holdout 단계
- Ch.22 (F-KOH22) — Network leakage 와 long-term 의 결합
- D-21 (Hernan 22) — Target Trial Emulation 의 follow-up time
- Kohavi, Tang, Xu (2020). Trustworthy Online Controlled Experiments. Ch.23.
- Hohnhold, O’Brien, Tang (2015). “Focus on the Long-Term.” KDD 2015.
- Dmitriev, Frasca, Gupta, Kohavi, Vaz (2016). “Pitfalls of Long-Term Online Controlled Experiments.” IEEE Big Data 2016.
- Huang, Reiley, Raibov (2018). “Pandora Listener Demand Curve.”
- Chen, Liu, Xu (2019). “How A/B Tests Could Go Wrong.” WSDM 2019.
- Gupta et al. (2019). “Top Challenges from the OCE Summit.” SIGKDD Explorations.
- Xu, Duan, Huang (2018). “Holdback Experiment.”
- Varian (2007). Control group opportunity cost.