1 정의
Treatment 의 asymptotic (점근) 효과 — 시간이 매우 길어졌을 때 의 결과 (Kohavi, Tang, Xu, 2020, Ch.23).
1.0.0.1 실무 판정 기준
- 이론: \(t \to \infty\)
- 실무: 3+ 개월 또는 일정 횟수 의 노출 (예: feature 10 회 이상 본 user)
1.0.0.2 Short-term 의 정의
- 1~2 주 의 average effect (책 권장 일반 실험 기간)
- “stable 하고 generalizes 한다” 는 가정 하에 long-term 의 proxy 로 사용
1.0.0.3 가정 의 부하
대부분 의 실험에서 short-term ≈ long-term 가정 이 작동. 하지만 이 가정 이 깨질 가능성 을 인지하고 언제 깨지는지 알아야 한다.
비유 — 식이 요법:
- short-term (1 주): 체중 ↓ (수분 손실)
- long-term (1 년): 체중 ↑ 또는 ↓ (실제 체질 변화 또는 yo-yo 효과)
short-term 의 편의적 metric 만 보고 launch 결정 하면 yo-yo 위험.
레슨: short-term 이 long-term 과 다를 수 있는 영역 을 식별 → 명시적 측정.
2 1. User-Learned Effects
사용자 가 새 feature 에 학습· adapt 하면서 행동 변화. 시간 따라 equilibrium 도달.
2.0.0.1 5 가지 sub-mechanism
- Crash 누적: 첫 occurrence 에는 사용자 떠나지 않음, 반복 시 떠남
- Quality 학습: low-quality ad 의 click rate 가 시간 따라 ↓
- Discoverability: 새 feature 를 처음 못 발견 → 시간 지나 발견 → engagement ↑
- Priming: 기존 feature 에 익숙 → 새 feature 학습 에 시간 필요
- Novelty exploration: 처음 호기심 → 시간 지나 desensitized
2.0.0.2 인용
- Hohnhold et al. (2015): ad-load 의 user-learned effect
- Huang, Reiley, Raibov (2018): Pandora 의 ad sensitivity 학습
- Chen, Liu, Xu (2019): A/B 의 invalid pattern 진단
- Kohavi et al. (2009): Seven Pitfalls
2.0.0.3 Crash example
- Treatment 가 새 feature 도입 — 0.5% crash rate 추가
- Day 1: 사용자 첫 crash → “이상한데”
- Day 7: 두 번째 crash → 의구심
- Day 30: 다섯 번째 crash → 사용자 떠남
- short-term: 사용자 retention 변화 미미
- long-term: 사용자 retention 큰 감소
2.0.0.4 Discoverability example
- Treatment 가 new shortcut button 추가
- Day 1: 사용자 의 5% 만 발견
- Day 14: 사용자 의 25% 발견·사용
- Day 60: 사용자 의 50% 발견·사용
- short-term: small effect
- long-term: large effect (with right metric)
2.0.0.5 Novelty effect
- 새 UI element (예: confetti animation)
- Day 1: 호기심 으로 관심 ↑
- Day 7: 신선 → 클릭 ↑
- Day 30: 익숙 함, 거의 무시
- short-term: positive effect (overestimate)
- long-term: 0 또는 negative (overestimate 의 보정 필요)
- Crash, Quality 학습: short-term 이 낙관 (long-term 보다 높음) → 측정 효과 가 over
- Discoverability: short-term 이 비관 (long-term 보다 낮음) → 측정 효과 가 under
- Priming, Novelty: short-term 의 방향 이 long-term 과 정반대 가능
규칙: 새 feature 의 카테고리 식별 (crash 위험·discoverability 의존·novelty) → 어떤 방향 의 학습 효과 인지 예측.
3 2. Network Effects
feature 의 가치 가 친구 사용 비율 에 의존 — viral 전파 의 시간 lag.
3.0.0.1 양면 매개체
- direct social: friend 가 사용 → 본인 도 사용 (Live Video)
- 양면 marketplace: Treatment 가 demand ↑ → supply 늦게 catch up (Airbnb)
- recommendation: 처음 다양 한 추천 → 시간 지나 popularity bias → 효과 감소
3.0.0.2 인용
- Ch.22 (leakage interference) 와 직접 연관
- Hohnhold et al. (2015), Eckles et al. (2017)
3.0.0.3 시간 단계
- Week 1: Treatment conversion 개선 → demand ↑ (예: +5% booking rate)
- Week 2-4: 동일 inventory → Treatment 의 booking 이 inventory 잠식 → revenue ↑
- Month 2: host 가 demand 변화 인지 → 가격 ↑ 또는 새 host 가입
- Month 3+: equilibrium — supply 가 catch up, marginal revenue 감소
3.0.0.4 측정 의 함정
- short-term (Week 1-2): conversion 개선 효과 가 과장 (inventory contention)
- mid-term (Month 1-2): 효과 감소 (host 의 가격 반응)
- long-term (Month 3+): 새 equilibrium (실제 효과 보다 작거나 다름)
short-term 만 보면 +5% — 하지만 long-term 은 +1% 또는 0%.
network effect 가 있는 영역 은 equilibrium 도달 시점 까지 측정 의무. equilibrium 미도달 의 short-term 결과 는 과도기 — 영구 적 효과 와 다르다.
검증: ramp 의 1% → 50% → 100% 비교. effect size 가 비율 따라 증가 시 supply 측 catch up 미발생, 감소 시 supply 가 catch up 시작.
4 3. Delayed Experience and Measurement
사용자 의 online 경험 과 offline 결과 사이 시간 gap. 측정 metric 이 누적 cumulative.
4.0.0.1 사례
- Airbnb·Booking.com: 예약 후 몇 달 뒤 도착 → user retention 의 변화 가 늦게 반영
- 연간 계약: 1 년 후 갱신 의사결정 시점 까지 effect 누적
- 학습 platform: feature 가 학기말 시험에 effect 반영
- 금융 product: 큰 거래 의 결과 가 분기 마감 시 의 보고
4.0.0.2 시간 척도
- 즉시 metric (page view, click): 분~시간
- 단기 metric (purchase, sign-up): 일~주
- 중기 metric (retention 30day): 월
- 장기 metric (renewal, lifetime value): 분기~년
각 metric 의 natural lag 가 다름:
click → CTR 측정: 즉시
sign-up → activation: 1 일
trial → purchase: 14 일
purchase → retention 30day: 30 일
purchase → renewal: 365 일
Treatment effect 의 진짜 측정 은 metric 의 lag 만큼 의 시간 필요. shorter measurement window 의 metric 은 intermediate proxy — 진짜 outcome 의 일부.
규칙: long-term metric 측정 위해 충분한 follow-up 필수. 부족 시 cohort method 결합.
5 4. Ecosystem Change
5.0.0.1 Other features launching
다른 팀 의 새 feature 가 launch — 본 feature 와 interaction:
- 새 push notification feature 가 launch → 기존 push feature 의 marginal effect 감소
- 새 onboarding flow 가 launch → 기존 onboarding 의 effect 다른 방향 으로 변화
5.0.0.2 Seasonality
- gift card 가 Christmas 시즌 에만 잘 작동
- back-to-school, holiday season 등 의 강한 시간성
- short-term 측정 시점 의 계절 → 다른 계절 에 generalize 어려움
5.0.0.3 Competitive landscape
- 경쟁사 의 같은 feature launch → 본 feature 의 차별성 감소
- launch 시점 따라 effect 매우 다름
5.0.0.4 Government policies
- GDPR 의 ad targeting 영향 — 데이터 사용 가능 범위 변화
- 새 정책 의 effect 가 ramp 형태 로 누적
- 인용: European Commission 2016, Basin et al. 2018, Google 2019
5.0.0.5 Concept drift
- ML model 의 학습 데이터 분포 가 변화
- model 의 성능 점차 degrade
- 예: search query 분포, ad keyword 분포 의 변화
5.0.0.6 Software rot
- maintain 안 되는 feature 가 환경 변화 따라 degrade
- 시스템 가정 의 invalidation
- 예: API version 변경, browser engine 업데이트
이 6 sub-mechanism 의 공통점: Treatment 와 무관 — exogenous factor.
규칙: long-term 측정 시 Treatment effect 와 ecosystem change 의 분리 필요. post-period analysis 가 가장 효과 적 (Treatment 종료 후 두 group 의 같은 environment).
6 측정 목적 — 3 가지
6.0.0.1 정의
새 feature 가 얼마 만큼 의 long-term value 를 만들었는가?
6.0.0.2 사용 사례
- OKR / KPI tracking — 팀 의 기능 별 long-term 기여도
- 재무 forecast — feature 의 future revenue 추정
- 인센티브 — 팀 별 launch effect
6.0.0.3 도전
- endogenous (user-learned) 와 exogenous (경쟁 변화) 의 분리
- compounding — 새 feature 가 이전 feature 위 에 build → 누적 attribution 어려움
6.0.0.4 적합 method
- Cohort + Post-Period 결합
- Holdback experiment (launch 후 monitoring)
6.0.0.5 정의
short-term 과 long-term 의 차이 자체 를 학습 — 왜 다른가?
6.0.0.6 통찰 의 가치
- 큰 novelty effect → user discovery 가 너무 느림 → in-product education 으로 교정 가능
- 큰 abandon rate → low quality 또는 click-bait — 다음 iteration 의 설계 정보
- 큰 학습 효과 → onboarding 의 critical importance
6.0.0.7 적합 method
- Post-Period analysis (학습 효과 의 분리 측정)
- Time-Staggered (수렴 시점 의 명시적 판단)
6.0.0.8 정의
특정 실험 의 long-term 측정을 다른 비슷한 실험 의 short-term 으로 부터 외삽 (extrapolate).
6.0.0.9 사용 사례 (Hohnhold et al. 2015)
- 광고 ad-load 실험 의 historical long-term 데이터 누적
- 새 ad-load 변화 의 short-term effect 만 으로 long-term 예측
6.0.0.10 도전
- exogenous factor 와 의 분리 (기간 별 다른 economic 환경)
- generalize 가능 한 general principle 인지 검증
- big shock 제외 (만약 exogenous shock 이 있으면 generalize 부정확)
6.0.0.11 가치
generalize 가능 시 모든 새 실험 에 short-term → long-term mapping 즉시 적용. 이건 복제 가능 한 platform-level 자산.
6.0.0.12 적합 method
- 누적 long-running experiment 데이터 의 회귀
- short-term metric 의 predictive 한 design (Goal·Driver metric, Ch.6)
3 가지 목적 은 서로 다른 method 를 요구:
| 목적 | 1차 method | 2차 method |
|---|---|---|
| Attribution | Cohort | Post-Period, Holdback |
| Institutional Learning | Post-Period | Time-Staggered |
| Generalization | 누적 데이터 회귀 | Time-Staggered |
규칙: 어떤 long-term 측정 인가 결정 전 — 목적 명확화. “그냥 long-term 측정” 은 자원 낭비. 목적 별 적합 method 선택 → 효율 적 측정.
7 OEC 와 long-term 의 연결
OEC 는 short-term measurable + long-term causally impactful — 두 조건 만족.
short-term measurable: 1~2 주 안 측정 가능 long-term causally impactful: long-term 목표 (revenue, retention) 에 진짜로 영향
7.0.0.1 Long-term 측정 의 의무
OEC 의 causally impactful 부분 검증 위해 주기적 long-term 측정 필요. 이게 빠지면 OEC 가 짐작 — Goodhart 의 함정.
7.0.0.2 인용
Hauser and Katz (1998) — “Metrics: You Are What You Measure!”
OEC 는 short-term proxy — long-term 의 진짜 outcome 을 예측 하기 위함. proxy 의 예측 력 검증 의무 가 long-term 측정 의 정당성.
규칙: OEC 의 generalization 측정 (1) 분기 마다 자동 update, (2) 변화 시 OEC 의 weight 재조정.
8 비교 — short-term vs long-term
| 차원 | Short-term (1~2 weeks) | Long-term (3+ months) |
|---|---|---|
| 측정 비용 | 낮음 | 높음 |
| Sample size | 큼 | 작음 (cohort) 또는 동일 |
| Treatment 가정 | static | dynamic |
| 학습 효과 | 부분 | 완료 |
| Network 효과 | partial | equilibrium |
| Exogenous factor | 적음 | 많음 |
| Decision 적합성 | 빠른 iteration | 큰 launch decision |
| 적합 metric | OEC, click, conversion | retention, lifetime value |
9 응용
- 검색 엔진: long-running + post-period (학습 효과 측정)
- Ad platform: time-staggered + generalization (새 ad type 의 long-term 외삽)
- Subscription: cohort (sign-up 시점) + holdback (renewal 측정)
- Marketplace: post-period (equilibrium 도달) + ramp 단계 분석
- Social network: cohort + edge-level analysis (Ch.22) 결합
10 실무 체크리스트
- 실험 의 short-term ≠ long-term 의심 영역 식별 (5+ checklist)
- 목적 명확화 (attribution / learning / generalization)
- 적합 method 선택 (cohort / post-period / time-staggered / holdback)
- measurement window 충분 한지 (metric 의 natural lag)
- exogenous factor 통제 가능 여부 (post-period 권장)
- cohort 의 representativeness 검증
- SRM (Ch.21) 점검 — long-running 시 cookie churn 의 SRM
- 결과 보고 시 uncertainty 명시 — long-term 은 본질 적 noise 큼
11 관련 주제
- F23-0 overview — Ch.23 전체 지도
- F23-2 — Long-Running Experiments 의 4 가지 한계
- F23-3 — 4 method 의 디테일
- Ch.7 (F-KOH7) — OEC 의 short-term + long-term proxy 의무
- Ch.6 (F-KOH6) — Goal/Driver/Guardrail metric 의 long-term 측정 설계
- Ch.22 (F-KOH22) — Network leakage 와 long-term 의 결합
- Ch.21 (F-KOH21) — long-running 의 SRM 점검
- Kohavi, Tang, Xu (2020). Trustworthy Online Controlled Experiments. Ch.23.1~23.3.
- Hohnhold, O’Brien, Tang (2015). “Focus on the Long-Term.” KDD 2015.
- Huang, Reiley, Raibov (2018). Pandora ad sensitivity.
- Chen, Liu, Xu (2019). “How A/B Tests Could Go Wrong.” WSDM 2019.
- Kohavi et al. (2009, 2012). Seven Pitfalls + search query share.
- European Commission (2016, 2018). GDPR.
- Basin, Debois, Hildebrandt (2018). GDPR compliance.
- Hauser and Katz (1998). “Metrics: You Are What You Measure!”
- Goodhart (1975), Goodhart’s law (2018).