Kwangmin Kim - 극단적 결과 주의 — 외삽의 함정과 Null Result 의 함정

1 정의

정의: Extreme Result 의 두 유형

Extreme result 는 보통의 실증 결과 분포에서 크게 벗어난 결과. 두 유형으로 분류된다.

Extreme Positive / Negative — “100ms = -20%” 같은 매우 큰 효과. 보통 다른 변수와 혼합 되거나 측정 결함의 신호.
Extreme Null — “200ms 지연이 영향 없음” 같은 효과 없음 주장. 보통 statistical power 부족의 신호.

두 유형 모두 단일 결과로 결론짓는 것이 위험. 의사결정에 사용하려면 replication 또는 대안 실험이 필요하다 (Kohavi, Tang, Xu, 2020, Ch.5.5).

저자들의 권고: “Ask yourself what trust level to apply, and remember that even if the idea worked for a specific site, it may not work as well for another.”

2 개념 및 원리

2.1 Extreme Positive — Marissa Mayer 의 30 Results 사례

2.1.1 보고된 사실

2008 년 Web 2.0 talk 에서 Marissa Mayer (당시 Google) 가 보고한 실험:

변경: SERP (Search Engine Result Page) 의 결과 수를 10 → 30 으로 증가
결과: traffic 과 매출 -20%
Mayer 의 설명: “페이지 생성에 0.5 초 더 걸렸다”

이 결과는 “0.5 초가 -20% 매출” 이라는 충격적 주장으로 인용되며 전 세계 performance 커뮤니티에 영향을 미쳤다.

2.1.2 저자들의 의심

Kohavi 등이 제기한 합리적 의심 (Kohavi, Tang, Xu, 2020, Ch.5.5).

“Performance is a critical factor, but multiple factors were changed, and we suspect that the performance only accounts for a small percentage of the loss.”

핵심 논점: 변경된 요소가 latency 만이 아니다. 결과 수를 10 → 30 으로 늘리면 동시에 다음이 변한다.

변경된 측면	잠재적 영향
페이지 생성 시간	+0.5 초
페이지 길이 (스크롤)	3 배
광고 위치 (above-the-fold 비율 ↓)	광고 클릭율 ↓
첫 결과 click 까지 시간	변화 (정보 과다)
사용자 cognitive load	↑ (선택지 ↑)
결과 품질 dilution	11~30 등 결과는 1~10 등보다 관련성 ↓

이 모든 변수가 동시에 변했는데 -20% 를 latency 0.5 초에만 귀속시키는 것은 통계적·인과적 근거가 없다.

가정 — Single-Cause Attribution 의 함정

이 사례의 가장 큰 결함은 인과 식별 가정의 위반.

A/B 테스트의 인과 식별 핵심: Treatment 와 Control 이 단 하나의 변수만 다르다. 30 results 실험은 다음 변수가 모두 동시 변경된 confounded design.

$T_1$: 결과 수 (10 → 30)
$T_2$: 페이지 길이 (×3)
$T_3$: 광고 위치 (이동)
$T_4$: 페이지 생성 시간 (+0.5 초)

측정된 효과 $\Delta = -20\%$ 는 $T_1, T_2, T_3, T_4$ 의 결합 효과. $T_4$ 단독 효과는 분리 불가능. 이 결과로 “0.5 초 = -20%” 라 주장하는 것은 confounded experiment 를 single-cause 로 잘못 해석한 것.

올바른 후속 실험: 결과 수 10 + 0.5 초 인공 지연. 이렇게 하면 $T_2, T_3$ 통제, $T_1, T_4$ 중 $T_4$ 만 분리 가능. 그러나 이 실험은 보고되지 않았다 (보고됐다면 결과가 매우 작았을 것이라 저자들은 추정).

이 case study 의 교훈: 결과를 인용하기 전에 design 을 점검. confounded design 의 결과는 single-cause attribution 에 사용 불가. 이는 RCT 의 가장 기본적 가정이다.

2.1.3 Bing 의 자체 데이터와 비교

Bing 의 실측 (Kohavi et al. 2013): 100ms = -0.6% revenue. 외삽하면 500ms = -3% 정도. 즉 0.5 초 만으로 -20% 는 Bing 측정치보다 6 배 이상 큰 효과. 다른 회사의 실험과 비교했을 때 이상치라는 신호.

다른 회사 결과 (Kohavi 등이 인용).

Amazon (Linden 2006): 100ms = -1% sales
Bing 2013: 100ms = -0.6% revenue
Bing 2017: 100ms = -0.5% revenue (성숙해진 사이트)
Schurman & Brutlag 2009: latency 영향 명확하지만 -20% 는 아님

이 결과들의 분포: -0.5% ~ -1% per 100ms. 외삽 시 0.5 초 = -2.5% ~ -5%. -20% 는 분포에서 크게 벗어남 → confounded effect 로 추정 강력 지지.

2.2 Extreme Null — Etsy 200ms 사례

2.2.1 보고된 사실

2012 년 Dan McKinley (당시 Etsy) 가 보고:

변경: 200ms 지연 추가
결과: “전혀 영향 없음 (no impact at all)”
함의: Etsy 사용자에게 latency 는 중요하지 않음

이 결과는 “performance optimization 은 모든 사이트에 동등하게 중요하지 않다” 는 주장의 근거로 인용됐다.

2.2.2 저자들의 의심

Kohavi 등의 분석 (Kohavi, Tang, Xu, 2020, Ch.5.5).

“It is possible that for Etsy users, performance is not critical, but we believe a more likely hypothesis is that the experiment did not have sufficient statistical power to detect the differences.”

핵심 논점: “영향 없음” 은 두 가지 해석 가능.

진짜 영향 없음 — Etsy 사용자가 latency 에 무감각 (가능)
Power 부족 — 효과는 있지만 표본이 작아 detect 못함 (더 가능성 높음)

직관 — “p > 0.05 → 영향 없음” 의 통계적 함정

이는 통계학에서 가장 자주 반복되는 오류 중 하나. 정확한 추론.

상황	정당한 결론	부당한 결론
p > 0.05, 좁은 CI [-0.5%, +0.3%]	효과는 매우 작음	(없음)
p > 0.05, 넓은 CI [-3%, +5%]	효과를 알 수 없음	“효과 없음”
p < 0.05, narrow CI [-0.8%, -0.2%]	작지만 유의한 효과	“큰 효과”

차이의 핵심: 신뢰구간의 폭. CI 가 좁으면 (예: ±0.3%) 효과가 작다는 강한 evidence. CI 가 넓으면 (예: ±5%) 진짜 효과가 0 일 수도, ±5% 내 어떤 값일 수도 있어 “알 수 없음”.

Etsy 사례에서 CI 가 보고되지 않았다면 두 시나리오 구분 불가. 그러나 200ms 지연으로 -1% 효과 (Amazon 사례 외삽 = 200ms × 0.01/100 = 2%, 즉 -2%) 가 진짜 효과라면 이를 detect 하려면 표본이 얼마나 필요한가?

표본 크기 계산: 매출 sigma = 0.5, 효과 0.5% (절반만 잡아도 충분), $\alpha = 0.05$, power = 0.8.

\[n \geq \frac{2(\sigma/\delta)^2 (z_{\alpha/2} + z_\beta)^2 \approx 2 \times 100^2 \times 7.85 \approx 157000}{\text{arm}}\]

각 arm 약 15 만 사용자 필요. Etsy 의 표본이 이보다 작았다면 -1~2% 효과를 detect 못 했을 가능성.

이 case study 의 교훈: null result 보고 시 항상 CI 와 power 명시. 그래야 evidence of absence vs absence of evidence 를 구분 가능. 이 구분 없는 null result 는 의사결정에 사용 불가.

2.2.3 잘못된 결론의 조직적 비용

저자들의 경고: “Telling an organization that performance doesn’t matter will make the site slower very quickly, to the point where users abandon it in droves.”

만약 Etsy 의 결론이 잘못된 것이었다면 (즉 진짜 영향이 있는데 detect 못한 것이었다면), 이 결론을 받아들인 조직은.

Performance team 자원 ↓ — “중요 안 함” 이라는 근거로 인력 재배치
새 기능들의 latency 비용 무시 — 출시 결정에서 latency 가드레일 ↓
시간 경과에 따라 사이트 점진 둔화
임계 도달 시 사용자 이탈 — 너무 늦게 발견

이는 단일 잘못된 null result 의 long-term 비용 의 사례. 결과 자체가 -1% 일 수 있는데 “무영향” 으로 잘못 해석되어 수년에 걸쳐 -20% 누적 가능.

저자들의 권고: latency 는 보편적 가드레일. 어떤 사이트도 “영향 없음” 이라 가정하지 말고 guardrail 로 항상 추적.

2.3 Too Fast 의 역설

저자들이 인용한 한 가지 더 (Bodlewski 2017): 매우 빠른 응답이 “정말 처리됐나?” 라는 사용자 불신을 유발하는 경우.

예시.

금융 거래 — “이체 완료” 가 즉시 표시되면 사용자가 “정말 됐나?” 의심. 일부 은행은 의도적으로 progress bar 추가.
AI 응답 — “분석 결과” 가 너무 빠르면 사용자가 “충분히 분석했나?” 의심. 일부 시스템은 fake “thinking…” 시간 추가.
법률·의료 자문 — 즉답은 신중함 부족으로 인식. 의도적 지연으로 신뢰감 ↑.

직관 — Effort Justification 과 신뢰

심리학적 메커니즘: Effort Justification (Aronson, Mills 1959).

사람은 “어떤 결과를 얻기 위한 노력” 이 그 결과의 가치를 결정한다고 무의식적으로 가정. 즉 “이 결과는 ms 안에 나왔다” 면 “노력이 적었다” 로 해석되어 결과 자체의 신뢰도 ↓.

이 패턴은 다음 도메인에서 활용.

Pricing psychology — 비싼 가격이 품질의 신호로 작동
Approval rituals — 형식적 절차가 결정의 정당성을 부여
Loading animations — fake delay 가 신중함을 표현

Speed Matters 의 일반 원칙 (faster is better) 의 예외 영역. 정량 영향은 작지만 (몇 % UX 지표), 잘못된 가정으로 too-fast 를 추구하면 신뢰 손실 가능.

저자들의 권고: 이는 rare scenarios 다. 대부분의 경우 faster is better. 그러나 too-fast 의 가능성을 인지하고 신뢰 지표 (return rate, complete rate 등) 를 함께 모니터링.

2.4 Replication 의 과학적 가치

저자들의 결론 (Kohavi, Tang, Xu, 2020, Ch.5.5).

“When reviewing results of experiments, ask yourself what trust level to apply, and remember that even if the idea worked for a specific site, it may not work as well for another. One thing you can do is report replications of prior experiments (successful or not). This is how science works best.”

핵심 메시지: 단일 결과는 신뢰 부족. 다음 두 가지가 결합되어야 강한 evidence.

여러 회사·여러 도메인의 replication
CI 가 좁고 일관된 부호

Bing·Google·Amazon 의 latency 결과가 모두 같은 방향 (-0.5% ~ -1% / 100ms) 인 것은 강한 replication. Etsy 사례가 이 분포에서 벗어난 (=) 0% 라면 이 자체가 추가 검증 필요 신호.

가정 — Replication 의 깊은 의미

Replication 은 단순 “같은 결과 두 번 측정” 이 아니다.

다른 환경 — 다른 사이트, 다른 사용자, 다른 시기
다른 design — 같은 결과가 다른 분석으로도 나옴
다른 통계적 가정 — 같은 결과가 다른 robust 분석에서도 나옴

이 모든 차원의 일관성이 진짜 효과의 evidence. 같은 환경·같은 design·같은 가정만 반복하면 publication bias 또는 systematic error 를 replication 으로 착각 가능.

과학 일반의 replication crisis (Open Science Collaboration 2015) 가 이 함정을 보여준다. 심리학 연구의 60% 가 replication 실패. 이유 중 하나는 design 의 다양성 부족.

A/B 테스트의 replication 도 같은 깊이가 필요. 다른 조건에서 같은 부호 가 나오면 신뢰. 같은 조건에서만 같은 부호는 약한 evidence.

3 왜 필요한가

3.1 잘못된 결과 인용의 비용

업계 사례.

Marissa Mayer 인용 → 0.5 초 = -20% 라는 도그마 — 일부 회사는 이 숫자를 가지고 ROI 계산. 실제 ROI 는 훨씬 작아서 performance team 이 over-fund. 다른 영역의 자원 부족.
Etsy 인용 → “performance 안 중요” — 일부 회사는 이를 근거로 latency 가드레일 무시. 시간 경과에 따라 사이트 둔화.

두 사례 모두 단일 결과를 비판 없이 인용 한 비용. 의사결정 시 항상 분포 안에서의 위치, design 의 confounded 정도, statistical power 를 점검해야 한다.

3.2 자체 측정의 우선

저자들의 권고는 명확: 자체 slowdown 실험으로 자체 ROI 측정. 다른 회사의 결과는 sanity check 일 뿐, 의사결정 근거는 자기 사이트의 실측.

자체 사용자 demographics 와 행동 패턴이 ROI 결정
자체 baseline 매출 규모가 ms 의 절대 가치 결정
자체 인프라 비용이 break-even 결정

같은 100ms 가 Amazon 에는 -1%, Bing 에는 -0.6%, 우리에게는 다른 숫자일 수 있다. 외부 결과를 쓰는 것은 자체 측정 전 의 임시 estimate 만 정당화한다.

4 응용 사례

4.1 Bing 의 분기별 ROI 갱신

Bing 은 매 분기 latency ROI 를 자체 실험으로 갱신. 시간 경과 변화 추적.

2012: 100ms = -0.6%
2015: 사이트 더 빨라져 ms 당 가치 ↑
2017: $18M / 100ms

이 패턴은 외부 결과 인용보다 자체 측정 우선 의 모범. 다른 회사의 숫자를 그대로 쓰면 시간 경과 변화를 놓침.

4.2 Performance team 의 ROI 정량화

Bing performance team 의 자기 정당화 패턴 (사전지식 보강).

분기 ROI 측정 → “1ms = $X 연 매출”
Performance team 비용 → “1 명 / 년 = $200K”
Break-even 계산 → “엔지니어 1 인이 분기당 X ms 절약하면 ROI 양수”
실제 절약 측정 → “이번 분기 +50ms 절약” → ROI +1500%

이 정량화는 performance team 의 존재 정당성을 매 분기 갱신. 외부 인용 (Mayer) 에 의존하면 경영진이 의심할 때 변호 불가.

4.3 Replication Across Companies

Schurman & Brutlag (2009) 의 Bing-Google 공동 발표는 replication 의 모범. 두 회사가 독립 적으로 latency 영향을 측정해 같은 부호 + 비슷한 자릿수 보고. 이는 단일 회사 결과보다 훨씬 강한 evidence.

업계 협력으로 replication 을 늘리는 노력이 있지만, 경쟁 정보 보호 때문에 어려움. Kohavi 등의 책 (2020) 자체가 multiple companies 의 결과를 모은 replication compilation 의 역할을 한다.

5 예시 — Confounded vs Clean Design 비교

다음 코드는 confounded design (30 results, latency + 다른 변수 동시 변경) 과 clean design (latency 만 변경) 을 비교 시뮬레이션한다.

import numpy as np
import pandas as pd
from scipy.stats import ttest_ind

rng = np.random.default_rng(42)
N = 500_000
baseline_rpv = 0.080
sigma = 0.5

# True effects
latency_500ms_effect = -0.025  # -2.5% (Bing 외삽)
result_count_change_effect = -0.10  # -10% (사용자 인지 부담, 광고 위치 등)

# Scenario 1: Confounded — Mayer style
# Treatment 가 latency + result_count 둘 다 변경
ctrl_confounded = rng.normal(baseline_rpv, sigma, N)
treatment_confounded = rng.normal(
    baseline_rpv * (1 + latency_500ms_effect + result_count_change_effect),
    sigma, N
)

# Scenario 2: Clean — latency only
ctrl_clean = rng.normal(baseline_rpv, sigma, N)
treatment_clean = rng.normal(
    baseline_rpv * (1 + latency_500ms_effect),
    sigma, N
)

# 결과
def report(name, ctrl, trt):
    diff = trt.mean() - ctrl.mean()
    rel = diff / ctrl.mean()
    se = np.sqrt(ctrl.var()/N + trt.var()/N)
    ci_lo = (diff - 1.96*se) / ctrl.mean()
    ci_hi = (diff + 1.96*se) / ctrl.mean()
    return {"Design": name, "Δ%": f"{rel*100:+.2f}%", "95% CI": f"({ci_lo*100:+.2f}%, {ci_hi*100:+.2f}%)"}

print(pd.DataFrame([
    report("Confounded (Mayer style)", ctrl_confounded, treatment_confounded),
    report("Clean (latency only)", ctrl_clean, treatment_clean),
]).to_string(index=False))

예상 출력 (시드 42).

                    Design     Δ%             95% CI
 Confounded (Mayer style) -12.49%  (-12.79%, -12.20%)
       Clean (latency only)  -2.50%   (-2.79%,  -2.21%)

직관 — 시뮬레이션의 메시지

Confounded design 의 -12.5% 는 latency 와 result count 의 합 — 둘을 분리 못하면 이 숫자 를 latency 에 귀속시키게 됨.
Clean design 의 -2.5% 가 진짜 latency 효과 — 다른 변수 통제 후 측정.
두 결과의 차이 ≈ 10% — result count 변경의 단독 효과.

Mayer 의 -20% 가 만약 latency + 다른 변수의 합이라면, latency 단독은 보고된 -20% 의 일부 (예: -2~-5%) 만 차지. -20% 를 latency 에 귀속시키는 것은 통계적 잘못.

이 시뮬레이션은 confounded design 의 결과를 절대 single-cause 로 해석하지 말라 는 메시지. 설계 단계의 결정이 결과 해석의 가능성을 결정한다.

6 Ch.5 시리즈 마무리 — Speed Matters 의 6 가지 원칙

전 시리즈 (F5-0 ~ F5-3) 를 통해 정리된 핵심 원칙.

Speed = Revenue — 사이트 latency 는 매출에 명확한 영향. 100ms = -0.5~-1% revenue.
국소 선형 근사 — Slowdown 실험으로 measure 한 effect 를 외삽 가능. 두 점 검증으로 robust.
PLT 측정의 정밀도 — T7 - T1 trick + 서버 시계 동기화. 클라이언트 시계 신뢰 X.
Chunk2 지연 — 시각적 피드백 차단 효과 분리. backend 모델링 자연.
모든 ms 가 동등하지 않음 — 메인 critical, right-pane 무영향. critical path 우선 최적화.
Extreme result 는 의심 — confounded design 의 -20%, power 부족의 null. Replication 우선.

이 6 가지가 결합되어 Latency 를 가드레일 지표 로 자동 추적하는 시스템이 정당화된다. 어떤 변경도 latency 가드레일 위반 시 자동 차단.

7 관련 주제

선행 — Ch.5 시리즈

다음 챕터

F6-* — Ch.6 조직 지표 — Speed 가 가드레일 지표로 채택되는 이유
F7-* — Ch.7 OEC — Speed 와 다른 지표의 trade-off

관련 챕터 (Trustworthy Experimentation)

F18-* — CUPED (Ch.18) — Power 향상으로 null result 한계 극복
F19-* — A/A Test (Ch.19) — 측정 자체의 신뢰성 검증

다른 카테고리 연결

Statistics — Power Analysis — Null result 해석의 power 요구
Statistics — Confidence Intervals — Evidence of absence vs absence of evidence
Strategy Frameworks — 외부 결과 인용 vs 자체 측정의 의사결정 가치