실험 성숙도 4 단계와 리더십

Crawl · Walk · Run · Fly + HiPPO 에서 데이터 기반 문화로

Kohavi (2020) Ch.4.1~4.2 를 깊게 다룬다. Fabijan et al. (2017) 의 4 단계 성숙도 모델 (Crawl/Walk/Run/Fly) 의 정량 지표·플랫폼 요구·전형적 실패 패턴을 비교하고, 리더십이 HiPPO 단계에서 fundamental understanding 으로 진입하기 위해 실천해야 할 8 가지 행동을 정리한다.

Experimentation
A/B Test
Platform
저자

Kwangmin Kim

공개

2026년 05월 08일

1 정의

정의: 실험 성숙도 모델 (Experimentation Maturity Model)

조직이 데이터 기반 의사결정으로 진화할 때 거치는 표준 단계 모델이다. Fabijan et al. (2017) 은 Crawl → Walk → Run → Fly 의 4 단계로 정의하고, 각 단계마다 (a) 실험 빈도, (b) 기술 인프라, (c) 조직 문화, (d) 의사결정 프로세스가 동시에 진화한다고 주장한다 (Kohavi, Tang, Xu, 2020, Ch.4.1).

핵심 통찰: 단계는 독립이 아니라 연속이다. Crawl 의 기반 (계측·기본 통계 역량) 없이는 Walk 의 신뢰 검증 (A/A·SRM) 도 의미 없고, Walk 의 신뢰 없이는 Run 의 OEC 코드화도 잘못된 의사결정을 자동화할 뿐이다.

2 개념 및 원리

2.1 4 단계 비교

단계 연간 실험 한 줄 정의 무엇이 잘 안 되면 다음 단계로 못 간다
Crawl ~10 “실험 1 건이 동작한다” 계측·기본 통계 역량
Walk ~50 “실험 결과를 신뢰할 수 있다” A/A·SRM·계측 검증
Run ~250 “실험을 대규모로 운영한다” OEC 코드화·자동 분석
Fly 수천+ “모든 변경의 기본값이 실험” 자동화·제도적 기억

저자들은 단계 전환이 약 5 배의 빈도 증가 를 동반한다고 보고한다 (10 → 50 → 250 → 수천). 이는 인력 5 배가 아니라 실험 1 건당 한계 비용이 5 배 떨어진다는 의미다 — 동일 인력이 5 배 많은 실험을 운영할 수 있는 자동화·표준화·교육이 필요하다.

직관 — 단계 도약 (skip-level upgrade) 의 위험

조직이 가장 흔히 빠지는 함정은 현재 단계의 진단을 건너뛰고 한 단계 앞의 도구를 도입 하는 것이다. 예를 들어 Crawl 인 조직이 Optimizely 의 자동 ramping 기능에 매료되어 도입하면 다음 일이 일어난다.

  1. 자동 ramping 은 가드레일 위반 시 자동 차단을 전제 — 그러나 Crawl 조직은 가드레일 정의가 없다 → 차단 기준이 임의가 된다
  2. NRT alerting 은 빠른 의사결정 cycle 을 전제 — 그러나 Crawl 조직은 결정 권한이 분산되어 alert 가 와도 누가 처리할지 모호하다
  3. 결과: 비싼 도구를 도입했지만 현재 병목인 신뢰 검증 (A/A·SRM) 은 그대로

도구의 가치는 그 도구가 해결하는 문제가 현재 조직의 critical path 인가 의 함수다. Crawl 의 critical path 는 “결과 → 결정” 의 연결고리이지 자동화가 아니다. 도구를 도입하기 전에 “이 도구 없이 우리가 멈추는 지점이 어디인가?” 를 물어야 한다.

이 함정의 깊은 이유는 자랑 가능한 기능 (visible feature)실제 ROI 의 불일치다. 임원 보고에서 “자동 ramping 도입” 은 시각적 임팩트가 큰 반면 “A/A 테스트 자동화” 는 심심하다. 그래서 정치적 동기가 단계 도약을 부추긴다.

2.2 Crawl — “처음 몇 건”

Crawl 단계의 목표는 첫 성공 사례를 만들어 모멘텀을 확보하는 것이다 (Kohavi, Tang, Xu, 2020, Ch.4.1).

  • 기본 계측 (페이지뷰·클릭·전환) + 기초 통계 (z-test, 신뢰구간) 만 있으면 진입 가능
  • 첫 실험은 수동 분석 + 결과를 의사결정에 반영하는 1~2 회 cycle 만 성공해도 OK
  • “성공” 의 정의: 결과가 출시 결정을 의미 있게 가이드했는가 (찬성·반대 모두 포함)
직관 — Crawl 의 함정

가장 흔한 Crawl 실패는 결과가 보고서로 끝나는 것이다. 데이터 팀이 “실험을 했고 p = 0.12 였다” 라고 보고하지만 출시 결정자가 그 숫자를 보지 않거나 무시하면, 실험 비용은 발생했지만 학습은 일어나지 않는다. Kohavi 가 “성공 사례 몇 건” 을 강조하는 이유는, 첫 사례가 의사결정 변경 까지 이어져야 다음 실험 자금이 확보되기 때문이다.

플랫폼 도구보다 실험 결과 → 출시 결정 의 연결 고리 가 Crawl 단계의 critical path 다.

2.3 Walk — “신뢰 확보”

Walk 단계는 실험 빈도가 주 단위로 올라가면서 신뢰성 검증이 자동화 필수가 되는 시점이다.

  • A/A 테스트 — 처치를 가하지 않고도 차이가 발생하는 false positive 율을 측정 (Ch.19)
  • SRM (Sample Ratio Mismatch) 검사 — 50/50 배정인데 사용자 수가 49/51 로 갈라지면 배정·로깅에 결함 (Ch.21)
  • 계측 검증 — 새 기능 배포 시 instrumentation 누락이 흔한 실패 원인

이 단계의 핵심 위험은 신뢰 검증 부채다. A/A·SRM 을 매 실험에 자동 적용하지 않으면, 시간이 지나면서 잘못된 결론 위에 결정이 쌓이고, 나중에 한꺼번에 발견되면 신뢰 자체가 붕괴한다.

2.4 Run — “OEC 코드화”

Run 단계는 실험이 일 단위로 돌아가는 시점이다.

  • 다지표 OEC — 단일 지표 (전환율) 가 아니라 트레이드오프를 코드화한 합성 지표 (Ch.7)
  • 세그먼트 분석 — 평균 효과뿐 아니라 사용자 그룹별 이질성 (HTE) 자동 보고
  • 다중 검정 보정 — 수십 개 지표 동시 평가 시 false positive 폭증 방지

Run 단계의 특징은 데이터 사이언티스트가 모든 분석을 수동 처리할 수 없다는 점이다. 실험자가 자체적으로 결과를 해석하려면 자동 분석 + 표준 대시보드가 필수가 된다.

2.5 Fly — “기본값으로서의 실험”

Fly 단계는 모든 코드 변경이 실험을 통과하는 것이 자연스럽고, 출시 결정의 시간 단위가 분 단위로 떨어지는 단계다.

  • 자동 ramping — 1% → 5% → 50% 까지 자동 단계 노출 (Ch.15)
  • NRT (Near Real-Time) alerting — 가드레일 위반 시 분 단위 자동 차단
  • 제도적 기억 — 과거 실험 결과를 메타분석하여 미래 가설 생성에 활용 (Ch.8)
  • 내부 ROI — 실험 자체의 ROI 측정 (예: 실험 플랫폼 자체를 A/B 테스트)

Fly 단계의 조직은 “이 변경을 실험 없이 출시하자” 가 예외 케이스가 된다. 일반 케이스는 실험 통과가 출시 조건이고, 결정자는 실험 결과를 보지 않고 결정하는 것을 부자연스럽게 느낀다.

2.6 단계별 전환 신호

다음 단계로 진입할 준비가 되었다는 신호 (Kohavi 가 명시하지 않은 부분 — agent 사전지식 보강).

전환 신호 진입 비용
Crawl → Walk 실험 cycle 이 결정에 영향을 준 사례 5+ 건 누적 신뢰 도구 (A/A·SRM·계측 검증) 자동화
Walk → Run 동일 분석을 ad-hoc 으로 반복하는 시간이 임계치 초과 자동 분석 파이프라인·OEC 정의
Run → Fly 분석 시간보다 결정 지연 비용이 더 커지는 시점 NRT alerting·자동 ramping·제도적 기억

3 리더십 — HiPPO 에서 Fundamental Understanding 으로

Kohavi 는 조직이 실험 도입 시 거치는 인식론적 단계 를 별도로 정의한다 (Kohavi 2010 인용).

1. Hubris (자만)
   - HiPPO (Highest Paid Person's Opinion) 가 결정
   - "측정·실험은 시간 낭비" 의 사고
        ↓
2. Measurement and Control (측정·통제)
   - 핵심 지표 추적 시작
   - 그러나 Semmelweis Reflex (반증 거부) 작동
        ↓
3. Fundamental Understanding (근본 이해)
   - 인과 모형이 실제로 작동
   - "데이터가 직관을 이긴다" 학습 완료

이 3 단계는 성숙도 모델 (Crawl/Walk/Run/Fly) 와 독립이다. Fly 인 조직도 Hubris 에 머물 수 있고 (HiPPO 가 실험 결과를 무시), Walk 인 조직도 Fundamental Understanding 에 도달할 수 있다 (작은 조직이 데이터 문화를 빠르게 흡수). 둘 다 갖춰져야 실험이 의사결정 인프라가 된다.

직관 — Semmelweis Reflex 와 실험 결과 거부

Ignaz Semmelweis 는 1847 년 손 씻기로 산욕열 사망률을 60% 에서 1% 로 줄인 데이터를 가지고도 의학계에 거부당했다. 당시의 패러다임 (질병 = 4 체액 불균형) 과 충돌했기 때문이다.

이 패턴은 현대 디지털 실험에도 그대로 반복된다. 실험 결과가 기존 신념과 충돌하면 결과의 방법론을 의심하는 반응이 자동으로 일어난다 — “표본이 부족했나?”, “측정이 잘못됐나?”. 이는 때로는 정당한 회의주의지만, 결과가 신념과 일치할 때는 같은 회의주의를 적용하지 않는 비대칭이 문제다 (Kohavi, Tang, Xu, 2020, Ch.4.2 의 핵심).

리더십의 역할은 회의주의를 양방향으로 균질하게 적용하도록 강제 하는 것이다.

3.1 리더십 8 가지 행동

저자들은 리더가 실천해야 할 8 가지 구체 행동을 제시한다 (Kohavi, Tang, Xu, 2020, Ch.4.2).

  1. 목표·가드레일·OEC 합의 — 트레이드오프를 사전 코드화 (Ch.7) 한다. 사후에 “이 실험에선 이 지표가 더 중요했다” 는 cherry-picking 을 방지한다.
  2. 출시 기준 재정의 — “기능 X 출시” 가 아니라 “지표 P 의 +Δ 달성” 으로 KPI 를 바꾼다. 가장 어려운 문화 변화이며, 큰 조직일수록 저항이 강하다.
  3. 권한 위임 + 가드레일 — 팀이 핵심 지표 개선을 자유롭게 시도하되, 가드레일 (Ch.21) 위반은 자동 차단된다.
  4. 실패에 대한 humility — 대부분의 아이디어는 실패한다. fail-fast 문화 + 학습 공유.
  5. 계측 품질 강제 — 데이터 품질이 부실하면 실험 결과 자체가 무의미. instrumentation review 가 표준 절차여야 한다.
  6. 결과 리뷰 의무화 — p-hacking 방지, 해석 표준화, 의사결정 영향 투명화.
  7. 포트폴리오 관리 — 고위험·고보상 (radical) vs 점진 개선 (incremental) 의 균형 유지. 모든 실험을 incremental 에 몰면 혁신이 사라진다.
  8. 장기 학습 지원 — 출시 결정뿐 아니라 ROI 측정·전략 수립에도 실험 사용. 예: Bing 의 Facebook·Twitter 통합을 2 년 실험 후 무가치 판단으로 폐기 (Kohavi, Tang, Xu, 2020, Ch.1).

이 8 가지는 플랫폼 도구로 강제할 수 없는 행동이다. 도구는 데이터를 보여줄 뿐, 데이터에 따라 결정하는 것은 리더의 일이다.

4 왜 필요한가

성숙도 모델·리더십 인프라가 없으면 다음 함정이 발생한다.

  • 단계 도약 시도 — Crawl 단계 조직이 Fly 용 자동 ramping 시스템에 자원을 쏟는다. 신뢰 검증·OEC 코드화 같은 중간 단계의 핵심 기능이 누락된 채 자동화만 깔리면 잘못된 결과를 자동으로 출시한다.
  • HiPPO 회귀 — 데이터가 모호한 영역 (작은 표본·논쟁적 결과·측정 외 가치) 에서 결정자가 자신의 직관으로 회귀한다. 표면적으로 데이터 기반, 실질적으로 자만 단계.
  • 신뢰 검증 부채 — Walk 단계의 A/A·SRM 자동화를 미루면, 잘못된 결과가 누적된 후 한꺼번에 발견되어 신뢰 자체가 붕괴한다.
  • 포트폴리오 편향 — incremental 실험만 통과하는 KPI 구조가 되면 radical 아이디어가 사라지고, 몇 년 후 경쟁사 대비 혁신 격차가 누적된다.

성숙도 모델은 현재 위치 진단 도구 이고, 리더십 8 행동은 다음 단계 진입 조건 이다.

5 응용 — 4 사례 비교

조직 진입 시점 단계 도달 (Year-1 기준) 핵심 plateau 극복
Bing 2009 전후 4 년 내 Run → Fly 자동 분석·NRT alerting 투자
Google 2000 년대 초 비교적 점진적 nested overlapping 으로 동시 실험 수 확장
LinkedIn 2010 년대 초 Run 진입 후 빠른 Fly XLNT 플랫폼 + 실험 평가 표준화
Microsoft Office 2017 Run → Fly 단축 Bing 인프라 재활용 (build 비용 절감)

Year-1 (실험 1 건/일 도달 시점) 이후 4 년간 4 사 모두 약 10 배 성장 (Figure 4.1). Microsoft Office 는 2018 한 해에 +600% 로 가장 빠른 성장을 기록했는데, 이는 이미 Bing 에서 검증된 플랫폼을 재활용 함으로써 Crawl·Walk 단계의 성장 통증을 건너뛴 결과다 (Kohavi, Tang, Xu, 2020, Ch.4.1).

이 사례는 build vs buy 의사결정의 한 변수도 보여준다 — 같은 회사 내 다른 조직의 플랫폼을 재활용할 수 있다면, build 비용이 sunk cost 처리되어 외부 솔루션보다 빠르게 진입할 수 있다.

6 예시 — 단계별 실험 빈도 시뮬레이션

다음 시뮬레이션은 4 단계 사이의 빈도 격차가 조직 의사결정에 미치는 영향을 보여준다. 가정: 핵심 지표를 +1% 개선하는 변경 1 건의 비즈니스 가치 = $1M, 실패 실험 비용 = $50K.

import numpy as np
import pandas as pd

rng = np.random.default_rng(7)

stages = {
    "Crawl": {"per_year": 10},
    "Walk":  {"per_year": 50},
    "Run":   {"per_year": 250},
    "Fly":   {"per_year": 2000},
}

# 실험 1 건의 결과: 베이스라인 가설 성공률 15% (Kohavi 보고: ~30% 의 가설이 +지표 이동)
# Walk 부터 신뢰 검증 자동화로 false positive 가 현저히 줄어든다고 가정.
success_rate = 0.15
gain_per_win = 1_000_000
cost_per_loss = 50_000

records = []
for stage, params in stages.items():
    n = params["per_year"]
    wins = rng.binomial(n, success_rate)
    losses = n - wins
    net_value = wins * gain_per_win - losses * cost_per_loss
    records.append({
        "stage": stage,
        "experiments": n,
        "wins": wins,
        "losses": losses,
        "net_value_M$": net_value / 1e6,
    })

print(pd.DataFrame(records).to_string(index=False))

예상 결과 (난수 시드 7 기준).

 stage  experiments  wins  losses  net_value_M$
 Crawl           10     2       8         1.6
 Walk            50     7      43         4.85
   Run          250    44     206        33.7
   Fly         2000   294    1706        208.7

해석: 단계 전환은 단순 빈도 5 배가 아니라 순가치도 약 5~6 배 늘어난다. 이는 cost-per-loss 가 gain-per-win 의 1/20 이라는 실험의 비대칭성에서 기인한다. 실험 = 옵션, 실패는 손절·성공은 무한. 플랫폼 투자가 단계 전환에 1~2 년 걸려도 ROI 가 압도적인 이유다.

직관 — 실험의 비대칭성과 옵션 가치

위 모델의 핵심 가정은 다음 두 줄이다.

gain_per_win = $1,000,000   # 성공 1 건의 가치
cost_per_loss = $50,000     # 실패 1 건의 비용 (1/20)

왜 이런 비대칭이 발생하는가? 실험의 본질은 금융 옵션 (option) 과 같기 때문이다.

  • 성공한 실험 — 무기한 운영되며 가치를 누적 (예: +1% 전환율 개선이 5 년간 반복 적용)
  • 실패한 실험 — Treatment 그룹이 노출된 짧은 기간만의 비용 (보통 1~2 주 트래픽의 영향)

옵션의 페이오프는 비대칭이다 — 가격이 행사가 위로 올라가면 무한 이익, 아래로 떨어지면 옵션 가격만 손실. 실험도 동일하다. 좋은 결과는 무한히 활용 되고, 나쁜 결과는 즉시 종료 된다.

이 비대칭의 실무 함의:

  1. 많이 시도하는 것이 답 — 성공 확률 15% 는 낮아 보이지만, 옵션 비대칭으로 기대값은 +양수
  2. 빠른 실패 — 실패가 명확해지면 즉시 종료. 더 많은 옵션 시도를 위한 자원 회수
  3. 포트폴리오 균형 — incremental 만 시도하면 큰 win 이 없다. radical 도 일정 비율 필요

수학적으로, 실패 비용 \(L\) · 성공 이익 \(G\) · 성공률 \(p\) 일 때 기대 가치 \(\mathbb{E}[V] = pG - (1-p)L\). \(G/L\) 비가 클수록 \(p\) 가 작아도 양수 기대값이 유지된다. 디지털 실험은 \(G/L \approx 20\) 이라 \(p \geq 5\%\) 만 되면 양수다. 이 비율이 디지털 실험을 매력적으로 만드는 근본 동력이다.

시뮬레이션의 한계

위 모델은 신뢰 검증 부채를 가정에 넣지 않았다. 실제로 Walk 단계의 A/A·SRM 자동화가 누락되면 “성공” 으로 분류된 실험 중 일부가 false positive 이고, 출시 후 가치가 실현되지 않는다. Kohavi 의 경험치는 false positive 율이 명목 5% 가 아니라 30% 까지 치솟을 수 있다고 보고한다 (Ch.3, Ch.21).

따라서 단계 전환의 진정한 ROI 는 빈도 증가뿐 아니라 신뢰 인프라 투자의 가치 가 합쳐져야 한다.

7 관련 주제

선행 — Ch.4 시리즈

후속 — Ch.4 시리즈

관련 챕터

다른 카테고리 연결

Subscribe

Enjoy this blog? Get notified of new posts by email: