1 정의
조직이 데이터 기반 의사결정으로 진화할 때 거치는 표준 단계 모델이다. Fabijan et al. (2017) 은 Crawl → Walk → Run → Fly 의 4 단계로 정의하고, 각 단계마다 (a) 실험 빈도, (b) 기술 인프라, (c) 조직 문화, (d) 의사결정 프로세스가 동시에 진화한다고 주장한다 (Kohavi, Tang, Xu, 2020, Ch.4.1).
핵심 통찰: 단계는 독립이 아니라 연속이다. Crawl 의 기반 (계측·기본 통계 역량) 없이는 Walk 의 신뢰 검증 (A/A·SRM) 도 의미 없고, Walk 의 신뢰 없이는 Run 의 OEC 코드화도 잘못된 의사결정을 자동화할 뿐이다.
2 개념 및 원리
2.1 4 단계 비교
| 단계 | 연간 실험 | 한 줄 정의 | 무엇이 잘 안 되면 다음 단계로 못 간다 |
|---|---|---|---|
| Crawl | ~10 | “실험 1 건이 동작한다” | 계측·기본 통계 역량 |
| Walk | ~50 | “실험 결과를 신뢰할 수 있다” | A/A·SRM·계측 검증 |
| Run | ~250 | “실험을 대규모로 운영한다” | OEC 코드화·자동 분석 |
| Fly | 수천+ | “모든 변경의 기본값이 실험” | 자동화·제도적 기억 |
저자들은 단계 전환이 약 5 배의 빈도 증가 를 동반한다고 보고한다 (10 → 50 → 250 → 수천). 이는 인력 5 배가 아니라 실험 1 건당 한계 비용이 5 배 떨어진다는 의미다 — 동일 인력이 5 배 많은 실험을 운영할 수 있는 자동화·표준화·교육이 필요하다.
조직이 가장 흔히 빠지는 함정은 현재 단계의 진단을 건너뛰고 한 단계 앞의 도구를 도입 하는 것이다. 예를 들어 Crawl 인 조직이 Optimizely 의 자동 ramping 기능에 매료되어 도입하면 다음 일이 일어난다.
- 자동 ramping 은 가드레일 위반 시 자동 차단을 전제 — 그러나 Crawl 조직은 가드레일 정의가 없다 → 차단 기준이 임의가 된다
- NRT alerting 은 빠른 의사결정 cycle 을 전제 — 그러나 Crawl 조직은 결정 권한이 분산되어 alert 가 와도 누가 처리할지 모호하다
- 결과: 비싼 도구를 도입했지만 현재 병목인 신뢰 검증 (A/A·SRM) 은 그대로
도구의 가치는 그 도구가 해결하는 문제가 현재 조직의 critical path 인가 의 함수다. Crawl 의 critical path 는 “결과 → 결정” 의 연결고리이지 자동화가 아니다. 도구를 도입하기 전에 “이 도구 없이 우리가 멈추는 지점이 어디인가?” 를 물어야 한다.
이 함정의 깊은 이유는 자랑 가능한 기능 (visible feature) 과 실제 ROI 의 불일치다. 임원 보고에서 “자동 ramping 도입” 은 시각적 임팩트가 큰 반면 “A/A 테스트 자동화” 는 심심하다. 그래서 정치적 동기가 단계 도약을 부추긴다.
2.2 Crawl — “처음 몇 건”
Crawl 단계의 목표는 첫 성공 사례를 만들어 모멘텀을 확보하는 것이다 (Kohavi, Tang, Xu, 2020, Ch.4.1).
- 기본 계측 (페이지뷰·클릭·전환) + 기초 통계 (z-test, 신뢰구간) 만 있으면 진입 가능
- 첫 실험은 수동 분석 + 결과를 의사결정에 반영하는 1~2 회 cycle 만 성공해도 OK
- “성공” 의 정의: 결과가 출시 결정을 의미 있게 가이드했는가 (찬성·반대 모두 포함)
가장 흔한 Crawl 실패는 결과가 보고서로 끝나는 것이다. 데이터 팀이 “실험을 했고 p = 0.12 였다” 라고 보고하지만 출시 결정자가 그 숫자를 보지 않거나 무시하면, 실험 비용은 발생했지만 학습은 일어나지 않는다. Kohavi 가 “성공 사례 몇 건” 을 강조하는 이유는, 첫 사례가 의사결정 변경 까지 이어져야 다음 실험 자금이 확보되기 때문이다.
플랫폼 도구보다 실험 결과 → 출시 결정 의 연결 고리 가 Crawl 단계의 critical path 다.
2.3 Walk — “신뢰 확보”
Walk 단계는 실험 빈도가 주 단위로 올라가면서 신뢰성 검증이 자동화 필수가 되는 시점이다.
- A/A 테스트 — 처치를 가하지 않고도 차이가 발생하는 false positive 율을 측정 (Ch.19)
- SRM (Sample Ratio Mismatch) 검사 — 50/50 배정인데 사용자 수가 49/51 로 갈라지면 배정·로깅에 결함 (Ch.21)
- 계측 검증 — 새 기능 배포 시 instrumentation 누락이 흔한 실패 원인
이 단계의 핵심 위험은 신뢰 검증 부채다. A/A·SRM 을 매 실험에 자동 적용하지 않으면, 시간이 지나면서 잘못된 결론 위에 결정이 쌓이고, 나중에 한꺼번에 발견되면 신뢰 자체가 붕괴한다.
2.4 Run — “OEC 코드화”
Run 단계는 실험이 일 단위로 돌아가는 시점이다.
- 다지표 OEC — 단일 지표 (전환율) 가 아니라 트레이드오프를 코드화한 합성 지표 (Ch.7)
- 세그먼트 분석 — 평균 효과뿐 아니라 사용자 그룹별 이질성 (HTE) 자동 보고
- 다중 검정 보정 — 수십 개 지표 동시 평가 시 false positive 폭증 방지
Run 단계의 특징은 데이터 사이언티스트가 모든 분석을 수동 처리할 수 없다는 점이다. 실험자가 자체적으로 결과를 해석하려면 자동 분석 + 표준 대시보드가 필수가 된다.
2.5 Fly — “기본값으로서의 실험”
Fly 단계는 모든 코드 변경이 실험을 통과하는 것이 자연스럽고, 출시 결정의 시간 단위가 분 단위로 떨어지는 단계다.
- 자동 ramping — 1% → 5% → 50% 까지 자동 단계 노출 (Ch.15)
- NRT (Near Real-Time) alerting — 가드레일 위반 시 분 단위 자동 차단
- 제도적 기억 — 과거 실험 결과를 메타분석하여 미래 가설 생성에 활용 (Ch.8)
- 내부 ROI — 실험 자체의 ROI 측정 (예: 실험 플랫폼 자체를 A/B 테스트)
Fly 단계의 조직은 “이 변경을 실험 없이 출시하자” 가 예외 케이스가 된다. 일반 케이스는 실험 통과가 출시 조건이고, 결정자는 실험 결과를 보지 않고 결정하는 것을 부자연스럽게 느낀다.
2.6 단계별 전환 신호
다음 단계로 진입할 준비가 되었다는 신호 (Kohavi 가 명시하지 않은 부분 — agent 사전지식 보강).
| 전환 | 신호 | 진입 비용 |
|---|---|---|
| Crawl → Walk | 실험 cycle 이 결정에 영향을 준 사례 5+ 건 누적 | 신뢰 도구 (A/A·SRM·계측 검증) 자동화 |
| Walk → Run | 동일 분석을 ad-hoc 으로 반복하는 시간이 임계치 초과 | 자동 분석 파이프라인·OEC 정의 |
| Run → Fly | 분석 시간보다 결정 지연 비용이 더 커지는 시점 | NRT alerting·자동 ramping·제도적 기억 |
3 리더십 — HiPPO 에서 Fundamental Understanding 으로
Kohavi 는 조직이 실험 도입 시 거치는 인식론적 단계 를 별도로 정의한다 (Kohavi 2010 인용).
1. Hubris (자만)
- HiPPO (Highest Paid Person's Opinion) 가 결정
- "측정·실험은 시간 낭비" 의 사고
↓
2. Measurement and Control (측정·통제)
- 핵심 지표 추적 시작
- 그러나 Semmelweis Reflex (반증 거부) 작동
↓
3. Fundamental Understanding (근본 이해)
- 인과 모형이 실제로 작동
- "데이터가 직관을 이긴다" 학습 완료
이 3 단계는 성숙도 모델 (Crawl/Walk/Run/Fly) 와 독립이다. Fly 인 조직도 Hubris 에 머물 수 있고 (HiPPO 가 실험 결과를 무시), Walk 인 조직도 Fundamental Understanding 에 도달할 수 있다 (작은 조직이 데이터 문화를 빠르게 흡수). 둘 다 갖춰져야 실험이 의사결정 인프라가 된다.
Ignaz Semmelweis 는 1847 년 손 씻기로 산욕열 사망률을 60% 에서 1% 로 줄인 데이터를 가지고도 의학계에 거부당했다. 당시의 패러다임 (질병 = 4 체액 불균형) 과 충돌했기 때문이다.
이 패턴은 현대 디지털 실험에도 그대로 반복된다. 실험 결과가 기존 신념과 충돌하면 결과의 방법론을 의심하는 반응이 자동으로 일어난다 — “표본이 부족했나?”, “측정이 잘못됐나?”. 이는 때로는 정당한 회의주의지만, 결과가 신념과 일치할 때는 같은 회의주의를 적용하지 않는 비대칭이 문제다 (Kohavi, Tang, Xu, 2020, Ch.4.2 의 핵심).
리더십의 역할은 회의주의를 양방향으로 균질하게 적용하도록 강제 하는 것이다.
3.1 리더십 8 가지 행동
저자들은 리더가 실천해야 할 8 가지 구체 행동을 제시한다 (Kohavi, Tang, Xu, 2020, Ch.4.2).
- 목표·가드레일·OEC 합의 — 트레이드오프를 사전 코드화 (Ch.7) 한다. 사후에 “이 실험에선 이 지표가 더 중요했다” 는 cherry-picking 을 방지한다.
- 출시 기준 재정의 — “기능 X 출시” 가 아니라 “지표 P 의 +Δ 달성” 으로 KPI 를 바꾼다. 가장 어려운 문화 변화이며, 큰 조직일수록 저항이 강하다.
- 권한 위임 + 가드레일 — 팀이 핵심 지표 개선을 자유롭게 시도하되, 가드레일 (Ch.21) 위반은 자동 차단된다.
- 실패에 대한 humility — 대부분의 아이디어는 실패한다. fail-fast 문화 + 학습 공유.
- 계측 품질 강제 — 데이터 품질이 부실하면 실험 결과 자체가 무의미. instrumentation review 가 표준 절차여야 한다.
- 결과 리뷰 의무화 — p-hacking 방지, 해석 표준화, 의사결정 영향 투명화.
- 포트폴리오 관리 — 고위험·고보상 (radical) vs 점진 개선 (incremental) 의 균형 유지. 모든 실험을 incremental 에 몰면 혁신이 사라진다.
- 장기 학습 지원 — 출시 결정뿐 아니라 ROI 측정·전략 수립에도 실험 사용. 예: Bing 의 Facebook·Twitter 통합을 2 년 실험 후 무가치 판단으로 폐기 (Kohavi, Tang, Xu, 2020, Ch.1).
이 8 가지는 플랫폼 도구로 강제할 수 없는 행동이다. 도구는 데이터를 보여줄 뿐, 데이터에 따라 결정하는 것은 리더의 일이다.
4 왜 필요한가
성숙도 모델·리더십 인프라가 없으면 다음 함정이 발생한다.
- 단계 도약 시도 — Crawl 단계 조직이 Fly 용 자동 ramping 시스템에 자원을 쏟는다. 신뢰 검증·OEC 코드화 같은 중간 단계의 핵심 기능이 누락된 채 자동화만 깔리면 잘못된 결과를 자동으로 출시한다.
- HiPPO 회귀 — 데이터가 모호한 영역 (작은 표본·논쟁적 결과·측정 외 가치) 에서 결정자가 자신의 직관으로 회귀한다. 표면적으로 데이터 기반, 실질적으로 자만 단계.
- 신뢰 검증 부채 — Walk 단계의 A/A·SRM 자동화를 미루면, 잘못된 결과가 누적된 후 한꺼번에 발견되어 신뢰 자체가 붕괴한다.
- 포트폴리오 편향 — incremental 실험만 통과하는 KPI 구조가 되면 radical 아이디어가 사라지고, 몇 년 후 경쟁사 대비 혁신 격차가 누적된다.
성숙도 모델은 현재 위치 진단 도구 이고, 리더십 8 행동은 다음 단계 진입 조건 이다.
5 응용 — 4 사례 비교
| 조직 | 진입 시점 | 단계 도달 (Year-1 기준) | 핵심 plateau 극복 |
|---|---|---|---|
| Bing | 2009 전후 | 4 년 내 Run → Fly | 자동 분석·NRT alerting 투자 |
| 2000 년대 초 | 비교적 점진적 | nested overlapping 으로 동시 실험 수 확장 | |
| 2010 년대 초 | Run 진입 후 빠른 Fly | XLNT 플랫폼 + 실험 평가 표준화 | |
| Microsoft Office | 2017 | Run → Fly 단축 | Bing 인프라 재활용 (build 비용 절감) |
Year-1 (실험 1 건/일 도달 시점) 이후 4 년간 4 사 모두 약 10 배 성장 (Figure 4.1). Microsoft Office 는 2018 한 해에 +600% 로 가장 빠른 성장을 기록했는데, 이는 이미 Bing 에서 검증된 플랫폼을 재활용 함으로써 Crawl·Walk 단계의 성장 통증을 건너뛴 결과다 (Kohavi, Tang, Xu, 2020, Ch.4.1).
이 사례는 build vs buy 의사결정의 한 변수도 보여준다 — 같은 회사 내 다른 조직의 플랫폼을 재활용할 수 있다면, build 비용이 sunk cost 처리되어 외부 솔루션보다 빠르게 진입할 수 있다.
6 예시 — 단계별 실험 빈도 시뮬레이션
다음 시뮬레이션은 4 단계 사이의 빈도 격차가 조직 의사결정에 미치는 영향을 보여준다. 가정: 핵심 지표를 +1% 개선하는 변경 1 건의 비즈니스 가치 = $1M, 실패 실험 비용 = $50K.
import numpy as np
import pandas as pd
rng = np.random.default_rng(7)
stages = {
"Crawl": {"per_year": 10},
"Walk": {"per_year": 50},
"Run": {"per_year": 250},
"Fly": {"per_year": 2000},
}
# 실험 1 건의 결과: 베이스라인 가설 성공률 15% (Kohavi 보고: ~30% 의 가설이 +지표 이동)
# Walk 부터 신뢰 검증 자동화로 false positive 가 현저히 줄어든다고 가정.
success_rate = 0.15
gain_per_win = 1_000_000
cost_per_loss = 50_000
records = []
for stage, params in stages.items():
n = params["per_year"]
wins = rng.binomial(n, success_rate)
losses = n - wins
net_value = wins * gain_per_win - losses * cost_per_loss
records.append({
"stage": stage,
"experiments": n,
"wins": wins,
"losses": losses,
"net_value_M$": net_value / 1e6,
})
print(pd.DataFrame(records).to_string(index=False))예상 결과 (난수 시드 7 기준).
stage experiments wins losses net_value_M$
Crawl 10 2 8 1.6
Walk 50 7 43 4.85
Run 250 44 206 33.7
Fly 2000 294 1706 208.7
해석: 단계 전환은 단순 빈도 5 배가 아니라 순가치도 약 5~6 배 늘어난다. 이는 cost-per-loss 가 gain-per-win 의 1/20 이라는 실험의 비대칭성에서 기인한다. 실험 = 옵션, 실패는 손절·성공은 무한. 플랫폼 투자가 단계 전환에 1~2 년 걸려도 ROI 가 압도적인 이유다.
위 모델의 핵심 가정은 다음 두 줄이다.
gain_per_win = $1,000,000 # 성공 1 건의 가치
cost_per_loss = $50,000 # 실패 1 건의 비용 (1/20)
왜 이런 비대칭이 발생하는가? 실험의 본질은 금융 옵션 (option) 과 같기 때문이다.
- 성공한 실험 — 무기한 운영되며 가치를 누적 (예: +1% 전환율 개선이 5 년간 반복 적용)
- 실패한 실험 — Treatment 그룹이 노출된 짧은 기간만의 비용 (보통 1~2 주 트래픽의 영향)
옵션의 페이오프는 비대칭이다 — 가격이 행사가 위로 올라가면 무한 이익, 아래로 떨어지면 옵션 가격만 손실. 실험도 동일하다. 좋은 결과는 무한히 활용 되고, 나쁜 결과는 즉시 종료 된다.
이 비대칭의 실무 함의:
- 많이 시도하는 것이 답 — 성공 확률 15% 는 낮아 보이지만, 옵션 비대칭으로 기대값은 +양수
- 빠른 실패 — 실패가 명확해지면 즉시 종료. 더 많은 옵션 시도를 위한 자원 회수
- 포트폴리오 균형 — incremental 만 시도하면 큰 win 이 없다. radical 도 일정 비율 필요
수학적으로, 실패 비용 \(L\) · 성공 이익 \(G\) · 성공률 \(p\) 일 때 기대 가치 \(\mathbb{E}[V] = pG - (1-p)L\). \(G/L\) 비가 클수록 \(p\) 가 작아도 양수 기대값이 유지된다. 디지털 실험은 \(G/L \approx 20\) 이라 \(p \geq 5\%\) 만 되면 양수다. 이 비율이 디지털 실험을 매력적으로 만드는 근본 동력이다.
위 모델은 신뢰 검증 부채를 가정에 넣지 않았다. 실제로 Walk 단계의 A/A·SRM 자동화가 누락되면 “성공” 으로 분류된 실험 중 일부가 false positive 이고, 출시 후 가치가 실현되지 않는다. Kohavi 의 경험치는 false positive 율이 명목 5% 가 아니라 30% 까지 치솟을 수 있다고 보고한다 (Ch.3, Ch.21).
따라서 단계 전환의 진정한 ROI 는 빈도 증가뿐 아니라 신뢰 인프라 투자의 가치 가 합쳐져야 한다.
7 관련 주제
선행 — Ch.4 시리즈
후속 — Ch.4 시리즈
관련 챕터
- F7-* — OEC 설계 (Ch.7) — Run 단계 진입 조건
- F8-* — 제도적 기억 (Ch.8) — Fly 단계 핵심
- F19-* — A/A 테스트 (Ch.19) — Walk 진입 도구
- F21-* — SRM (Ch.21) — Walk 진입 도구
다른 카테고리 연결
- Strategy Frameworks — KPI·OKR 와 OEC 의 차이, 조직 변화 관리
- Data Governance — 계측 품질·데이터 lineage 가 Walk 단계 진입 조건
- Engineering — DevOps 시리즈 — Fly 단계의 자동 ramping 은 CI/CD 통합과 분리 불가