Kwangmin Kim - 기술 역학의 5W + So What

1 왜 5W 인가

기술 역학의 전통은 사람·장소·시간(person, place, time)을 핵심 3 요소로 삼아 왔다 (감염병 모델에서는 agent·host·environment). Schulz 와 Grimes 는 이 틀을 신문 보도의 5W로 재포장한다 — Who, What, Why, When, Where. 그리고 암묵의 6 번째 질문 “So what?”을 덧붙인다 (Schulz & Grimes, 2019, Ch.2.1).

신문 비유는 단순한 수사가 아니다. 좋은 기사는 비교군을 통제한 실험이 아니지만, 독자가 사건을 머릿속에서 재구성할 수 있도록 다섯 W 를 빠짐없이 채워야 한다. 기술 연구의 보고도 같다 — 5W 가 비어 있으면 후속 연구가 같은 사례를 추적할 수 없고, So what 이 비어 있으면 데이터의 양은 늘지만 의사 결정은 일어나지 않는다.

정의: 기술 역학의 5W + 1

좋은 기술 연구는 다음 여섯 질문에 답해야 한다 (Schulz & Grimes, 2019, Ch.2.1).

질문	의미
Who	누가 사례인가 (인구·직업·행동 특성)
What	무엇이 사례의 정의인가 (case definition)
Why	왜 발생했을 가능성이 있는가 (가설 단서)
When	언제 발생했는가 (시간 구조·잠복기·계절성)
Where	어디서 발생했는가 (지리·환경)
So what	그래서 무엇 (공중보건적·실무적 의의)

이 글은 다섯 W 각각이 무엇을 묻는가, 실패하면 어떤 오류가 나는가, IT 실험 맥락에서 어떻게 번역되는가 를 정리한다.

2 Who — 누가 사례인가

연구가 가장 먼저 답해야 할 질문은 사례 집단의 인구학적·직업적·행동적 특성이다. 연령·성별이 보편적으로 보고되지만, 그 외에도 인종·직업·여가 활동이 결정적일 수 있다 (Schulz & Grimes, 2019, Ch.2.1.1).

사례	핵심 특성	함의
정맥 혈전색전증	연령 증가에 따라 위험 점진 상승 (Puurunen et al., 2016)	인구 고령화에 따른 부담 추세 예측
남성 유방암	전체 유방암의 1% — 단, Klinefelter 증후군(47,XXY)은 위험 20 배 (Brinton et al., 2014)	“드물다” 와 “특정 집단에서 흔하다” 는 양립 가능
자궁근종	흑인 여성이 백인 여성 대비 2~3 배 (Stewart et al., 2017)	인종이 임상 가이드라인 차별화의 근거
음낭암	18 세기 굴뚝 청소부 직업적 그을음 노출 (Percival Pott)	직업역학(occupational epidemiology)의 시초
“Mad as a hatter”	19 세기 모자 산업의 수은 노출로 인한 정신증	직업 노출이 정신질환 표현형으로 드러난 사례
상업 어업 사망	직업 자체가 위험 (Byard, 2013)	직업 코드별 사고 사망률이 곧 Who

직관: Who 가 비어 있으면

“성인 100 명에게서 …” 같은 보고는 Who 의 외피만 갖추고 알맹이가 없다. 후속 연구가 같은 사례를 다시 확인하려면 어떤 인구·직업·행동 특성이 반복되어야 하는지 명시되어야 한다. IT 로그도 같다 — “사용자 1000 명” 보다 “iOS 17 / 첫 결제 24 시간 이내 / 광고 클릭 유입” 같은 세부 정의가 후속 가설을 받쳐준다.

IT 대응: 코호트 정의(cohort spec) — OS × 가입 경로 × 행동 단계 의 격자가 곧 Who. 이 격자가 흐릿하면 funnel 분석은 평균값 폭격으로 끝난다.

3 What — 무엇이 사례 정의인가

가장 자주 실패하는 질문이 What 이다. 명확하고, 구체적이며, 측정 가능한 사례 정의(case definition) 가 없으면 독자는 연구 결과를 해석할 수 없다. 어떤 진단은 명백하지만 (예: 골절), 어떤 진단은 까다롭다 — 다발성 경화증, 전신성 홍반성 루푸스, 골반 염증성 질환 등이 대표적이다 (Schulz & Grimes, 2019, Ch.2.1.2).

3.1 사례 정의의 트레이드오프

엄격성 vs 포괄성의 긴장

엄격한 기준(stringent criteria)을 쓰면 민감도(sensitivity) 는 떨어지지만 특이도(specificity) 가 올라간다.

예: 독성 쇼크 증후군(toxic shock syndrome) 은 다장기 침범을 요구한다. 이 정의는 경증 사례를 놓치지만, 다른 질환과의 혼동을 줄인다 (DeVries et al., 2011).
예: HIV 감염 사례 정의는 미국 CDC 가 수십 년에 걸쳐 반복 개정했고, 정의가 바뀔 때마다 보고된 발생률·유병률이 바뀌었다 (Schneider et al., 2008).

실무에서는 “초기·경증을 놓쳐도 되는가” 와 “혼동된 사례를 포함해도 되는가” 사이에서 선택해야 한다. 잘못된 합의(consensus or Delphi) 기반 정의가 후속 검증에서 무효화된 사례도 보고되었다 (Hadgu et al., 1986; Risser & Risser, 2009).

3.2 Why 가 비어 있으면 발생하는 오류

What 이 모호한 보고는 두 가지 다른 질환을 한 묶음으로 처리한다. 그 결과 노출-결과 연관이 희석되거나(diluted) 거짓으로 만들어진다. 후속 case-control·cohort 연구가 이 흐린 정의를 그대로 물려받으면 인과 추론 전체가 오염된다.

IT 대응: 이벤트 스키마. “결제 완료” 가 무엇인가 — 결제 페이지 도달인가, 카드 인증 통과인가, 환불 후 24 시간 이내 미발생까지 포함인가? 이 정의가 모호하면 A/B 테스트의 metric 자체가 흐려진다.

4 Why — 왜 발생했을 가능성이 있는가

기술 연구의 Why 는 인과를 검증하는 답이 아니라 가설을 생성하는 단서다. Schulz 가 인용하는 Panel 2.1 의 사례들은 모두 “관찰자의 hunch → 후속 분석 연구로 검증” 의 패턴을 따른다 (Schulz & Grimes, 2019, Ch.2.1.3).

임상 관찰 (단서)	후속 검증된 연관
젊은 여성의 간세포선종	고용량 경구피임약 노출
신생아 실명	인큐베이터 고농도 산소
젊은 남성의 카포시 육종	HIV-1 감염
직원의 간 혈관육종	산업 노출 (염화비닐)
신생아 백내장·심결손·청각장애	임신 중 풍진 감염
도공·도장공의 통풍	납 신장병

직관: Why 는 후속 연구를 끌어오는 자석

Why 가 채워진 보고는 후속 연구자에게 “이 가설을 코호트로 검증해 보라” 는 초대장 역할을 한다. 비어 있으면 보고는 박물관 진열장에 놓이고 끝난다. IT 분석 보고서의 “이 패턴이 의미하는 바: ?” 섹션이 곧 Why 다.

5 When — 언제 발생했는가

시간 구조는 인과 가설의 가장 중요한 단서 중 하나다 (Schulz & Grimes, 2019, Ch.2.1.4).

단기 잠복: 포도상구균 식중독은 노출 수 시간 안에 증상.
장기 잠복: 중피종(mesothelioma)은 석면 노출 수십 년 뒤 발현 (Plato et al., 2016).
수십 년 단위: 자궁경부암·기타 상피암은 HPV 감염 수십 년 뒤.
계절성: 폐렴·인플루엔자는 일정한 계절 패턴.
제도적 시간 패턴: 미국 교육 병원의 의원성 합병증은 7 월 (수련의 첫 부임월) 에 증가 — “July phenomenon” (Inaba et al., 2010).

직관: 시간 일치는 인과가 아니다

When 은 가설을 위한 단서이지만, 시간 일치만으로 인과를 결론내면 곧바로 post hoc ergo propter hoc 오류로 이어진다. “이후 따라서 그것 때문에” — 시간적 순서는 인과의 필요조건이지 충분조건이 아니다. 1990 년대 전자 태아 모니터링 도입과 주산기 사망률 감소가 시간 일치했다는 이유로 인과로 결론낸 사례가 대표적 실패다 (Alfirevic et al., 2017).

IT 대응: 시계열 정렬. 기능 출시일·결제 완료일·재방문일을 정렬한 funnel 은 When 의 IT 판이다. 외부 이벤트(블랙프라이데이, 명절, 경쟁사 출시)가 같은 시기에 일어나면 시간 일치는 인과 단서가 아니라 교란 신호가 된다.

6 Where — 어디서 발생했는가

지리는 환경·기후·생태·인프라의 합성 변수다 (Schulz & Grimes, 2019, Ch.2.1.5).

사례	Where 단서	가설
흑사병 (Black Plague)	설치류·곤충 매개 분포	동물원성 감염병
고대 로마 위장 기생충	공중 위생에도 불구하고 만연	위생 관행 - 기생충 생명주기 불일치 (Mitchell, 2017)
납 중독 (Flint, Michigan)	도시 수도 인프라	수도관 부식·수질 관리 실패 (Campbell et al., 2016)
말라리아	해발 고도와 역상관	매개 모기의 고도 한계
지카 바이러스	모기 분포 + 기상 패턴	El Niño 와 발생 확장 (Caminade et al., 2017)

IT 대응: 지역·기기·네트워크 환경. “한국 안드로이드 LTE 사용자에서만 결제 실패” 는 Where 가 결정적인 정보다 — 동일 기능이라도 환경 격자에 따라 결과가 갈린다.

7 So What — 그래서 무엇

5W 가 사실 묘사라면 So what 은 의의의 묘사다 (Schulz & Grimes, 2019, Ch.2.1.6). Schulz 는 다음과 같이 정리한다.

이 사건이 현재성·시의성이 있는가?
심각한가?
규모가 큰가?
사회적 함의가 넓은가?
이미 연구된 적이 있는가?

이 질문이 약한 보고에 대해 Schulz 는 신랄한 풍자를 남긴다 — “thicker curricula vitae at the expense of thinner forests” (이력서만 두꺼워지고 숲은 얇아진다). 즉, 출판 자체가 자원 낭비가 될 수 있다.

직관: So What 은 메타 질문이다

5W 는 무엇을 봤는가를 묻고, So what 은 그것을 보았다는 사실이 왜 중요한가를 묻는다. 이 메타 질문은 의학 저널의 편집장 역할을 하지만, IT 분석에서는 임원 회의의 “그래서 우리가 뭘 해야 하나” 가 같은 역할을 한다. So what 이 비어 있으면 대시보드는 화면 가득이지만 의사결정은 멈춘다.

8 6 W 통합 체크리스트

단계	질문	실패 시 결과
1	Who 가 명확한가	후속 연구가 같은 집단을 정의할 수 없음
2	What (case definition) 이 측정 가능한가	다른 질환 묶음 → 연관 희석/위조
3	Why (가설 단서) 가 명시되었는가	후속 분석 연구가 시작되지 않음
4	When (시간 구조) 이 기록되었는가	시간 일치를 인과로 오역
5	Where (환경 격자) 가 기록되었는가	외적 타당도 추정 불가
6	So what (의의) 이 명시되었는가	자원 낭비, 의사결정 미발생

9 응용: IT 분석 보고서로의 번역

역학 5W	IT 보고서 항목	실패 시 대응
Who	코호트 정의 (OS × 채널 × 행동)	평균값 폭격 → 세그먼트 분석
What	이벤트 스키마, metric 정의	흐린 metric → metric audit
Why	“이 패턴의 가설” 섹션	단순 차트 → 가설 후보 명시
When	시계열 정렬, 외부 이벤트 주석	시간 일치 → 교란 검증
Where	환경 격자 (지역·기기·네트워크)	평균치 → 격자별 분리
So What	임원 의사결정 문항	화면만 가득 → “다음 액션” 추가

이 매핑은 단순 비유가 아니라 분석 보고서의 품질 체크리스트로 활용될 수 있다. 6 W 중 하나라도 비면, 보고서의 인과적 주장은 비례하여 약해진다.

10 결론

5W + So what 은 단순한 정리 도구가 아니라 기술 연구의 최소 표준이다. 이 여섯 질문에 답하지 못하는 보고는 후속 연구를 끌어오지 못하고 의사결정을 돕지도 못한다. 다음 글(B3)에서는 이 5W 가 구체적으로 어떻게 다섯 가지 기술 연구 유형(Case Report, Case-Series, Cross-Sectional, Surveillance, Ecological)에 구현되는지 본다.

11 관련 주제

선행

기술 연구 개관 — 무엇을 할 수 있고 무엇을 할 수 없는가

후속

다른 카테고리 연결

전후 비교(Before-and-After)가 위험한 이유 — When 의 시간 일치를 인과로 오역하는 IT 판