1 분류 축: 개인 단위 vs 집단 단위
기술 연구의 5 유형은 추론 단위(unit of inference) 에 따라 두 군으로 갈린다 (Schulz & Grimes, 2019, Ch.2.2).
기술 연구 (Descriptive Study)
│
├── 개인 단위 (Individuals)
│ ├── Case Report : 단일 사례 보고 (N=1)
│ ├── Case-Series Report : 동일 특성 사례 묶음 (N=k)
│ ├── Cross-Sectional : 인구 표본의 1 시점 단면 (prevalence)
│ └── Surveillance : 인구 집단의 지속 감시 (active vs passive)
│
└── 집단 단위 (Populations)
└── Ecological Correlational : 집단 평균 노출-결과 상관
이 분류 축은 단순한 정리가 아니다 — 개인 단위 결론을 집단 평균에서 끌어내면 ecological fallacy, 집단 평균 결론을 개인 단위에서 끌어내면 atomistic fallacy 가 된다. 5 유형 각각의 강점·한계는 이 추론 단위에서 직접 파생된다.
연구의 결론이 누구·무엇에 대한 진술인가를 가리키는 단위. 개인 단위 연구는 “이 사람은 어떻다”를, 집단 단위 연구는 “이 집단은 어떻다”를 진술한다. 두 단위의 결론은 서로 자동 변환되지 않는다.
2 Case Report — 단일 사례 보고
2.1 정의와 위치
Case report 는 의학 문헌의 최소 발표 단위다 (Schulz & Grimes, 2019, Ch.2.2.1). 관찰력 있는 임상의가 드문 질환 또는 새 연관을 보고하면, 후속 연구가 그 단서를 받아 본격 검증에 들어간다.
대표 흐름: 임상 관찰 → case report → case-control / cohort → RCT.
2.2 사례
- 간세포선종 ↔︎ 경구피임약 (Schenken, 1976) — 단일 보고 → 대규모 case-control 로 확인 (Rooks et al., 1979).
- 시판된 노트북의 음낭 화상 (Ostenson, 2002) — 의학 문헌의 풍자적 면을 보여주는 사례.
- 조거의 유두 마찰 (Levit, 1977) — 단일 N 의 가벼운 임상 관찰.
2.3 구조적 한계
| 한계 | 의미 |
|---|---|
| N=1 | 무작위 변이와 진성 신호를 분리할 수 없음 |
| 분모 미상 | “얼마나 흔한가” 를 추정 불가 |
| 비교군 없음 | 노출과 결과의 연관을 추정 불가 |
| 보고 편의(reporting bias) | “이상한 사례”만 출판되는 자기선택 |
2.4 표준화 시도 — CARE 가이드라인
일관성 부족을 보정하기 위해 CARE (Case Report) 가이드라인이 13 점 체크리스트로 개발되었고 (Gagnier et al., 2014), 외과 분야는 SCARE 로 별도 표준이 있다 (Agha et al., 2016). CONSORT (RCT), STROBE (관찰연구) 와 같은 계열의 보고 표준이다.
서비스 장애 1 건 — 1 명의 SRE 가 정리하는 사후분석 보고서가 case report 의 IT 판이다. CARE 와 같은 표준으로 RCA 템플릿(증상·타임라인·영향·근본원인·후속조치)이 발전했고, 단일 보고 자체로는 일반화 안 되지만, 같은 패턴이 반복되면 case-series 로 묶인다.
3 Case-Series Report — 사례 묶음
3.1 정의
Case-series 는 “공통 특성을 가진 사례들을 한 보고로 모은 것”이다 (Porta, 2014). 단기간 유사 사례 클러스터가 등장하면 신종 유행의 신호 가 된다 (Schulz & Grimes, 2019, Ch.2.2.2).
3.2 사례 — AIDS 의 인지
1981 년 미국 LA 의 동성애 남성 집단에서 폐포자충 폐렴(Pneumocystis pneumonia) 클러스터가 보고되었다 (CDC, 1981). 이 case-series 가 북미 의학계에 AIDS 유행의 신호를 보냈고, HIV-1 발견의 출발점이 되었다.
3.3 Cohort study 와의 경계
Schulz 는 Dekkers et al. (2012) 와 Esene et al. (2014) 의 정의를 인용한다.
| 구분 | Case-Series | Cohort |
|---|---|---|
| 표본 추출 기준 | 결과(outcome) 기준 (노출 고려 여부 무관) | 노출(exposure) 기준 |
| 추적 | 일회성 단면 또는 짧은 회고 | outcome 까지 추적 |
| 위험도 산출 | 절대 위험 산출 불가 | 절대 위험·발생률 산출 가능 |
| 비교군 | 일반적으로 없음 | 정의에 따라 (Dekkers 견해는 비교군이 필수 아님) |
이 경계는 학자마다 견해가 다르며, 외과 분야는 PROCESS 가이드라인으로 case-series 보고 표준을 별도 마련했다 (Agha et al., 2016).
3.4 IT 대응
장애 1 건 → 일회성, 같은 오류 코드의 장애 클러스터 → 한 분기 보고서로 묶임. “이 클러스터가 무엇을 시사하는가” 가 곧 case-series 의 가설 생성 기능과 같다.
4 Cross-Sectional (Prevalence) Studies — 단면 연구
4.1 정의
특정 시점에 정의된 인구에서 노출과 결과를 동시에 측정하는 연구 (Porta, 2014; Schulz & Grimes, 2019, Ch.2.2.3). 측정 지표는 발생률(incidence) 이 아니라 유병률(prevalence) 이다.
특정 시점에 인구 중 질병을 가진 비율.
\[ \text{Prevalence} = \frac{\text{유병자 수 (시점 t)}}{\text{인구 (시점 t)}} \]
발생률(incidence)은 새로 발생한 사례 / 위험 인구 / 단위 시간 이라는 점에서 분모·분자·시간 차원이 모두 다르다.
4.2 사례
- 미국 NHIS (Health Interview Survey)·NHANES (Health and Nutrition Examination Survey) — 연방 정부의 정기 인구 건강 조사.
- 푸에르토리코 제약 공장 — 여성형 유방(gynaecomastia) 유병률이 높음을 cross-sectional 로 확인 → 대기 에스트로겐 분진 가설 → 분진 통제 후 유행 소멸 (Harrington et al., 1978).
4.3 Case-control 의 인구판 하이브리드
Schulz 는 cross-sectional 을 cohort·case-control 과 구별하면서도, 그 성격을 “case-control 의 인구판 하이브리드” 로 묘사한다 (Schulz & Grimes, 2019, Ch.2.2.3).
| 측면 | Cross-Sectional | Cohort | Case-Control |
|---|---|---|---|
| 시간 측정 | 1 시점 | 노출 → 결과 추적 | 결과 → 노출 회고 |
| 비용 | 작음 | 큼 | 중간 |
| 손실(loss to follow-up) | 없음 | 있음 | 없음 |
| 시간 선후 식별 | 불가 (예외: sex, blood type 같은 영구 노출) | 가능 | 어려움 |
| 대표 측정 | Prevalence | Incidence, Risk | OR |
Cross-sectional 은 “지금 이 사람이 흡연자인가” 와 “지금 이 사람이 만성 폐쇄성 폐질환자인가” 를 같은 시점에 묻는다. 그런데 흡연이 먼저인가, 질환 진단 후 흡연이 시작된 것인가? 불명확하다. 시간 선후가 명백한 경우(성별·혈액형 같은 출생 결정 노출)가 아니면 인과 방향이 결정되지 않는다.
이것이 cross-sectional 이 가설 생성 단계에 머무는 이유다.
4.4 IT 대응
특정 날짜의 사용자 코호트 스냅샷, 한 시점의 KPI 분포, 설문 조사 1 회 — 모두 cross-sectional 의 IT 판이다. “활성 사용자의 60% 가 다크모드 사용 + 60% 가 결제 완료” 는 인과로 옮길 수 없다.
5 Surveillance — 지속 감시
5.1 정의
“인구에 대한 watchfulness”. 보다 공식적으로는 체계적이고 지속적인 데이터 수집·분석·해석 + 적시의 결과 배포 + 알 권리가 있는 자에게의 피드백 으로 정의된다 (Porta, 2014; Schulz & Grimes, 2019, Ch.2.2.4).
핵심은 피드백 루프(servomechanism) 다. 데이터 수집만으로는 surveillance 가 아니다 — 수집된 데이터가 의사결정자에게 도달하고 행동으로 이어져야 한다.
5.2 Active vs Passive
| 구분 | Active Surveillance | Passive Surveillance |
|---|---|---|
| 자료원 | 능동적 사례 탐색 | 사망진단서·일상 보고 |
| Sensitivity | 높음 | 낮음 |
| 비용 | 큼 | 작음 |
필리핀 뎅기열 사례: 능동 감시로 측정한 누적 발생률이 수동 감시 대비 5 배 높았다 (Undurraga et al., 2017). 즉, 수동 감시는 진성 부담의 1/5 만 포착한다.
병원 패혈성 수혈 반응 사례 (Hong et al., 2016): 7 년간 수혈된 혈소판 51,440 단위 중 능동 감시로 검출한 오염 산물 유병률 \(389/10^6\) . 수동 감시는 패혈성 반응 5 명 중 0 명을 발견했고, 반대로 수동 감시가 보고한 284 건은 단 한 건도 오염 혈소판을 받지 않았다 — sensitivity 와 specificity 가 모두 낮았다.
5.3 천연두 박멸의 사례
Surveillance + containment 는 1980 년 천연두 박멸의 핵심 방법론이었다 (Henderson & Klepac, 2013). 비인간 매개체가 없었기에 surveillance 가 인구에서의 사례 0 도달을 추적하는 것만으로 박멸이 가능했다. 2014 년 기준 6 개 WHO 지역 중 4 개가 폴리오 청정 인증, 2011 년 우역(rinderpest) 박멸, 기니충(dracunculiasis) 박멸 임박 — 모두 surveillance 인프라의 결과다.
5.4 IT 대응
실시간 KPI 대시보드, SLO 알람, 이상 탐지 시스템. Active vs passive 구분이 IT 에도 그대로 적용된다 — 수동 모니터링(에러 보고를 기다림)은 sensitivity 가 낮고, 능동 모니터링(synthetic transaction, canary deploy)은 sensitivity 가 높다.
6 Ecological Correlational Studies — 집단 단위 상관
6.1 정의
집단(populations) 간 노출과 결과의 상관을 본다 (Schulz & Grimes, 2019, Ch.2.2.5). 측정 도구는 상관계수 \(r\) 이며, 노출-결과의 선형성을 본다.
6.2 사례
- 국가별 1 인당 담배 판매량 ↔︎ 관상동맥 질환률 — 고전적 ecological 상관.
- 미국 카운티별 해발 고도 ↔︎ 심장병 사망률 — 고도가 높을수록 사망률 낮음 (Hart, 2015). 의미는 불명확.
- 서유럽 statin 사용 ↔︎ 관상동맥 사망률 — 상관 없음 (Vancheri et al., 2016).
- 국가별 경구피임약 사용 ↔︎ 난소암 발생률 — 역상관 (개별 분석 연구와 부합) (Iversen et al., 2017).
6.3 Ecological Fallacy
집단 평균에서 관찰된 상관을 개인 수준 인과로 옮기면 발생하는 오류 (Porta, 2014).
위성 영상으로 측정한 카운티 야간 조명 강도와 유방암 발생률의 상관을 보고한 ecological 연구가 “전기 조명이 유방암 부담의 일부를 설명할 가능성을 지지한다” 고 결론냈다 (Portnov et al., 2016). Schulz 는 신랄하게 응수한다 — “유방을 보호하기 위해 가로등을 끄기 전에 더 좋은 증거가 필요하다.”
이 예가 ecological fallacy 의 전형이다. 조명이 강한 카운티는 도시화·소득·검진 접근성이 모두 높아 유방암 진단율 자체가 높을 수 있다. 개인의 야간 조명 노출과 개인의 유방암 발생을 연결한 데이터는 없다.
6.4 한계
| 한계 | 영향 |
|---|---|
| 개인 수준 노출-결과 결합 불가 | Ecological fallacy 위험 |
| 교란 통제 곤란 | 도시화·소득·접근성이 함께 움직임 |
| 측정 단위 불일치 | 노출 측정 단위(국가별)와 결과 측정 단위(개인별)가 어긋남 |
6.5 IT 대응
지역·국가별 평균 지표 비교, 시장 단위 회귀. “이 지역 사용자의 평균 결제율이 높다 → 이 지역 광고가 효과적” 은 ecological 추론이며 ecological fallacy 위험을 동반한다. 개인 단위 인과 검증은 별도 A/B 테스트가 필요하다.
7 5 유형 통합 비교표
| 유형 | 추론 단위 | 시점 | 비교군 | 시간 선후 | 비용 | 주된 활용 |
|---|---|---|---|---|---|---|
| Case Report | 개인 1 명 | 1 회 | 없음 | 회고 | 매우 작음 | 신종 사례 신호 |
| Case-Series | 개인 N 명 | 1 회 또는 짧은 추적 | 없음 | 회고 | 작음 | 클러스터 신호, 가설 생성 |
| Cross-Sectional | 인구 표본 | 1 시점 | 없음 (또는 동일 시점 이질군) | 불가 (예외: 영구 노출) | 작음 | 유병률 추정 |
| Surveillance | 인구 집단 | 지속 | 없음 (베이스라인 비교 가능) | 추세 가능 | 큼 (active) | 추세·박멸·조기 경보 |
| Ecological | 인구 집단 평균 | 다양 | 집단 단위 | 경우에 따라 | 작음 (기존 자료 활용) | 노출-결과 상관 hunch |
기술 연구 5 유형은 모두 가설 생성에 머문다. 가설을 검증으로 옮기려면:
- Case Report·Case-Series → Case-control (사례를 그대로 case 군으로 활용 가능)
- Cross-Sectional → Cohort (시간 선후 확보)
- Surveillance → 자연 실험 또는 준실험 설계 (정책 도입 전후)
- Ecological → 개인 수준 cohort/case-control (Ecological fallacy 회피)
이 도약이 곧 비교군의 도입이며, 인과 추론의 출발선이다.
8 결론
5 유형은 추론 단위(개인 vs 집단) 와 시간 구조(시점·지속·회고) 의 격자에 따라 갈린다. 각 유형은 가설 생성에는 강하지만 인과 검증에는 약하며, 다음 단계의 분석 연구로 도약하기 위한 발판 역할을 한다. 후속 글(B4)에서는 이 5 유형을 활용한 세 가지 핵심 use case (Trend Analysis · Planning · Clues About Cause) 와 Overstepping the Data 위험을 본다.
9 관련 주제
선행
후속
- 기술 연구의 활용·장단점·데이터 초월 위험
- 관찰 연구 설계: 코호트, 케이스-컨트롤, 단면 연구 — 비교군이 추가된 분석 연구로의 도약