1 Association vs Prognosis 의 분업
Association (인과 분석): - “변수 X 가 결과 Y 의 원인인가?” - Confounder 통제 + DAG 분석. - 출력: Adjusted OR/HR.
Prognosis (예측 모형): - “변수 X 가 결과 Y 의 예측에 유용한가?” - 인과 무관, 예측 정확도 평가. - 출력: AUC, calibration.
(Woodward, 2014, Ch.13.2).
1.1 변수 선택 기준 차이
| 측면 | Association | Prognosis |
|---|---|---|
| Confounder | 포함 (bias 통제) | 포함 (예측 ↑) |
| Mediator | 제외 (total effect 보존) | 포함 (예측 ↑) |
| Collider | 제외 (bias 회피) | 가능 (예측 도구) |
| Effect modifier | Interaction 항 | Interaction 항 |
- 추상 정의: Mediator 가 인과 분석에선 제외, 예측에선 포함. 같은 변수의 다른 활용.
- 일상어 비유: 학력-소득 분석 — 인과는 “학력 자체의 효과”, 예측은 “소득 예측에 학력 + 직업 모두 활용”.
- 반사실 시나리오: 변수 선택의 단일 기준 없음. 분석 목적이 변수 선택 결정.
2 Association 의 사례
질문: 흡연이 폐암의 원인인가?
모형: Logistic regression with confounder.
\[\text{logit}(P(\text{cancer})) = \beta_0 + \beta_{\text{smoke}} \cdot \text{smoke} + \beta_{\text{age}} \cdot \text{age} + \beta_{\text{sex}} \cdot \text{sex}\]
OR: \(\exp(\beta_{\text{smoke}})\) — confounder 통제 후 흡연의 인과 효과 추정.
3 단계 직관:
- 추상 정의: \(\beta_{\text{smoke}}\) 가 인과 효과 (confounder 일정 가정).
- 일상어 비유: “다른 조건이 같을 때” 의 흡연 효과.
- 반사실 시나리오: 만약 mediator (예: 폐 기능) 까지 보정 시 흡연의 total effect ↓ — 인과 분석 부적절.
3 Prognosis 의 사례
질문: 환자의 5 년 폐암 발생 위험은?
모형: Logistic regression — 모든 유용한 predictor 포함.
\[\text{logit}(\hat r) = \beta_0 + \beta_{\text{smoke}} + \beta_{\text{age}} + \beta_{\text{family}} + \beta_{\text{cough}}\]
Cough 는 폐암의 mediator 일 수 있음 — 인과 분석에선 제외하지만 예측에선 강력한 predictor.
3 단계 직관:
- 추상 정의: Mediator 가 결과의 가까운 predictor — 예측 정확도 ↑.
- 일상어 비유: 시험 합격 예측에 “전 모의고사 점수” — 학습의 mediator 이지만 예측에 유용.
- 반사실 시나리오: Mediator 제외 시 예측 정확도 ↓. 단 인과 추정은 부정확.
4 OR 의 두 가지 해석
가설: 흡연-폐암 OR = 5.
Association 해석: 흡연이 폐암 위험을 5 배 ↑ (confounder 일정).
Prognosis 해석: 흡연 변수가 폐암 예측에 유의 — 위험 분류 도구.
3 단계 직관:
- 추상 정의: 같은 통계, 다른 임상 활용.
- 일상어 비유: 같은 측정 도구가 진단 (인과) vs 선별 (예측) 에 다른 활용.
- 반사실 시나리오: 분석 목적 명시 안 하면 결과 misuse — “흡연이 5 배 위험” 만으로 예측 도구로 사용 시 calibration 미평가.
5 Discrimination 의 정의
위험 ↑ vs ↓ 그룹을 모형이 구분하는 능력.
측도: - AUC (Area Under ROC Curve). - C-statistic (Cox 의 AUC 일반화). - D statistic (Royston-Sauerbrei).
- 추상 정의: 무작위 case + 무작위 control 쌍에서 case 의 score 가 control 보다 높을 확률.
- 일상어 비유: 시험 점수 — 합격자가 불합격자보다 높을 확률. 1.0 = 항상 정확, 0.5 = 무작위.
- 반사실 시나리오: AUC 0.7 = 70% 확률로 case 가 control 보다 높음. 임상에서 acceptable.
6 Threshold 와 임상 의사 결정
Risk score 의 cut-point 가 처치 결정 임계값:
- < 5%: 추가 검사·처치 불필요.
- 5~20%: 모니터링.
20%: 즉시 처치.
(예: ASCVD risk score 의 statin 권장 임계값 7.5%, 20%).
- 추상 정의: 비용·이익 분석 — false positive 비용 vs false negative 비용. 임계값이 두 비용의 균형.
- 일상어 비유: 화재경보기의 민감도 결정 — 화재 놓치는 비용 vs false alarm 비용.
- 반사실 시나리오: 임계값 사후 결정 (자료 본 후) → over-fitting. 사전 정의가 표준.
7 OR 의 Prognostic 활용
OR 큰 변수가 자동 좋은 predictor 아님 — Pepe et al. (2004).
3 단계 직관:
- 추상 정의: OR 가 인구 단위 비. AUC 가 개인 단위 분류 능력. 두 측도가 다른 dimension.
- 일상어 비유: 평균 차이 vs 분포 겹침 — 평균 차이 크지만 분포 많이 겹치면 분류 어려움.
- 반사실 시나리오: 큰 OR (예: 10) 의 변수가 AUC 0.65 일 수 있음. 변수 prevalence 가 작으면 AUC 영향 ↓.
7.1 Pepe 의 사례
가설: 변수 X 의 OR = 9 (강한 association).
X prevalence = 1% → AUC 약 0.55 (작은 영향). X prevalence = 50% → AUC 약 0.85 (큰 영향).
3 단계 직관:
- 추상 정의: AUC 가 prevalence 와 OR 의 함수. OR 만으로 AUC 예측 안 됨.
- 일상어 비유: 1% 인구의 강한 위험 인자 vs 50% 인구의 약한 위험 인자 — 후자가 예측에 더 유용.
- 반사실 시나리오: Association 분석 (OR) 과 prognosis 분석 (AUC) 이 다른 결론 도출 가능.
8 A/B 테스트의 두 분석
Association: A/B 의 lift 가 인과인가? - Treatment effect 의 RR/OR. - Confounder (사용자 특성) 보정.
Prognosis: 어떤 사용자에게 효과 ↑? - HTE 분석. - Treatment × covariate interaction 의 예측력.
3 단계 직관:
- 추상 정의: 같은 A/B 자료의 두 분석 — 인과 (treatment 효과) vs 예측 (개인화).
- 일상어 비유: 약의 효과 (인과) vs 약을 누구에게 줄지 (예측).
- 반사실 시나리오: 인과 분석만 보면 평균 효과만, 예측 분석만 보면 누가 적합한 사용자인지만. 두 분석 모두 필요.
9 변수 선택의 인과 그래프
X (treatment) ──→ M (mediator) ──→ Y (outcome)
↑ ↑
└──── C (confounder) ────────┘
↑
Z (collider)
Association 분석: - Confounder C: 포함. - Mediator M: 제외 (total effect 보존). - Collider Z: 제외 (bias 회피).
Prognosis 분석: - Confounder C: 포함. - Mediator M: 포함 (예측 ↑). - Collider Z: 가능 (예측 도구).
- 추상 정의: DAG 가 인과 관계의 그래프 표현. 변수 역할 (confounder, mediator, collider) 명시.
- 일상어 비유: 학력-소득 분석 — DAG 로 직업·경험·가정 환경 등 변수의 위치 시각.
- 반사실 시나리오: DAG 없이 변수 선택 → 통계 알고리즘 (stepwise) 자의성. DAG 가 인과 우선.
10 Mediator 의 처리 차이
Association 에서 mediator 포함: - 흡연-폐암의 mediator = “폐 기능 ↓”. - 폐 기능 보정 시 흡연 효과 ↓ — direct effect 만. - Total effect (= 진성 흡연 영향) 가림.
Prognosis 에서 mediator 포함: - 폐 기능이 강한 predictor → AUC ↑. - 인과 무관 — 예측 정확도만 평가.
3 단계 직관:
- 추상 정의: Mediator 가 인과 분석에서 “다리”. 분석 목적에 따라 포함 여부 결정.
- 일상어 비유: 학력-소득 분석에 “직업” 변수 — 인과 무시 (학력 직접 효과만), 예측 사용 (직업이 강한 predictor).
- 반사실 시나리오: 잘못된 변수 선택 시 결론 왜곡. Association 에 mediator 포함 = direct effect, total effect 모름.
10.1 Direct vs Indirect Effect
Total Effect: \(X \to Y\) 의 총 효과 (mediator 포함). Direct Effect: \(X \to Y\) 의 직접 효과 (mediator 통제). Indirect Effect: \(X \to M \to Y\) 의 매개 효과.
\[\text{Total} = \text{Direct} + \text{Indirect}\]
- 추상 정의: 인과 효과를 direct + indirect 로 분해. 정책 결정 시 둘 다 정량 필요.
- 일상어 비유: 학력 → 소득 = 학력 → 직업 → 소득 + 학력 → 소득 (직업 외 경로).
- 반사실 시나리오: 정책 표적 — 직접 vs 매개 경로의 정량으로 결정.
(Hernán & Robins, 2020, Ch.21 — Mediation Analysis).
11 OR vs AUC — Pepe 의 분석
가설: 변수 X 의 OR 와 AUC 의 관계.
| OR | X prevalence | Marginal AUC |
|---|---|---|
| 9 | 1% | 0.55 (작은 영향) |
| 9 | 50% | 0.85 (큰 영향) |
| 3 | 1% | 0.52 |
| 3 | 50% | 0.66 |
| 100 | 1% | 0.69 |
| 100 | 50% | 0.99 |
3 단계 직관:
- 추상 정의: AUC 가 OR 와 prevalence 의 함수. OR 만으로 AUC 예측 안 됨.
- 일상어 비유: 시험에서 “1% 학생만 다른 답”의 영향 vs “50% 학생 다른 답”의 영향. 후자가 분류력 ↑.
- 반사실 시나리오: OR 큰 변수 (예: 흡연-폐암 OR 10) 라도 prevalence 낮으면 AUC 영향 작음. 흔한 변수 (BMI, age) 가 작은 OR 라도 큰 AUC 영향.
12 Q&A — Association vs Prognosis
A: 네. 자주 발생.
3 단계 직관:
- 추상 정의: 변수의 인과 역할과 예측 가치가 다른 dimension.
- 일상어 비유: 학력 — 소득의 인과 (확실) + 예측 (유용) 모두. 직업 — 소득의 mediator (인과 분석에선 제외) + 강한 predictor (예측에 포함).
- 반사실 시나리오: 같은 자료의 두 분석이 다른 변수 세트 + 다른 결론. 두 분석의 의도 명시 필수.
A: 아니다. 강한 predictor 가 mediator 또는 marker 가능.
3 단계 직관:
- 추상 정의: Risk score 가 prognostic — 인과 무관 변수도 포함.
- 일상어 비유: 시험 모의고사 점수 = 학습의 mediator (학습이 점수의 원인). 모의고사 점수 자체가 본 시험 합격의 강한 predictor.
- 반사실 시나리오: Risk score 의 변수 인과 해석 시 함정. “이 변수 ↑ 시 위험 ↑” ≠ “이 변수 통제 시 위험 ↓”.
A: 둘 다 가능. 분석 목적에 따라.
3 단계 직관:
- 추상 정의: A/B 의 평균 lift = treatment 의 인과 효과 (association). 사용자별 ITE 예측 = prognosis.
- 일상어 비유: 약 효과 (인과) vs 환자별 약 처방 결정 (예측).
- 반사실 시나리오: A/B 의 단순 비교 = association. HTE 분석 + risk score = prognosis.
13 결론
Association 과 prognosis 가 다른 분석 목적 + 다른 변수 선택 기준. Mediator 의 처리가 두 분석의 분업. OR 만으로 AUC 예측 안 됨 — discrimination 별도 평가. DAG 가 변수 선택의 인과 도구. 두 분석의 분업이 임상·실험 의사 결정 도구.
다음 글 (H-WOO13-3) 에서 logistic·Cox 모형으로부터 risk score 산출을 본다.