Kwangmin Kim - Association vs Prognosis — 인과 분석과 예측 모형의 분업

1 Association vs Prognosis 의 분업

정의: 두 활용

Association (인과 분석): - “변수 X 가 결과 Y 의 원인인가?” - Confounder 통제 + DAG 분석. - 출력: Adjusted OR/HR.

Prognosis (예측 모형): - “변수 X 가 결과 Y 의 예측에 유용한가?” - 인과 무관, 예측 정확도 평가. - 출력: AUC, calibration.

(Woodward, 2014, Ch.13.2).

1.1 변수 선택 기준 차이

직관 3 단계: 변수 선택의 분업

측면	Association	Prognosis
Confounder	포함 (bias 통제)	포함 (예측 ↑)
Mediator	제외 (total effect 보존)	포함 (예측 ↑)
Collider	제외 (bias 회피)	가능 (예측 도구)
Effect modifier	Interaction 항	Interaction 항

추상 정의: Mediator 가 인과 분석에선 제외, 예측에선 포함. 같은 변수의 다른 활용.
일상어 비유: 학력-소득 분석 — 인과는 “학력 자체의 효과”, 예측은 “소득 예측에 학력 + 직업 모두 활용”.
반사실 시나리오: 변수 선택의 단일 기준 없음. 분석 목적이 변수 선택 결정.

2 Association 의 사례

사례: 흡연-폐암의 association

질문: 흡연이 폐암의 원인인가?

모형: Logistic regression with confounder.

\[\text{logit}(P(\text{cancer})) = \beta_0 + \beta_{\text{smoke}} \cdot \text{smoke} + \beta_{\text{age}} \cdot \text{age} + \beta_{\text{sex}} \cdot \text{sex}\]

OR: \(\exp(\beta_{\text{smoke}})\) — confounder 통제 후 흡연의 인과 효과 추정.

3 단계 직관:

추상 정의: \(\beta_{\text{smoke}}\) 가 인과 효과 (confounder 일정 가정).
일상어 비유: “다른 조건이 같을 때” 의 흡연 효과.
반사실 시나리오: 만약 mediator (예: 폐 기능) 까지 보정 시 흡연의 total effect ↓ — 인과 분석 부적절.

3 Prognosis 의 사례

사례: 폐암 예측 모형

질문: 환자의 5 년 폐암 발생 위험은?

모형: Logistic regression — 모든 유용한 predictor 포함.

\[\text{logit}(\hat r) = \beta_0 + \beta_{\text{smoke}} + \beta_{\text{age}} + \beta_{\text{family}} + \beta_{\text{cough}}\]

Cough 는 폐암의 mediator 일 수 있음 — 인과 분석에선 제외하지만 예측에선 강력한 predictor.

3 단계 직관:

추상 정의: Mediator 가 결과의 가까운 predictor — 예측 정확도 ↑.
일상어 비유: 시험 합격 예측에 “전 모의고사 점수” — 학습의 mediator 이지만 예측에 유용.
반사실 시나리오: Mediator 제외 시 예측 정확도 ↓. 단 인과 추정은 부정확.

4 OR 의 두 가지 해석

가정 위반: 같은 OR, 다른 의미

가설: 흡연-폐암 OR = 5.

Association 해석: 흡연이 폐암 위험을 5 배 ↑ (confounder 일정).

Prognosis 해석: 흡연 변수가 폐암 예측에 유의 — 위험 분류 도구.

3 단계 직관:

추상 정의: 같은 통계, 다른 임상 활용.
일상어 비유: 같은 측정 도구가 진단 (인과) vs 선별 (예측) 에 다른 활용.
반사실 시나리오: 분석 목적 명시 안 하면 결과 misuse — “흡연이 5 배 위험” 만으로 예측 도구로 사용 시 calibration 미평가.

5 Discrimination 의 정의

정의: Discrimination

위험 ↑ vs ↓ 그룹을 모형이 구분하는 능력.

측도: - AUC (Area Under ROC Curve). - C-statistic (Cox 의 AUC 일반화). - D statistic (Royston-Sauerbrei).

직관 3 단계: AUC 의 의미

추상 정의: 무작위 case + 무작위 control 쌍에서 case 의 score 가 control 보다 높을 확률.
일상어 비유: 시험 점수 — 합격자가 불합격자보다 높을 확률. 1.0 = 항상 정확, 0.5 = 무작위.
반사실 시나리오: AUC 0.7 = 70% 확률로 case 가 control 보다 높음. 임상에서 acceptable.

6 Threshold 와 임상 의사 결정

정의: 임상 임계값

Risk score 의 cut-point 가 처치 결정 임계값:

< 5%: 추가 검사·처치 불필요.
5~20%: 모니터링.
20%: 즉시 처치.

(예: ASCVD risk score 의 statin 권장 임계값 7.5%, 20%).

직관 3 단계: 임계값의 결정

추상 정의: 비용·이익 분석 — false positive 비용 vs false negative 비용. 임계값이 두 비용의 균형.
일상어 비유: 화재경보기의 민감도 결정 — 화재 놓치는 비용 vs false alarm 비용.
반사실 시나리오: 임계값 사후 결정 (자료 본 후) → over-fitting. 사전 정의가 표준.

7 OR 의 Prognostic 활용

가정 위반: OR 만으로 예측 모형

OR 큰 변수가 자동 좋은 predictor 아님 — Pepe et al. (2004).

3 단계 직관:

추상 정의: OR 가 인구 단위 비. AUC 가 개인 단위 분류 능력. 두 측도가 다른 dimension.
일상어 비유: 평균 차이 vs 분포 겹침 — 평균 차이 크지만 분포 많이 겹치면 분류 어려움.
반사실 시나리오: 큰 OR (예: 10) 의 변수가 AUC 0.65 일 수 있음. 변수 prevalence 가 작으면 AUC 영향 ↓.

7.1 Pepe 의 사례

사례: OR vs AUC

가설: 변수 X 의 OR = 9 (강한 association).

X prevalence = 1% → AUC 약 0.55 (작은 영향). X prevalence = 50% → AUC 약 0.85 (큰 영향).

3 단계 직관:

추상 정의: AUC 가 prevalence 와 OR 의 함수. OR 만으로 AUC 예측 안 됨.
일상어 비유: 1% 인구의 강한 위험 인자 vs 50% 인구의 약한 위험 인자 — 후자가 예측에 더 유용.
반사실 시나리오: Association 분석 (OR) 과 prognosis 분석 (AUC) 이 다른 결론 도출 가능.

8 A/B 테스트의 두 분석

사례: A/B 의 인과 vs 예측

Association: A/B 의 lift 가 인과인가? - Treatment effect 의 RR/OR. - Confounder (사용자 특성) 보정.

Prognosis: 어떤 사용자에게 효과 ↑? - HTE 분석. - Treatment × covariate interaction 의 예측력.

3 단계 직관:

추상 정의: 같은 A/B 자료의 두 분석 — 인과 (treatment 효과) vs 예측 (개인화).
일상어 비유: 약의 효과 (인과) vs 약을 누구에게 줄지 (예측).
반사실 시나리오: 인과 분석만 보면 평균 효과만, 예측 분석만 보면 누가 적합한 사용자인지만. 두 분석 모두 필요.

9 변수 선택의 인과 그래프

정의: DAG-Based Variable Selection

   X (treatment) ──→ M (mediator) ──→ Y (outcome)
              ↑                            ↑
              └──── C (confounder) ────────┘
                          ↑
                          Z (collider)

Association 분석: - Confounder C: 포함. - Mediator M: 제외 (total effect 보존). - Collider Z: 제외 (bias 회피).

Prognosis 분석: - Confounder C: 포함. - Mediator M: 포함 (예측 ↑). - Collider Z: 가능 (예측 도구).

직관 3 단계: DAG 의 활용

추상 정의: DAG 가 인과 관계의 그래프 표현. 변수 역할 (confounder, mediator, collider) 명시.
일상어 비유: 학력-소득 분석 — DAG 로 직업·경험·가정 환경 등 변수의 위치 시각.
반사실 시나리오: DAG 없이 변수 선택 → 통계 알고리즘 (stepwise) 자의성. DAG 가 인과 우선.

10 Mediator 의 처리 차이

가정 위반: Mediator 포함의 영향

Association 에서 mediator 포함: - 흡연-폐암의 mediator = “폐 기능 ↓”. - 폐 기능 보정 시 흡연 효과 ↓ — direct effect 만. - Total effect (= 진성 흡연 영향) 가림.

Prognosis 에서 mediator 포함: - 폐 기능이 강한 predictor → AUC ↑. - 인과 무관 — 예측 정확도만 평가.

3 단계 직관:

추상 정의: Mediator 가 인과 분석에서 “다리”. 분석 목적에 따라 포함 여부 결정.
일상어 비유: 학력-소득 분석에 “직업” 변수 — 인과 무시 (학력 직접 효과만), 예측 사용 (직업이 강한 predictor).
반사실 시나리오: 잘못된 변수 선택 시 결론 왜곡. Association 에 mediator 포함 = direct effect, total effect 모름.

10.1 Direct vs Indirect Effect

정의: 인과 효과의 분해

Total Effect: \(X \to Y\) 의 총 효과 (mediator 포함). Direct Effect: \(X \to Y\) 의 직접 효과 (mediator 통제). Indirect Effect: \(X \to M \to Y\) 의 매개 효과.

\[\text{Total} = \text{Direct} + \text{Indirect}\]

직관: Mediation Analysis

추상 정의: 인과 효과를 direct + indirect 로 분해. 정책 결정 시 둘 다 정량 필요.
일상어 비유: 학력 → 소득 = 학력 → 직업 → 소득 + 학력 → 소득 (직업 외 경로).
반사실 시나리오: 정책 표적 — 직접 vs 매개 경로의 정량으로 결정.

(Hernán & Robins, 2020, Ch.21 — Mediation Analysis).

11 OR vs AUC — Pepe 의 분석

사례: Pepe et al. (2004) 의 정량 분석

가설: 변수 X 의 OR 와 AUC 의 관계.

OR	X prevalence	Marginal AUC
9	1%	0.55 (작은 영향)
9	50%	0.85 (큰 영향)
3	1%	0.52
3	50%	0.66
100	1%	0.69
100	50%	0.99

3 단계 직관:

추상 정의: AUC 가 OR 와 prevalence 의 함수. OR 만으로 AUC 예측 안 됨.
일상어 비유: 시험에서 “1% 학생만 다른 답”의 영향 vs “50% 학생 다른 답”의 영향. 후자가 분류력 ↑.
반사실 시나리오: OR 큰 변수 (예: 흡연-폐암 OR 10) 라도 prevalence 낮으면 AUC 영향 작음. 흔한 변수 (BMI, age) 가 작은 OR 라도 큰 AUC 영향.

12 Q&A — Association vs Prognosis

Q1: 같은 변수가 association 과 prognosis 에 다른 결론 가능?

A: 네. 자주 발생.

3 단계 직관:

추상 정의: 변수의 인과 역할과 예측 가치가 다른 dimension.
일상어 비유: 학력 — 소득의 인과 (확실) + 예측 (유용) 모두. 직업 — 소득의 mediator (인과 분석에선 제외) + 강한 predictor (예측에 포함).
반사실 시나리오: 같은 자료의 두 분석이 다른 변수 세트 + 다른 결론. 두 분석의 의도 명시 필수.

Q2: Risk score 의 변수가 모두 인과인가?

A: 아니다. 강한 predictor 가 mediator 또는 marker 가능.

3 단계 직관:

추상 정의: Risk score 가 prognostic — 인과 무관 변수도 포함.
일상어 비유: 시험 모의고사 점수 = 학습의 mediator (학습이 점수의 원인). 모의고사 점수 자체가 본 시험 합격의 강한 predictor.
반사실 시나리오: Risk score 의 변수 인과 해석 시 함정. “이 변수 ↑ 시 위험 ↑” ≠ “이 변수 통제 시 위험 ↓”.

Q3: A/B 테스트는 association 인가 prognosis 인가?

A: 둘 다 가능. 분석 목적에 따라.

3 단계 직관:

추상 정의: A/B 의 평균 lift = treatment 의 인과 효과 (association). 사용자별 ITE 예측 = prognosis.
일상어 비유: 약 효과 (인과) vs 환자별 약 처방 결정 (예측).
반사실 시나리오: A/B 의 단순 비교 = association. HTE 분석 + risk score = prognosis.

13 결론

Association 과 prognosis 가 다른 분석 목적 + 다른 변수 선택 기준. Mediator 의 처리가 두 분석의 분업. OR 만으로 AUC 예측 안 됨 — discrimination 별도 평가. DAG 가 변수 선택의 인과 도구. 두 분석의 분업이 임상·실험 의사 결정 도구.

다음 글 (H-WOO13-3) 에서 logistic·Cox 모형으로부터 risk score 산출을 본다.

1 Association vs Prognosis 의 분업

1.1 변수 선택 기준 차이

2 Association 의 사례

3 Prognosis 의 사례

4 OR 의 두 가지 해석

5 Discrimination 의 정의

6 Threshold 와 임상 의사 결정

7 OR 의 Prognostic 활용

7.1 Pepe 의 사례

8 A/B 테스트의 두 분석

9 변수 선택의 인과 그래프

10 Mediator 의 처리 차이

10.1 Direct vs Indirect Effect

11 OR vs AUC — Pepe 의 분석

12 Q&A — Association vs Prognosis

13 결론

14 관련 주제