두 이항 확률 비교 · 여러 2x2 표 결합 · Ille-et-Vilaine 식도암 연구 (McCullagh §7.4)
조건부 우도 이론을 이항 자료에 적용한다. 단일 2x2 표에서 프로파일 이탈도와 조건부 이탈도를 비교하고, 여러 층화 표를 Mantel-Haenszel 검정으로 결합한 뒤, Ille-et-Vilaine 식도암 사례-대조 연구로 실전 적용을 시연한다.
Statistics
GLM
Experimentation
Epidemiology
저자
Kwangmin Kim
공개
2026년 04월 18일
1 이 장의 위치
Ch.7 조건부 우도(conditional likelihood) 이론의 핵심 응용이다. §7.2에서 장해 모수(nuisance parameter)를 소거하는 일반 원리를 세웠고, §7.3에서 그 도구인 초기하분포를 정리했다. 이제 §7.4에서는 이항 자료(binary data)라는 가장 빈번한 실전 무대에 그 도구를 배치한다.
핵심 질문은 하나다: “처치군과 대조군의 성공 확률이 다른가?” 이 질문에 답하는 세 가지 시나리오를 다룬다.
절
시나리오
핵심 도구
§7.4.1
단일 \(2 \times 2\) 표
프로파일 이탈도 vs 조건부 이탈도
§7.4.2
여러 \(2 \times 2\) 표 결합
Mantel-Haenszel 검정
§7.4.3
Ille-et-Vilaine 식도암
층화 조건부 로그선형 회귀
2 두 이항 확률의 비교 (§7.4.1)
2.1 설정과 자료
임상시험에서 처치군(treatment)과 대조군(control) 각각에 대해 성공/실패를 관측했다고 하자. McCullagh는 의도적으로 아주 작은 표본을 사용한다 — 이 규모에서 무조건부 MLE와 조건부 MLE의 차이가 극명하게 드러나기 때문이다.
Table 7.1 — 임상시험 가상 자료
성공
실패
합계
Treatment
\(Y_1 = 2\)
1
\(m_1 = 3\)
Control
\(Y_2 = 1\)
3
\(m_2 = 4\)
합계
\(Y_\bullet = 3\)
4
\(m_\bullet = 7\)
직관: 처치군 3명 중 2명이 성공(67%), 대조군 4명 중 1명이 성공(25%). 표면적으로 처치군이 나아 보이지만, 표본이 극도로 작아 이 차이를 얼마나 신뢰할 수 있는지가 문제다.
직관: 왜 확률 차이 \(\pi_1 - \pi_2\) 가 아니라 로그 오즈비 \(\Delta\) 를 사용하는가? 확률 차이는 기저 성공률에 따라 같은 처치 효과도 다른 값을 가진다(대조군 성공률이 10%일 때 20%p 개선과 80%일 때 20%p 개선은 질적으로 다르다). 로그 오즈비는 기저율에 상대적으로 안정적이며, 이것이 바로 다중 센터 결합(§7.4.2)의 전제가 된다.
2.3 무조건부 접근: 프로파일 이탈도
Ch.4의 표준 이항 GLM 적합 방법으로 \((\lambda, \Delta)\) 를 동시에 추정한다. MLE는 교차비(cross-ratio)로 직접 계산된다:
여기서 \(\hat{\lambda}_\Delta\) 는 \(\Delta\) 를 고정했을 때 \(\lambda\) 의 MLE이다.
직관 — 프로파일 이탈도가 측정하는 것.\(\hat\lambda_\Delta\) 는 “주어진 \(\Delta\) 에서 최선의 \(\lambda\)” 이므로, \(l(\Delta, \hat\lambda_\Delta)\) 는 \(\Delta\) 를 그 값으로 강제했을 때 도달할 수 있는 최대 우도 다. 이를 전역 최대 \(l(\hat\Delta, \hat\lambda)\) 와 비교한 2배가 \(D(y; \Delta)\) — 즉 “\(\Delta\) 를 이 값으로 고정하면 우도가 얼마나 손상되는가” 의 측정량이다. 값이 0 에 가까우면 \(\Delta\) 가 데이터와 잘 맞고, 커질수록 어긋난다. 우도비 검정의 기본 원리와 같으므로 귀무가설 하에서 점근적으로 \(\chi^2_1\) 을 따른다. 명목 90% 대표본 신뢰구간은
\(P_0(\psi)\) 의 각 항은 “\(Y_1 = t\) 인 경우의 수 \(\times\) 가중치 \(\psi^t\)”이다. \(\psi = 1\)(처치 효과 없음)이면 순수 조합론적 가중치만 남아 중심 초기하분포가 되고, \(\psi > 1\) 이면 큰 \(t\) 에 더 많은 가중치가 실려 분포가 오른쪽으로 기울어진다.
일반적으로 \(|\hat{\Delta}_c| \leq |\hat{\Delta}|\) 이며, 등호는 \(\Delta = 0\) 에서만 성립한다. 즉 조건부 MLE는 원점 쪽으로 수축(shrinkage toward zero)한다.
직관: 무조건부 MLE는 \(\lambda\) 와 \(\Delta\) 를 동시에 최적화하므로 표본 변동에 과적합(overfit)되는 경향이 있다. 조건부 추정은 \(Y_\bullet\) 을 고정하여 정보 일부를 “사용하지 않으므로” 과적합이 줄어든다. 표본이 작을수록 이 수축 효과가 두드러진다.
프로파일 이탈도와 조건부 이탈도를 같은 축에 그리면 \(\Delta\) 가 클 때 두 곡선이 현저히 갈라진다. 프로파일 이탈도는 더 넓은 신뢰구간을 주고, 조건부 이탈도는 더 보수적(좁은)이다.
3 여러 \(2 \times 2\) 표의 결합 (§7.4.2)
3.1 다중 센터 임상시험의 모형
실전에서는 하나의 \(2 \times 2\) 표가 아니라 \(n\) 개 센터(층)에서 동시에 자료를 수집한다. 센터 \(i\) 에서의 성공 확률을
\[
\operatorname{logit} \pi_{1i} = \lambda_i + \Delta, \qquad
\operatorname{logit} \pi_{2i} = \lambda_i, \qquad i = 1, \ldots, n
\]
으로 모형화한다.
핵심 가정: 로그 오즈비 \(\Delta\) 는 모든 센터에서 동일하지만, 기저 성공률 \(\lambda_i\) 는 센터마다 다를 수 있다. 이는 센터 간 환자 특성, 의료 환경, 지역 차이를 허용하면서도 처치 효과의 방향과 크기는 일관되다고 보는 것이다.
3.2 Neyman-Scott 문제의 재등장
이 모형에는 \(n + 1\) 개의 모수 \((\lambda_1, \ldots, \lambda_n, \Delta)\) 가 있고, 관측값은 \(2n\) 개(각 센터에서 이항 비율 2개)이다. 센터 수 \(n\) 이 증가하면 모수도 함께 증가하므로 Neyman-Scott 문제(§7.2.2)가 발생한다: 무조건부 MLE의 일치성이 보장되지 않는다.
직관: 센터당 소수의 환자만 있으면 각 \(\hat{\lambda}_i\) 의 추정 오차가 크고, 그 오차가 \(\hat{\Delta}\) 의 추정에 누적된다. 센터 수가 아무리 많아도 각 \(\hat{\lambda}_i\) 는 나아지지 않으므로 \(\hat{\Delta}\) 도 일치추정량이 되지 못한다. 이것이 조건부 우도를 사용해야 하는 근본 이유이다.
여기서 \(P_0(\cdot;\, m_{1i}, m_{2i}, y_{\cdot i})\) 는 센터 \(i\) 의 주변 합계에 따라 결정되는 정규화 다항식이다.
직관: \(n\) 개의 장해 모수 \(\lambda_1, \ldots, \lambda_n\) 이 모두 사라지고 관심 모수 \(\Delta\) 하나만 남았다. 각 센터가 독립적으로 “표본 크기는 작지만 치우치지 않은” \(\Delta\) 정보를 제공하고, 그것들을 합산하면 전체적으로 충분한 Fisher 정보가 확보된다.
3.4 Mantel-Haenszel 검정
\(H_0: \Delta = 0\)(처치 효과 없음)의 검정에서 조건부 우도의 스코어 통계량을 사용한다.
이고 근사적으로 \(Z^{-} \sim N(0, 1)\) 이다. 단측 유의수준은 \(1 - \Phi(Z^{-})\) 이다.
Mantel-Haenszel 검정의 특성
비모수적 느낌: 각 층의 기저율 \(\lambda_i\) 를 추정하지 않으므로 모형 의존성이 낮다.
효율성: \(\Delta\) 가 0에 가까울 때 스코어 검정은 우도비 검정과 동일한 1차 효율을 가진다.
한계: \(\Delta\) 의 점추정이나 신뢰구간을 직접 주지는 않는다. 추정을 원하면 조건부 MLE \(\hat{\Delta}_c\) 를 사용한다. 별도로, Mantel-Haenszel 추정량(Exercise 9.10)은 조건부 MLE와 다른 가중 방식을 사용하며, 일반적으로 둘 다 일치추정량이지만 효율에 미세한 차이가 있다.
4 예제: Ille-et-Vilaine 식도암 연구 (§7.4.3)
4.1 자료 배경
Ille-et-Vilaine(프랑스 브르타뉴 지방)에서 수행된 후향적 사례-대조 연구(retrospective case-control study)이다. 관심 변수는 알코올 섭취량(고/저)이 식도암(oesophageal cancer) 발생에 미치는 영향이며, 연령으로 층화(stratify)한다.
Table 7.2 — Ille-et-Vilaine 식도암 자료
연령
암(80+)
암(80-)
비암(80+)
비암(80-)
\(\tilde{\psi}_c\)
\(\hat{\mu}_{11}\)
잔차
25-34
1
0
9
106
\(\infty\)
0.33
1.42
35-44
4
5
26
164
4.98
4.11
-0.07
45-54
25
21
29
138
5.61
24.49
0.18
55-64
42
34
27
139
6.30
40.09
0.59
65-74
19
36
18
88
2.56
23.74
-1.89
75+
5
8
0
31
\(\infty\)
3.24
1.75
합계
96
104
109
666
96.01
\(X^2 = 9.04\)
“80+”/“80-”는 알코올 80g/day 이상/미만
\(\tilde{\psi}_c\): 연령층별 조건부 오즈비 추정
\(\hat{\mu}_{11}\), 잔차: 모형 (ii) 하의 적합값과 Pearson 잔차
직관: 후향적 연구에서는 사례(암 환자)와 대조(비-암)의 수가 연구 설계에 의해 고정된다. 따라서 질병 발생률을 직접 추정할 수 없지만, §4.4.3에서 논의한 바와 같이 오즈비는 전향적 연구와 동일하게 추정된다. 조건부 분석은 양쪽 주변 합계를 모두 고정하므로 후향적 설계와 자연스럽게 호환된다.
4.2 연령 층화의 필요성
암 발생률은 일반적으로 연령에 따라 증가한다. 이 연구에서도 사례군이 대조군보다 평균 연령이 높다. 연령을 무시하면 알코올 효과가 교란(confounding)된다 — 고연령 \(\to\) 높은 암 발생 \(\to\) (우연히) 높은 알코올 섭취로 이어지는 경로가 알코올의 진정한 효과를 부풀릴 수 있다.
연령 층화는 이 교란을 제거한다: 같은 연령대 안에서 고알코올군과 저알코올군의 암 발생을 비교하면 연령 효과가 상쇄된다.
4.3 세 가지 모형
연령 층 \(i = 1, \ldots, 6\) 에서의 오즈비 \(\psi_i\) 에 대해 세 가지 모형을 고려한다:
으로 계산된다. \(V(\hat{\mu}_{11,i})\) 는 조건부 초기하 분산이다. Pearson \(X^2 = \sum r_i^2 = 9.04\) (자유도 5)는 이탈도 10.73과 유사하며, 오즈비 상수성에서의 체계적 이탈을 시사하지 않는다.
65-74세 층의 잔차 \(-1.89\) 이 가장 크다. 이 연령층에서 조건부 오즈비가 \(\tilde{\psi}_c = 2.56\) 으로 다른 층(4.98~6.30)보다 낮다. 하지만 개별 잔차의 유의성을 판단할 때는 다중비교를 고려해야 하므로, 이 정도의 변동은 우연으로 충분히 설명 가능하다.