1 Ch.7 이 가진 특수한 위치
Ch.7 은 교재에서 명시적으로 “수학적” 이라고 경고하는 장이다. 첫 독서에서 건너뛰어도 된다고 저자가 직접 말한다. 그럼에도 이 장이 Ch.4–6 의 결론과 현대 통계의 “정확 추론(exact inference)” 실무를 연결하는 유일한 지점이라는 점에서 건너뛰기 어렵다.
핵심 질문은 단 하나.
관심 모수(\(\boldsymbol{\psi}\)) 만 남기고 나머지(장해 모수 \(\boldsymbol{\lambda}\))를 우도에서 어떻게 없앨 것인가?
이 질문에 대한 네 가지 답이 §7.2 에, 그 응용으로 초기하분포 족이 §7.3 에, 실제 데이터에서의 작동이 §7.4–§7.5 에 등장한다. 매칭 쌍 로지스틱·Fisher’s exact test·Bradley–Terry 순위 모형·Mantel–Haenszel 추정량 등 현대 통계의 핵심 도구들이 이 장의 결과물이다.
이 포스트는 Ch.7 전체를 한 번에 조망하는 지도 이다. 각 소절의 세부 유도는 후속 포스트로 넘기고, 여기서는 각 부분이 왜 필요한가와 서로 어떻게 연결되는가 에 집중한다.
2 §7.1 문제 정의 — 장해 모수의 두 얼굴
2.1 관심 모수 vs 장해 모수
모수 벡터를 \(\boldsymbol{\theta} = (\boldsymbol{\psi}, \boldsymbol{\lambda})\) 로 분할.
- \(\boldsymbol{\psi}\) — 결론을 말하고 싶은 것 (처리 효과, 오즈비, 상관 등)
- \(\boldsymbol{\lambda}\) — 모형이 성립하려면 필요하지만 해석 대상 아님 (기저 확률, 경계점 \(\theta_j\) 등)
핵심 주의: “어느 모수가 장해인가” 는 모형이 아니라 맥락이 결정한다. 비례 오즈의 경계 \(\theta_j\) 는 처리 비교 연구에서는 장해, 범주 경계 자체가 관심이면 주 모수.
직관 — 같은 모수라도 역할이 뒤바뀐다. 다중 센터 임상시험을 생각하자. “신약의 처리 효과 \(\Delta\) 는 센터 간 일관된가?” 가 관심이면 센터별 기저 발생률 \(\lambda_i\) 가 장해다. 같은 데이터에서 질문을 바꾸어 “센터 간 기저 발생률 차이 \(\lambda_i\) 가 진료 품질 지표로 의미가 있는가?” 를 묻는다면, 이번에는 \(\lambda_i\) 가 관심 모수가 되고 \(\Delta\) 가 장해가 된다. 연구 질문이 모수의 역할을 뒤집는다 — 장해·관심의 구분은 모형의 수학 구조가 아니라 분석 목적의 외부 투입이다.
2.2 두 가지 위기
위기 1 — Neyman–Scott (1948) 비일관성:
\(Y_{ij} \sim N(\mu_i, \sigma^2),\; j = 1, 2\) 에서 각 쌍마다 \(\mu_i\). MLE 는
\[ \hat\sigma^2_{MLE} = \frac{1}{2n}\sum_i \sum_j (Y_{ij} - \bar{Y}_i)^2 \longrightarrow \sigma^2/2 \]
— 절반으로 수렴, 일치성 실패. 모수 수가 \(n\) 에 비례해 증가하면 점근이론이 깨진다.
위기 2 — 계산 비용: 고차원 최적화 + Hessian 역행렬이 \(O((n+p)^3)\). 실무에서 \(n \sim 10^6\) 에는 불가능.
2.3 세 가지 해결 철학
| 철학 | 아이디어 | 대표 기법 |
|---|---|---|
| 차원 축소 | \(\boldsymbol{\lambda}\) 와 무관한 데이터 함수 | 주변·조건부 |
| 프로파일 최적화 | \(\boldsymbol{\lambda}\) 를 먼저 최적화 | Profile 우도 |
| 구조 활용 | 지수족 분해의 자동 조건화 | 정준 모수 분리 |
3 §7.2 네 가지 축약 우도
3.1 §7.2.1 주변 우도 (Marginal)
데이터 \(\mathbf{Y}\) 에서 \(\boldsymbol{\lambda}\) 에 무관한 통계량 \(\mathbf{T} = g(\mathbf{Y})\) 의 주변 분포 우도만 사용.
원형 예 — REML: 정규 모형 \(\mathbf{Y} \sim N(\mathbf{X}\boldsymbol{\beta}, \boldsymbol{\Sigma}(\boldsymbol{\theta}))\) 에서 잔차 대조
\[ \mathbf{R} = (\mathbf{I} - \mathbf{P}_\mathbf{X}) \mathbf{Y} \]
의 분포가 \(\boldsymbol{\beta}\) 에 무관. 분산 성분 \(\boldsymbol{\theta}\) 에 대해
\[ \ell_m(\boldsymbol{\theta}) = -\tfrac{1}{2}\log\det\boldsymbol{\Sigma} - \tfrac{1}{2}\log\det(\mathbf{X}^\top\boldsymbol{\Sigma}^{-1}\mathbf{X}) - \tfrac{1}{2} Q_2(\mathbf{R}) \]
\(\boldsymbol{\Sigma} = \sigma^2\mathbf{I}\) 특수 경우 \(\hat\sigma^2 = \text{RSS}/(n-p)\) 의 불편성이 이 프레임에서 자연스럽게 나온다. lme4::lmer 의 기본값이 이 우도.
장점: 모형 오지정에 강건 (쓰는 데이터가 주변만이라). 단점: 존재 보장 안 됨.
3.2 §7.2.2 조건부 우도 (Conditional)
\(\boldsymbol{\lambda}\) 의 충분통계량 \(\mathbf{S}_\lambda\) 를 조건으로 고정. 조건부 분포
\[ f_{\mathbf{Y} \mid \mathbf{S}_\lambda}(\mathbf{y} \mid \mathbf{s}_\lambda; \boldsymbol{\psi}) \]
이 \(\boldsymbol{\lambda}\) 와 무관. 두 경우를 구분해야 한다.
- 경우 (ii) \(\mathbf{S}_\lambda\) 가 \(\boldsymbol{\psi}\) 에 무관: 진정한 조건부 우도 — 식 (7.1)
\[ \ell_c(\boldsymbol{\psi}) = \log f_{\mathbf{Y} \mid \mathbf{S}_\lambda}(\mathbf{y} \mid \mathbf{s}_\lambda; \boldsymbol{\psi}) \]
- 경우 (i) \(\mathbf{S}_\lambda(\boldsymbol{\psi}_0)\) 가 \(\boldsymbol{\psi}_0\) 의존: 2단계 미분 필요 — 식 (7.2)
\[ U_\psi = \frac{\partial \ell_c(\psi, \lambda; \psi_0)}{\partial \psi}\bigg|_{\psi_0 = \psi} \]
정규 비율 \(\psi = \mu_2/\mu_1\) (Fieller): \(S_\lambda(\psi_0) = Y_1 + \psi_0 Y_2\) 가 \(\psi_0\) 의존 (경우 i). 조건부 스코어
\[ U_\psi = \frac{\mu_1(y_2 - \psi y_1)}{1 + \psi^2} \]
이 zero-mean. Fieller 신뢰구간
\[ \{\psi : U_\psi^2 / \mathrm{Var}(U_\psi) \le z_{\alpha/2}^2\} \]
은 정확(exact). 분모(\(Y_1\))가 작을 때 delta-method 정규 근사가 붕괴하는 상황에서도 유효.
3.3 §7.2.3 지수족 자동 조건화
로그우도가 지수족 선형 분해
\[ \ell(\boldsymbol{\theta}; \mathbf{y}) = \boldsymbol{\psi}^\top \mathbf{s}_1 + \boldsymbol{\lambda}^\top \mathbf{s}_2 - b(\boldsymbol{\psi}, \boldsymbol{\lambda}) \tag{7.4} \]
형태면, \(\mathbf{s}_2\) 가 \(\boldsymbol{\lambda}\) 의 충분통계량이고 조건부 분포가 \(\boldsymbol{\lambda}\) 와 무관.
\[ \ell(\boldsymbol{\psi} \mid \mathbf{s}_2) = \boldsymbol{\psi}^\top \mathbf{s}_1 - b^*(\boldsymbol{\psi}; \mathbf{s}_2) \tag{7.5} \]
직관 — 왜 \(\boldsymbol\lambda\) 가 깨끗이 사라지는가. (7.4) 에서 \(\boldsymbol\lambda\) 는 오직 \(\mathbf s_2\) 와의 내적을 통해서만 등장한다. 따라서 \(\mathbf s_2\) 값을 고정하면 \(\boldsymbol\lambda\) 가 로그우도 변화에 기여할 통로가 차단되고, 조건부 분포는 \(\boldsymbol\lambda\) 와 독립이 된다. 새 정규화 상수 \(b^*(\boldsymbol\psi; \mathbf s_2) = \log \sum \exp(\boldsymbol\psi^\top \mathbf s_1)\) 는 \(\mathbf s_2\) 가 지정한 표본공간 안에서만 합을 취한 결과 — 기존 \(b\) 보다 제한된 합이라 \(\boldsymbol\lambda\) 의존성이 통째로 소거된다.
조건: \(\boldsymbol{\psi}\) 가 정준 모수의 선형 함수.
전형적 예:
| 원래 모형 | 관심 모수 | 조건화 통계량 | 조건부 분포 |
|---|---|---|---|
| 독립 포아송 \(Y_1, Y_2\) | \(\psi = \log(\mu_1/\mu_2)\) | \(Y_1 + Y_2\) | 이항 |
| 독립 이항 \(Y_1, Y_2\) | 로그 오즈비 | \(Y_1 + Y_2\) | 초기하 (§7.3) |
| 로그선형 분할표 | 교호작용 | 주변합 | 조건부 포아송 = §6.4 |
이것이 §6.4 쌍대성의 Ch.7 관점 재해석. 쌍대성이 “자연스러운” 이유는 지수족 분해 때문.
3.4 §7.2.4 Profile 우도 — 범용 해법의 함정
\(\hat{\boldsymbol{\lambda}}_\psi = \arg\max_\lambda \ell(\psi, \lambda)\) 로 프로파일:
\[ \ell^\dagger(\psi) = \ell(\psi, \hat{\boldsymbol{\lambda}}_\psi) \]
장점: 항상 가능, MLE 와 일치, 신뢰구간 구성 용이.
결정적 결함: \(\dim(\boldsymbol{\lambda})\) 가 \(n\) 에 비례해 증가하면 zero-mean 을 잃는다. Neyman–Scott 예제에서 \(\sigma^2/2\) 로 수렴.
개선 — Barndorff-Nielsen (1985) modified profile:
\[ \ell_{\text{mod}}^\dagger(\psi) = \ell^\dagger(\psi) - \tfrac{1}{2}\log|j_{\lambda\lambda}(\psi, \hat{\boldsymbol{\lambda}}_\psi)| \]
정보 행렬 보정으로 편향 제거. Cox–Reid (1987) 의 orthogonal parameters 와 연결.
3.5 네 기법 비교
| 기법 | 적용 조건 | 정보 손실 | 장점 | 단점 |
|---|---|---|---|---|
| 주변 | \(\psi\) 만 의존 통계량 존재 | 작음 (REML은 0) | 강건 | 존재 보장 없음 |
| 조건부 | \(\lambda\) 충분통계량 존재 | 작음 | 정확 추론 | 계산 복잡 |
| 지수족 | 정준 선형 분해 | 없음 | 우아 | 조건 까다로움 |
| Profile | 항상 | 가변 | 범용 | 고차원 장해 편향 |
4 §7.3 초기하분포 — 조건부 우도의 주인공
§7.2 의 지수족 조건화가 이항·포아송 문제에 적용되면 초기하분포 족 이 자연스럽게 등장한다. Ch.7 의 핵심 확률분포.
4.1 §7.3.1 중심 초기하분포 (Central Hypergeometric)
\(Y_1 \sim \text{Bin}(m_1, \pi),\; Y_2 \sim \text{Bin}(m_2, \pi)\) 독립. \(Y_\bullet = Y_1 + Y_2 = s_1\) 조건 하의 \(Y \equiv Y_1\) 분포:
\[ \Pr(Y = y \mid \mathbf{m}, \mathbf{s}) = \frac{\binom{m_1}{y}\binom{m_2}{s_1 - y}}{\binom{m_\bullet}{s_1}} \tag{7.6} \]
표본공간 범위:
\[ \max(0, s_1 - m_2) \le y \le \min(m_1, s_1) \]
크기는 \(\min(m_1, m_2, s_1, s_2) + 1\). 공통 성공률 \(\pi\) 가 자동 소거 — 이것이 조건화의 힘.
현실 응용 — 단순 무작위 표본추출: 크기 \(m_\bullet\) 의 모집단에서 \(m_1\) 을 비복원 추출, \(s_1\) 명이 속성 \(A\). 표본 내 \(A\) 수의 분포가 정확히 (7.6).
4.2 §7.3.2 비중심 초기하분포 (Non-central)
공통 확률이 아닌 서로 다른 확률 을 가진 두 이항 \(Y_1 \sim \text{Bin}(m_1, \pi_1),\; Y_2 \sim \text{Bin}(m_2, \pi_2)\). 조건부 분포:
\[ \Pr(Y = y; \psi) = \frac{\binom{m_1}{y}\binom{m_2}{s_1 - y}\psi^y}{P_0(\psi)}, \qquad P_0(\psi) = \sum_{j=a}^b \binom{m_1}{j}\binom{m_2}{s_1 - j}\psi^j \tag{7.9} \]
여기서 \(\psi = \pi_1(1-\pi_2)/\{\pi_2(1-\pi_1)\}\) 는 오즈비. \(\psi = 1\) 에서 중심 초기하로 환원.
지수족 구조:
\[ \ell(\psi; y) = y\log\psi - \log P_0(\psi) \]
정준 모수 \(\theta = \log\psi\), 누적함수 \(K(\theta) = \log P_0(e^\theta)\).
모멘트는 다항식 \(P_r(\psi) = \sum j^r \psi^j \binom{m_1}{j}\binom{m_2}{s_1-j}\) 의 비율로 표현:
\[ E(Y) = P_1(\psi)/P_0(\psi), \qquad \mathrm{Var}(Y) = P_2/P_0 - (P_1/P_0)^2 \]
계산이 어렵다. Breslow–Cologne (1986) 근사:
\[ \mu_{11}(m_2 - s_1 + \mu_{11}) + \kappa_2 = \psi\{(s_1 - \mu_{11})(m_1 - \mu_{11}) + \kappa_2\} \tag{7.11} \]
\[ \kappa_2 \simeq \frac{m_\bullet}{m_\bullet - 1}\!\left(\frac{1}{\mu_{11}} + \frac{1}{\mu_{12}} + \frac{1}{\mu_{21}} + \frac{1}{\mu_{22}}\right)^{-1} \tag{7.12} \]
연립해로 근사. \(m_\bullet = 2\) (최소 비퇴화) 및 \(\psi = 1\) 에서 정확.
4.3 §7.3.3 다변량 초기하분포
두 독립 다항 \(\mathbf{Y}_1 \sim \text{Mult}(m_1, \boldsymbol{\pi}),\; \mathbf{Y}_2 \sim \text{Mult}(m_2, \boldsymbol{\pi})\). 주변합 \(\mathbf{Y}_1 + \mathbf{Y}_2 = \mathbf{s}\) 조건 하:
\[ \Pr(\mathbf{Y} = \mathbf{y} \mid \mathbf{s}) = \frac{\binom{m_1}{\mathbf{y}}\binom{m_2}{\mathbf{s} - \mathbf{y}}}{\binom{m_\bullet}{\mathbf{s}}} = \frac{\prod_j \binom{s_j}{y_j}}{\binom{m_\bullet}{m_1}} \tag{7.13} \]
\(\boldsymbol{\pi}\) 에 무관. 유한 모집단에서의 층화 단순 무작위 추출 이기도.
4.4 §7.3.4 다변량 비중심 초기하분포
서로 다른 \(\boldsymbol{\pi}_1, \boldsymbol{\pi}_2\) 의 독립 다항 조건부. \(k-1\) 개 오즈비
\[ \psi_j = \frac{\pi_{1j}\pi_{2k}}{\pi_{2j}\pi_{1k}} \]
로 매개화. 이 분포가 §7.5 순서형 매칭 쌍의 기초.
5 §7.4 이항 데이터 응용
5.1 §7.4.1 두 이항 확률 비교
임상시험의 전형 — 처리군 vs 대조군 성공률.
모형: \(Y_1 \sim \text{Bin}(m_1, \pi_1),\; Y_2 \sim \text{Bin}(m_2, \pi_2)\), 식 (7.17):
\[ \text{logit}\,\pi_1 = \lambda + \Delta, \quad \text{logit}\,\pi_2 = \lambda \]
\(\Delta\) = 로그 오즈비 (관심), \(\lambda\) = 기저 로짓 (장해).
두 접근 비교 (Table 7.1 예시): \(Y_1 = 2/3\), \(Y_2 = 1/4\):
| 방법 | \(\hat\Delta\) | 표준오차 |
|---|---|---|
| 비조건부 (Profile deviance) | \(\log(2\cdot3/(1\cdot1)) = 1.792\) | 1.683 |
| 조건부 (Hypergeometric) | \(\hat\Delta_c = 1.493\) | 1.492 |
일반 규칙: \(|\hat\Delta_c| \le |\hat\Delta|\) — 조건부 추정은 항상 편향이 작다 (원점에서만 같음).
이유: 비조건부 MLE 는 경계 셀(0 관측) 영향을 크게 받아 \(|\hat\Delta|\) 가 과대평가. 조건부는 초기하 지수족의 자연 제약으로 자동 축소.
조건부 스코어 방정식:
\[ y_1 = E(Y_1 \mid Y_\bullet; \hat\Delta_c) = \frac{e^{\hat\Delta_c} P_0'(e^{\hat\Delta_c})}{P_0(e^{\hat\Delta_c})} \]
\(P_0(\psi) = 4 + 18\psi + 12\psi^2 + \psi^3\) (Table 7.1 예제).
5.2 §7.4.2 여러 \(2\times2\) 표의 정보 통합
다중 센터 임상시험: 각 센터 \(i = 1, \ldots, n\) 에서 독립된 \(2\times2\) 표. 모형 (7.18):
\[ \text{logit}\,\pi_{1i} = \lambda_i + \Delta, \quad \text{logit}\,\pi_{2i} = \lambda_i \]
각 센터별 \(\lambda_i\) 는 자유 (\(n\) 개 장해 모수). Neyman–Scott 상황.
해결: 각 센터별로 조건화 → 각 센터가 비중심 초기하 \(H(\mathbf{m}_i, \mathbf{s}_i; \psi)\) 에 기여. 통합 조건부 로그우도
\[ \ell_c(\Delta) = \sum_i y_{1i}\Delta - \sum_i \log P_0^{(i)}(e^\Delta) \]
Mantel–Haenszel 추정량: 위 스코어 방정식의 근사해. 반복 없이 계산 가능한 폐쇄형 표현. 역학의 “표준 메타분석” 이 이것.
5.3 §7.4.3 예 — Ille-et-Vilaine 식도암 연구
Tuyns et al. (1977) 의 고전 사례-대조 연구. 식도암 200례 vs 대조 775명, 담배·알코올 노출별로 층화한 \(6 \times 4 = 24\) 층.
결과: 조건부 로지스틱으로 각 노출의 오즈비 추정. 알코올 \(\hat{\text{OR}} \approx 5.6\), 담배 \(\hat{\text{OR}} \approx 1.8\) 정도. 각 층별 독립 MLE 대신 모든 층을 통합하면서도 각 층의 기저 위험을 자동 보정.
이 데이터 분석이 역학의 교과서적 원형 — 조건부 로지스틱 회귀의 전형.
6 §7.5 다범주 데이터 응용
6.1 §7.5.1 매칭 쌍 (명목형 반응) — Quasi-Symmetry
쌍 \(i\) 의 대조·처리 반응이 각각 \(R_1, R_2 \in \{1, \ldots, k\}\). 모형:
- 대조 쌍 \(i\) 범주 \(j\) 확률 \(\propto \exp(\lambda_{ij})\)
- 처리 쌍 \(i\) 범주 \(j\) 확률 \(\propto \exp(\lambda_{ij} + \Delta_j)\)
\(\lambda_{ij}\) 는 쌍 \(\times\) 범주 별로 완전 자유 — 엄청난 수의 장해 모수.
조건화: 쌍의 반응 합 \(\mathbf{Z}_\bullet = \mathbf{Z}_1 + \mathbf{Z}_2\) 가 충분통계량. 동일 반응 쌍 (\(R_1 = R_2\)) 은 정보 없음. 불일치 쌍 \((i, j),\; i \ne j\) 의 조건부
\[ \Pr(R_1 = i \mid Z_\bullet) = \frac{e^{\Delta_j}}{e^{\Delta_i} + e^{\Delta_j}} \tag{7.21} \]
— \(\lambda\) 무관. 이항으로 환원:
\[ Y_{ij} \sim \text{Bin}(m_{ij}, \pi_{ij}), \quad \text{logit}(\pi_{ij}) = \Delta_j - \Delta_i, \quad m_{ij} = Y_{ij} + Y_{ji} \tag{7.22} \]
Caussinus (1965) 의 quasi-symmetry 모형과 동형. \(k(k-1)/2\) 개 독립 이항 로지스틱으로 분해.
동일 모형의 다른 이름들:
- 인구 이동: Gravity model. \(Y_{ij}\) = 지역 \(i \to j\) 이주자 수
- 쌍별 비교: Bradley–Terry (1952) 순위 모형. \(\pi_{ij}\) = \(i\) 가 \(j\) 를 이길 확률. \(\Delta_j\) 가 “실력” 순위
특이 구조: 모형식 \(\Delta_j - \Delta_i\) 의 디자인 행렬이 상수 벡터를 포함하지 않는다. \(k = 3\) 이면
\[ \mathbf{X} = \begin{pmatrix} 1 & -1 & 0 \\ 1 & 0 & -1 \\ 0 & 1 & -1 \end{pmatrix} \]
rank 2, 모든 열의 합이 0. 이것이 Bradley–Terry 의 수학적 특색.
적합도 검정: 잔차 이탈도 또는 Pearson, 자유도 \((k-1)(k-2)/2\).
6.2 §7.5.2 매칭 쌍 (순서형 반응)
순서형 반응에 비례 오즈 모형 (5.1) 을 적용:
\[ \text{logit}\,\gamma_{1j} = \theta_j, \quad \text{logit}\,\gamma_{2j} = \theta_j - \Delta, \quad j = 1, \ldots, k-1 \tag{7.23} \]
\(k-1\) 개 경계점 \(\theta_j\) 가 장해. 누적합 \(S_j = Z_{1j} + Z_{2j}\) 조건 하 \(Z_{1j}\) 는 비중심 초기하:
\[ Z_{1j} \mid S_j \sim H(\mathbf{m}, S_j; \psi), \quad \psi = e^\Delta \tag{7.24} \]
각 경계 \(j\) 마다 하나씩, 총 \(k-1\) 개의 비중심 초기하. 단, 이들은 서로 다른 표본공간에 정의돼 결합 분포가 명시적이지 않다.
해결 — Quasi-likelihood 방식 추정 함수 (식 7.25~7.26):
\[ U(\psi; \mathbf{Z}) = \sum_{j=1}^{k-1} w_j^* \{Z_{1j} - \chi_{1j}(\psi)\} \]
최적 가중치는 역공분산 행렬 기반. 점근적으로 비조건부 MLE 와 같은 분산 을 달성 (식 7.27 = Exercise 5.3 의 \(\tfrac{1}{3}(1 - \sum \pi_j^3)\) 공식).
6.3 §7.5.3 예 — 치즈 맛 실험 재방문
Table 5.1 의 첫 두 줄 (첨가물 A vs B) 만 사용해 순서형 조건부 추정 시연.
- 비조건부 MLE: \(\hat\Delta = -3.028\), SE 0.455
- 조건부 MLE: 거의 동일 값 (희소하지 않으므로)
핵심 메시지: 대부분의 실무 데이터에서 조건부 vs 비조건부 차이는 무시 가능. 매우 희소한 분할표(셀당 관측이 1~2개) 에서만 실질적 차이가 발생하며, 이때 조건부 접근이 거의 항상 덜 편향된다.
7 §7.6 참고문헌 — 지적 계보
| 주제 | 대표 문헌 |
|---|---|
| 조건부 추론 이론 | Cox & Hinkley (1974), Barndorff-Nielsen (1985, 1986) |
| 매칭 쌍·사례-대조 | Breslow & Day (1980) |
| Fisher’s exact 역사 | Fisher (1935), Yates (1934) |
| Mantel–Haenszel | Mantel & Haenszel (1959) |
| Bradley–Terry | Bradley & Terry (1952), Agresti (1984) |
| Caussinus quasi-symmetry | Caussinus (1965) |
| 초기하 근사 | Breslow & Cologne (1986), Barndorff-Nielsen & Cox (1979) |
| 프로파일 수정 | Cox & Reid (1987), McCullagh & Tibshirani (1988) |
핵심 발전 단계:
- Fisher (1922) 충분통계량 개념 → 조건화의 기초
- Fisher (1935) 2×2 정확검정 → 초기하 응용의 원형
- Cox (1972) 비례 위험 부분우도 → 조건부 아이디어의 생존분석 확장
- Barndorff-Nielsen (1985) modified profile → 현대 고차원 추론의 기반
- Cox & Reid (1987) orthogonal parameters → 현대 conditional inference 이론
8 §7.7 연습 미리보기
§7.7 의 연습 20여 문제는 대략 네 묶음.
- 정규 비율 Fieller 문제의 변형 (7.1–7.6) — 비율 추정의 정확 CI
- REML 유도의 다양한 표현 (7.8–7.13) — 주변 우도가 어떻게 여러 가지로 쓰이는가
- 초기하 모멘트 계산 — \(P_r(\psi)\) 다항식 기법
- 매칭 쌍 quasi-symmetry 의 Bradley–Terry 해석 — 스포츠·선거 데이터 응용
9 Ch.7 의 현대적 파급
| 현대 실무 도구 | Ch.7 어디에서 왔는가 |
|---|---|
survival::clogit (조건부 로지스틱) |
§7.5.1 명목 매칭 쌍 |
scipy.stats.fisher_exact |
§7.3.1 중심 초기하 |
| Mantel–Haenszel test (메타분석) | §7.4.2 여러 \(2\times2\) 통합 |
lme4::lmer (REML) |
§7.2.1 주변 우도 |
| Bradley–Terry 랭킹 (체스 Elo, 스포츠) | §7.5.1 quasi-symmetry |
| Fieller’s CI (비율 추정) | §7.2.2 조건부 정확 추론 |
| Partial likelihood (Cox 모형) | §7.2.2 의 비례 위험 버전 |
| LASSO 의 profile-based tuning | §7.2.4 profile 우도 |
| Barndorff-Nielsen 고차 근사 | §7.2.4 modified profile |
한 문장 요약: Ch.7 의 “조건부 우도” 는 단일 기법이 아니라 현대 통계학의 정확 추론 전반의 공통 언어 이다. 임상시험 메타분석, 사례-대조 역학, 생존분석, 스포츠 순위, 심지어 현대 머신러닝의 일부 고차 추론 기법까지 이 장의 원리 위에 서 있다.
10 읽는 방향 가이드
첫 독서 경로 (최단):
- §7.1 장해 모수 문제 인식
- §7.2.3 지수족 자동 조건화 (가장 직관적)
- §7.3.1 중심 초기하 (Fisher’s exact 이해)
- §7.4.1 두 이항 비교
- §7.5.1 매칭 쌍 (Bradley–Terry)
깊이 있는 경로:
- §7.2 전체 (네 기법 비교)
- §7.3 전체 (초기하 족)
- §7.4 + Mantel–Haenszel 외부 문헌
- §7.5 + Bradley–Terry 문헌
- Cox & Reid (1987), Barndorff-Nielsen (1985)
GLM 실무 중심:
- §7.2.1 REML
- §7.2.3 지수족 조건화
- §7.4 이항 응용
- conditional logistic regression 구현 문헌
11 코드 — Ch.7 의 다섯 도구 미리보기
import numpy as np
from scipy import stats
import statsmodels.api as sm
# === 1. REML (§7.2.1) : 분산 성분 불편 추정 ===
rng = np.random.default_rng(0)
n, p = 100, 3
X = rng.normal(size=(n, p))
y = X @ [1, -0.5, 2] + rng.normal(scale=2, size=n)
beta = np.linalg.lstsq(X, y, rcond=None)[0]
RSS = np.sum((y - X @ beta)**2)
print(f"MLE sigma^2 = {RSS/n:.3f} (편향)")
print(f"REML sigma^2 = {RSS/(n-p):.3f} (불편)")
# === 2. Fisher's Exact Test (§7.3.1) : 초기하 정확검정 ===
table = np.array([[8, 2], [1, 5]])
odds, p_val = stats.fisher_exact(table, alternative="greater")
print(f"\nFisher Exact: OR={odds:.2f}, p={p_val:.4f}")
# === 3. Fieller CI (§7.2.2) : 비율 정확 신뢰구간 ===
y1, y2 = 3.0, 1.5 # 관측값
# score 기반 Fieller: (y2 - psi*y1)^2 <= z^2 * (1 + psi^2)
z = 1.96
a = y1**2 - z**2
b = -2*y1*y2
c = y2**2 - z**2
disc = b**2 - 4*a*c
if disc > 0 and a > 0:
lo = (-b - np.sqrt(disc))/(2*a)
hi = (-b + np.sqrt(disc))/(2*a)
print(f"\nFieller 95% CI for psi = y2/y1: ({lo:.3f}, {hi:.3f})")
# === 4. Mantel-Haenszel (§7.4.2) : 여러 2x2 통합 ===
# 층화 2x2: (a_i, b_i; c_i, d_i)
strata = [
np.array([[8, 2], [1, 5]]),
np.array([[10, 3], [2, 7]]),
np.array([[5, 1], [3, 4]]),
]
num, den = 0, 0
for t in strata:
a, b, c, d = t[0,0], t[0,1], t[1,0], t[1,1]
n = t.sum()
num += a * d / n
den += b * c / n
OR_MH = num / den
print(f"\nMantel-Haenszel OR = {OR_MH:.3f}")
# === 5. 조건부 로지스틱 (§7.5.1) : 매칭 쌍 ===
# 쌍마다 사례-대조 차이만 사용 (동일 응답 쌍은 무시)
# 예시: 각 쌍 (x_case, x_control)
pairs = [(1, 0), (1, 0), (0, 1), (1, 0), (1, 1), (0, 0)]
discordant = [(xc, xr) for xc, xr in pairs if xc != xr]
# P(case has x=1) = exp(beta*(x_case - x_ctrl)) / (1 + exp(...))
# 단순 조건부 MLE
from scipy.optimize import minimize
def nll(beta):
ll = 0
for xc, xr in discordant:
dx = xc - xr
ll += beta * dx - np.log(1 + np.exp(beta * dx))
return -ll
res = minimize(nll, x0=0, method="BFGS")
print(f"\n매칭 쌍 조건부 로지스틱: beta_hat = {res.x[0]:.3f}")각 섹션이 미니 예제로 작동. 각각의 상세 유도는 후속 포스트(06-2 hypergeometric, 06-3 Ille-et-Vilaine, 06-4 matched pairs)로 이어진다.
12 관련 주제
선행 지식
- Log-linear Models — 개관
- Log-linear ↔︎ Multinomial 쌍대성 (§6.4) — Ch.7 의 예고편
- Likelihood Functions for Polytomous GLMs
- Measurement Scales — 비례 오즈 이해
- 최대우도추정량 (MLE)
후속 주제 (각 소절 상세)
- 초기하분포와 Fisher’s Exact (§7.3)
- 두 이항 비교와 여러 2×2 통합 (§7.4)
- 매칭 쌍 로지스틱과 Bradley–Terry (§7.5)
- Conditional Likelihood 심화 연습 (§7.6~§7.7)
관련 개념
- Neyman–Scott 문제 — 일관성 실패의 원형
- REML 과 분산 성분 추정
- Fisher’s Exact Test
- Fieller Confidence Interval
- Mantel–Haenszel 메타분석
- Bradley–Terry 순위 모형 — 체스 Elo 의 기원
- Conditional Logistic Regression
- Cox 비례 위험 부분우도 — Ch.7 의 생존분석 확장
13 참고문헌
- McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), Ch.7. Chapman & Hall.
- Neyman, J. & Scott, E. L. (1948). Consistent estimates based on partially consistent observations. Econometrica, 16, 1–32.
- Cox, D. R. & Hinkley, D. V. (1974). Theoretical Statistics. Chapman & Hall.
- Cox, D. R. & Reid, N. (1987). Parameter orthogonality and approximate conditional inference. JRSS B, 49, 1–39.
- Barndorff-Nielsen, O. E. (1985). On a formula for the distribution of the maximum likelihood estimator. Biometrika, 70, 343–365.
- Fisher, R. A. (1935). The logic of inductive inference. JRSS A, 98, 39–82.
- Mantel, N. & Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospective studies. JNCI, 22, 719–748.
- Bradley, R. A. & Terry, M. E. (1952). Rank analysis of incomplete block designs, I. Biometrika, 39, 324–345.
- Caussinus, H. (1965). Contribution à l’analyse statistique des tableaux de corrélation. Ann. Fac. Sci. Univ. Toulouse, 29, 77–183.
- Breslow, N. E. & Day, N. E. (1980). Statistical Methods in Cancer Research, Vol. I. IARC.
- Breslow, N. E. & Cologne, J. (1986). Methods of analysis of matched case-control studies. Biometrika, 73, 523–531.
- Tuyns, A. J. et al. (1977). Le cancer de l’œsophage en Ille-et-Vilaine. Bull. Cancer, 64, 45–60.
- Patterson, H. D. & Thompson, R. (1971). Recovery of inter-block information when block sizes are unequal. Biometrika, 58, 545–554.
- Fieller, E. C. (1954). Some problems in interval estimation. JRSS B, 16, 175–185.
- Agresti, A. (2013). Categorical Data Analysis (3rd ed.), Ch.8. Wiley.