Kwangmin Kim - Conditional Likelihoods

1 Ch.7 이 가진 특수한 위치

Ch.7 은 교재에서 명시적으로 “수학적” 이라고 경고하는 장이다. 첫 독서에서 건너뛰어도 된다고 저자가 직접 말한다. 그럼에도 이 장이 Ch.4–6 의 결론과 현대 통계의 “정확 추론(exact inference)” 실무를 연결하는 유일한 지점이라는 점에서 건너뛰기 어렵다.

핵심 질문은 단 하나.

Ch.7 의 한 줄

관심 모수(\(\boldsymbol{\psi}\)) 만 남기고 나머지(장해 모수 \(\boldsymbol{\lambda}\))를 우도에서 어떻게 없앨 것인가?

이 질문에 대한 네 가지 답이 §7.2 에, 그 응용으로 초기하분포 족이 §7.3 에, 실제 데이터에서의 작동이 §7.4–§7.5 에 등장한다. 매칭 쌍 로지스틱·Fisher’s exact test·Bradley–Terry 순위 모형·Mantel–Haenszel 추정량 등 현대 통계의 핵심 도구들이 이 장의 결과물이다.

이 포스트는 Ch.7 전체를 한 번에 조망하는 지도 이다. 각 소절의 세부 유도는 후속 포스트로 넘기고, 여기서는 각 부분이 왜 필요한가와 서로 어떻게 연결되는가 에 집중한다.

2 §7.1 문제 정의 — 장해 모수의 두 얼굴

2.1 관심 모수 vs 장해 모수

모수 벡터를 \(\boldsymbol{\theta} = (\boldsymbol{\psi}, \boldsymbol{\lambda})\) 로 분할.

\(\boldsymbol{\psi}\) — 결론을 말하고 싶은 것 (처리 효과, 오즈비, 상관 등)
\(\boldsymbol{\lambda}\) — 모형이 성립하려면 필요하지만 해석 대상 아님 (기저 확률, 경계점 \(\theta_j\) 등)

핵심 주의: “어느 모수가 장해인가” 는 모형이 아니라 맥락이 결정한다. 비례 오즈의 경계 \(\theta_j\) 는 처리 비교 연구에서는 장해, 범주 경계 자체가 관심이면 주 모수.

직관 — 같은 모수라도 역할이 뒤바뀐다. 다중 센터 임상시험을 생각하자. “신약의 처리 효과 \(\Delta\) 는 센터 간 일관된가?” 가 관심이면 센터별 기저 발생률 \(\lambda_i\) 가 장해다. 같은 데이터에서 질문을 바꾸어 “센터 간 기저 발생률 차이 \(\lambda_i\) 가 진료 품질 지표로 의미가 있는가?” 를 묻는다면, 이번에는 \(\lambda_i\) 가 관심 모수가 되고 \(\Delta\) 가 장해가 된다. 연구 질문이 모수의 역할을 뒤집는다 — 장해·관심의 구분은 모형의 수학 구조가 아니라 분석 목적의 외부 투입이다.

2.2 두 가지 위기

위기 1 — Neyman–Scott (1948) 비일관성:

\(Y_{ij} \sim N(\mu_i, \sigma^2),\; j = 1, 2\) 에서 각 쌍마다 \(\mu_i\). MLE 는

\[ \hat\sigma^2_{MLE} = \frac{1}{2n}\sum_i \sum_j (Y_{ij} - \bar{Y}_i)^2 \longrightarrow \sigma^2/2 \]

— 절반으로 수렴, 일치성 실패. 모수 수가 \(n\) 에 비례해 증가하면 점근이론이 깨진다.

위기 2 — 계산 비용: 고차원 최적화 + Hessian 역행렬이 \(O((n+p)^3)\). 실무에서 \(n \sim 10^6\) 에는 불가능.

2.3 세 가지 해결 철학

철학	아이디어	대표 기법
차원 축소	\(\boldsymbol{\lambda}\) 와 무관한 데이터 함수	주변·조건부
프로파일 최적화	\(\boldsymbol{\lambda}\) 를 먼저 최적화	Profile 우도
구조 활용	지수족 분해의 자동 조건화	정준 모수 분리

3 §7.2 네 가지 축약 우도

3.1 §7.2.1 주변 우도 (Marginal)

데이터 \(\mathbf{Y}\) 에서 \(\boldsymbol{\lambda}\) 에 무관한 통계량 \(\mathbf{T} = g(\mathbf{Y})\) 의 주변 분포 우도만 사용.

원형 예 — REML: 정규 모형 \(\mathbf{Y} \sim N(\mathbf{X}\boldsymbol{\beta}, \boldsymbol{\Sigma}(\boldsymbol{\theta}))\) 에서 잔차 대조

\[ \mathbf{R} = (\mathbf{I} - \mathbf{P}_\mathbf{X}) \mathbf{Y} \]

의 분포가 \(\boldsymbol{\beta}\) 에 무관. 분산 성분 \(\boldsymbol{\theta}\) 에 대해

\[ \ell_m(\boldsymbol{\theta}) = -\tfrac{1}{2}\log\det\boldsymbol{\Sigma} - \tfrac{1}{2}\log\det(\mathbf{X}^\top\boldsymbol{\Sigma}^{-1}\mathbf{X}) - \tfrac{1}{2} Q_2(\mathbf{R}) \]

\(\boldsymbol{\Sigma} = \sigma^2\mathbf{I}\) 특수 경우 \(\hat\sigma^2 = \text{RSS}/(n-p)\) 의 불편성이 이 프레임에서 자연스럽게 나온다. lme4::lmer 의 기본값이 이 우도.

장점: 모형 오지정에 강건 (쓰는 데이터가 주변만이라). 단점: 존재 보장 안 됨.

3.2 §7.2.2 조건부 우도 (Conditional)

\(\boldsymbol{\lambda}\) 의 충분통계량 \(\mathbf{S}_\lambda\) 를 조건으로 고정. 조건부 분포

\[ f_{\mathbf{Y} \mid \mathbf{S}_\lambda}(\mathbf{y} \mid \mathbf{s}_\lambda; \boldsymbol{\psi}) \]

이 \(\boldsymbol{\lambda}\) 와 무관. 두 경우를 구분해야 한다.

경우 (ii) \(\mathbf{S}_\lambda\) 가 \(\boldsymbol{\psi}\) 에 무관: 진정한 조건부 우도 — 식 (7.1)

\[ \ell_c(\boldsymbol{\psi}) = \log f_{\mathbf{Y} \mid \mathbf{S}_\lambda}(\mathbf{y} \mid \mathbf{s}_\lambda; \boldsymbol{\psi}) \]

경우 (i) \(\mathbf{S}_\lambda(\boldsymbol{\psi}_0)\) 가 \(\boldsymbol{\psi}_0\) 의존: 2단계 미분 필요 — 식 (7.2)

\[ U_\psi = \frac{\partial \ell_c(\psi, \lambda; \psi_0)}{\partial \psi}\bigg|_{\psi_0 = \psi} \]

정규 비율 \(\psi = \mu_2/\mu_1\) (Fieller): \(S_\lambda(\psi_0) = Y_1 + \psi_0 Y_2\) 가 \(\psi_0\) 의존 (경우 i). 조건부 스코어

\[ U_\psi = \frac{\mu_1(y_2 - \psi y_1)}{1 + \psi^2} \]

이 zero-mean. Fieller 신뢰구간

\[ \{\psi : U_\psi^2 / \mathrm{Var}(U_\psi) \le z_{\alpha/2}^2\} \]

은 정확(exact). 분모(\(Y_1\))가 작을 때 delta-method 정규 근사가 붕괴하는 상황에서도 유효.

3.3 §7.2.3 지수족 자동 조건화

로그우도가 지수족 선형 분해

\[ \ell(\boldsymbol{\theta}; \mathbf{y}) = \boldsymbol{\psi}^\top \mathbf{s}_1 + \boldsymbol{\lambda}^\top \mathbf{s}_2 - b(\boldsymbol{\psi}, \boldsymbol{\lambda}) \tag{7.4} \]

형태면, \(\mathbf{s}_2\) 가 \(\boldsymbol{\lambda}\) 의 충분통계량이고 조건부 분포가 \(\boldsymbol{\lambda}\) 와 무관.

\[ \ell(\boldsymbol{\psi} \mid \mathbf{s}_2) = \boldsymbol{\psi}^\top \mathbf{s}_1 - b^*(\boldsymbol{\psi}; \mathbf{s}_2) \tag{7.5} \]

직관 — 왜 \(\boldsymbol\lambda\) 가 깨끗이 사라지는가. (7.4) 에서 \(\boldsymbol\lambda\) 는 오직 \(\mathbf s_2\) 와의 내적을 통해서만 등장한다. 따라서 \(\mathbf s_2\) 값을 고정하면 \(\boldsymbol\lambda\) 가 로그우도 변화에 기여할 통로가 차단되고, 조건부 분포는 \(\boldsymbol\lambda\) 와 독립이 된다. 새 정규화 상수 \(b^*(\boldsymbol\psi; \mathbf s_2) = \log \sum \exp(\boldsymbol\psi^\top \mathbf s_1)\) 는 \(\mathbf s_2\) 가 지정한 표본공간 안에서만 합을 취한 결과 — 기존 \(b\) 보다 제한된 합이라 \(\boldsymbol\lambda\) 의존성이 통째로 소거된다.

조건: \(\boldsymbol{\psi}\) 가 정준 모수의 선형 함수.

전형적 예:

원래 모형	관심 모수	조건화 통계량	조건부 분포
독립 포아송 \(Y_1, Y_2\)	\(\psi = \log(\mu_1/\mu_2)\)	\(Y_1 + Y_2\)	이항
독립 이항 \(Y_1, Y_2\)	로그 오즈비	\(Y_1 + Y_2\)	초기하 (§7.3)
로그선형 분할표	교호작용	주변합	조건부 포아송 = §6.4

이것이 §6.4 쌍대성의 Ch.7 관점 재해석. 쌍대성이 “자연스러운” 이유는 지수족 분해 때문.

3.4 §7.2.4 Profile 우도 — 범용 해법의 함정

\(\hat{\boldsymbol{\lambda}}_\psi = \arg\max_\lambda \ell(\psi, \lambda)\) 로 프로파일:

\[ \ell^\dagger(\psi) = \ell(\psi, \hat{\boldsymbol{\lambda}}_\psi) \]

장점: 항상 가능, MLE 와 일치, 신뢰구간 구성 용이.

결정적 결함: \(\dim(\boldsymbol{\lambda})\) 가 \(n\) 에 비례해 증가하면 zero-mean 을 잃는다. Neyman–Scott 예제에서 \(\sigma^2/2\) 로 수렴.

개선 — Barndorff-Nielsen (1985) modified profile:

\[ \ell_{\text{mod}}^\dagger(\psi) = \ell^\dagger(\psi) - \tfrac{1}{2}\log|j_{\lambda\lambda}(\psi, \hat{\boldsymbol{\lambda}}_\psi)| \]

정보 행렬 보정으로 편향 제거. Cox–Reid (1987) 의 orthogonal parameters 와 연결.

3.5 네 기법 비교

기법	적용 조건	정보 손실	장점	단점
주변	\(\psi\) 만 의존 통계량 존재	작음 (REML은 0)	강건	존재 보장 없음
조건부	\(\lambda\) 충분통계량 존재	작음	정확 추론	계산 복잡
지수족	정준 선형 분해	없음	우아	조건 까다로움
Profile	항상	가변	범용	고차원 장해 편향

4 §7.3 초기하분포 — 조건부 우도의 주인공

§7.2 의 지수족 조건화가 이항·포아송 문제에 적용되면 초기하분포 족 이 자연스럽게 등장한다. Ch.7 의 핵심 확률분포.

4.1 §7.3.1 중심 초기하분포 (Central Hypergeometric)

\(Y_1 \sim \text{Bin}(m_1, \pi),\; Y_2 \sim \text{Bin}(m_2, \pi)\) 독립. \(Y_\bullet = Y_1 + Y_2 = s_1\) 조건 하의 \(Y \equiv Y_1\) 분포:

\[ \Pr(Y = y \mid \mathbf{m}, \mathbf{s}) = \frac{\binom{m_1}{y}\binom{m_2}{s_1 - y}}{\binom{m_\bullet}{s_1}} \tag{7.6} \]

표본공간 범위:

\[ \max(0, s_1 - m_2) \le y \le \min(m_1, s_1) \]

크기는 \(\min(m_1, m_2, s_1, s_2) + 1\). 공통 성공률 \(\pi\) 가 자동 소거 — 이것이 조건화의 힘.

현실 응용 — 단순 무작위 표본추출: 크기 \(m_\bullet\) 의 모집단에서 \(m_1\) 을 비복원 추출, \(s_1\) 명이 속성 \(A\). 표본 내 \(A\) 수의 분포가 정확히 (7.6).

4.2 §7.3.2 비중심 초기하분포 (Non-central)

공통 확률이 아닌 서로 다른 확률 을 가진 두 이항 \(Y_1 \sim \text{Bin}(m_1, \pi_1),\; Y_2 \sim \text{Bin}(m_2, \pi_2)\). 조건부 분포:

\[ \Pr(Y = y; \psi) = \frac{\binom{m_1}{y}\binom{m_2}{s_1 - y}\psi^y}{P_0(\psi)}, \qquad P_0(\psi) = \sum_{j=a}^b \binom{m_1}{j}\binom{m_2}{s_1 - j}\psi^j \tag{7.9} \]

여기서 \(\psi = \pi_1(1-\pi_2)/\{\pi_2(1-\pi_1)\}\) 는 오즈비. \(\psi = 1\) 에서 중심 초기하로 환원.

지수족 구조:

\[ \ell(\psi; y) = y\log\psi - \log P_0(\psi) \]

정준 모수 \(\theta = \log\psi\), 누적함수 \(K(\theta) = \log P_0(e^\theta)\).

모멘트는 다항식 \(P_r(\psi) = \sum j^r \psi^j \binom{m_1}{j}\binom{m_2}{s_1-j}\) 의 비율로 표현:

\[ E(Y) = P_1(\psi)/P_0(\psi), \qquad \mathrm{Var}(Y) = P_2/P_0 - (P_1/P_0)^2 \]

계산이 어렵다. Breslow–Cologne (1986) 근사:

\[ \mu_{11}(m_2 - s_1 + \mu_{11}) + \kappa_2 = \psi\{(s_1 - \mu_{11})(m_1 - \mu_{11}) + \kappa_2\} \tag{7.11} \]

\[ \kappa_2 \simeq \frac{m_\bullet}{m_\bullet - 1}\!\left(\frac{1}{\mu_{11}} + \frac{1}{\mu_{12}} + \frac{1}{\mu_{21}} + \frac{1}{\mu_{22}}\right)^{-1} \tag{7.12} \]

연립해로 근사. \(m_\bullet = 2\) (최소 비퇴화) 및 \(\psi = 1\) 에서 정확.

4.3 §7.3.3 다변량 초기하분포

두 독립 다항 \(\mathbf{Y}_1 \sim \text{Mult}(m_1, \boldsymbol{\pi}),\; \mathbf{Y}_2 \sim \text{Mult}(m_2, \boldsymbol{\pi})\). 주변합 \(\mathbf{Y}_1 + \mathbf{Y}_2 = \mathbf{s}\) 조건 하:

\[ \Pr(\mathbf{Y} = \mathbf{y} \mid \mathbf{s}) = \frac{\binom{m_1}{\mathbf{y}}\binom{m_2}{\mathbf{s} - \mathbf{y}}}{\binom{m_\bullet}{\mathbf{s}}} = \frac{\prod_j \binom{s_j}{y_j}}{\binom{m_\bullet}{m_1}} \tag{7.13} \]

\(\boldsymbol{\pi}\) 에 무관. 유한 모집단에서의 층화 단순 무작위 추출 이기도.

4.4 §7.3.4 다변량 비중심 초기하분포

서로 다른 \(\boldsymbol{\pi}_1, \boldsymbol{\pi}_2\) 의 독립 다항 조건부. \(k-1\) 개 오즈비

\[ \psi_j = \frac{\pi_{1j}\pi_{2k}}{\pi_{2j}\pi_{1k}} \]

로 매개화. 이 분포가 §7.5 순서형 매칭 쌍의 기초.

5 §7.4 이항 데이터 응용

5.1 §7.4.1 두 이항 확률 비교

임상시험의 전형 — 처리군 vs 대조군 성공률.

모형: \(Y_1 \sim \text{Bin}(m_1, \pi_1),\; Y_2 \sim \text{Bin}(m_2, \pi_2)\), 식 (7.17):

\[ \text{logit}\,\pi_1 = \lambda + \Delta, \quad \text{logit}\,\pi_2 = \lambda \]

\(\Delta\) = 로그 오즈비 (관심), \(\lambda\) = 기저 로짓 (장해).

두 접근 비교 (Table 7.1 예시): \(Y_1 = 2/3\), \(Y_2 = 1/4\):

방법	\(\hat\Delta\)	표준오차
비조건부 (Profile deviance)	\(\log(2\cdot3/(1\cdot1)) = 1.792\)	1.683
조건부 (Hypergeometric)	\(\hat\Delta_c = 1.493\)	1.492

일반 규칙: \(|\hat\Delta_c| \le |\hat\Delta|\) — 조건부 추정은 항상 편향이 작다 (원점에서만 같음).

이유: 비조건부 MLE 는 경계 셀(0 관측) 영향을 크게 받아 \(|\hat\Delta|\) 가 과대평가. 조건부는 초기하 지수족의 자연 제약으로 자동 축소.

조건부 스코어 방정식:

\[ y_1 = E(Y_1 \mid Y_\bullet; \hat\Delta_c) = \frac{e^{\hat\Delta_c} P_0'(e^{\hat\Delta_c})}{P_0(e^{\hat\Delta_c})} \]

\(P_0(\psi) = 4 + 18\psi + 12\psi^2 + \psi^3\) (Table 7.1 예제).

5.2 §7.4.2 여러 \(2\times2\) 표의 정보 통합

다중 센터 임상시험: 각 센터 \(i = 1, \ldots, n\) 에서 독립된 \(2\times2\) 표. 모형 (7.18):

\[ \text{logit}\,\pi_{1i} = \lambda_i + \Delta, \quad \text{logit}\,\pi_{2i} = \lambda_i \]

각 센터별 \(\lambda_i\) 는 자유 (\(n\) 개 장해 모수). Neyman–Scott 상황.

해결: 각 센터별로 조건화 → 각 센터가 비중심 초기하 \(H(\mathbf{m}_i, \mathbf{s}_i; \psi)\) 에 기여. 통합 조건부 로그우도

\[ \ell_c(\Delta) = \sum_i y_{1i}\Delta - \sum_i \log P_0^{(i)}(e^\Delta) \]

Mantel–Haenszel 추정량: 위 스코어 방정식의 근사해. 반복 없이 계산 가능한 폐쇄형 표현. 역학의 “표준 메타분석” 이 이것.

5.3 §7.4.3 예 — Ille-et-Vilaine 식도암 연구

Tuyns et al. (1977) 의 고전 사례-대조 연구. 식도암 200례 vs 대조 775명, 담배·알코올 노출별로 층화한 \(6 \times 4 = 24\) 층.

결과: 조건부 로지스틱으로 각 노출의 오즈비 추정. 알코올 \(\hat{\text{OR}} \approx 5.6\), 담배 \(\hat{\text{OR}} \approx 1.8\) 정도. 각 층별 독립 MLE 대신 모든 층을 통합하면서도 각 층의 기저 위험을 자동 보정.

이 데이터 분석이 역학의 교과서적 원형 — 조건부 로지스틱 회귀의 전형.

6 §7.5 다범주 데이터 응용

6.1 §7.5.1 매칭 쌍 (명목형 반응) — Quasi-Symmetry

쌍 \(i\) 의 대조·처리 반응이 각각 \(R_1, R_2 \in \{1, \ldots, k\}\). 모형:

대조 쌍 \(i\) 범주 \(j\) 확률 \(\propto \exp(\lambda_{ij})\)
처리 쌍 \(i\) 범주 \(j\) 확률 \(\propto \exp(\lambda_{ij} + \Delta_j)\)

\(\lambda_{ij}\) 는 쌍 \(\times\) 범주 별로 완전 자유 — 엄청난 수의 장해 모수.

조건화: 쌍의 반응 합 \(\mathbf{Z}_\bullet = \mathbf{Z}_1 + \mathbf{Z}_2\) 가 충분통계량. 동일 반응 쌍 (\(R_1 = R_2\)) 은 정보 없음. 불일치 쌍 \((i, j),\; i \ne j\) 의 조건부

\[ \Pr(R_1 = i \mid Z_\bullet) = \frac{e^{\Delta_j}}{e^{\Delta_i} + e^{\Delta_j}} \tag{7.21} \]

— \(\lambda\) 무관. 이항으로 환원:

\[ Y_{ij} \sim \text{Bin}(m_{ij}, \pi_{ij}), \quad \text{logit}(\pi_{ij}) = \Delta_j - \Delta_i, \quad m_{ij} = Y_{ij} + Y_{ji} \tag{7.22} \]

Caussinus (1965) 의 quasi-symmetry 모형과 동형. \(k(k-1)/2\) 개 독립 이항 로지스틱으로 분해.

동일 모형의 다른 이름들:

인구 이동: Gravity model. \(Y_{ij}\) = 지역 \(i \to j\) 이주자 수
쌍별 비교: Bradley–Terry (1952) 순위 모형. \(\pi_{ij}\) = \(i\) 가 \(j\) 를 이길 확률. \(\Delta_j\) 가 “실력” 순위

특이 구조: 모형식 \(\Delta_j - \Delta_i\) 의 디자인 행렬이 상수 벡터를 포함하지 않는다. \(k = 3\) 이면

\[ \mathbf{X} = \begin{pmatrix} 1 & -1 & 0 \\ 1 & 0 & -1 \\ 0 & 1 & -1 \end{pmatrix} \]

rank 2, 모든 열의 합이 0. 이것이 Bradley–Terry 의 수학적 특색.

적합도 검정: 잔차 이탈도 또는 Pearson, 자유도 \((k-1)(k-2)/2\).

6.2 §7.5.2 매칭 쌍 (순서형 반응)

순서형 반응에 비례 오즈 모형 (5.1) 을 적용:

\[ \text{logit}\,\gamma_{1j} = \theta_j, \quad \text{logit}\,\gamma_{2j} = \theta_j - \Delta, \quad j = 1, \ldots, k-1 \tag{7.23} \]

\(k-1\) 개 경계점 \(\theta_j\) 가 장해. 누적합 \(S_j = Z_{1j} + Z_{2j}\) 조건 하 \(Z_{1j}\) 는 비중심 초기하:

\[ Z_{1j} \mid S_j \sim H(\mathbf{m}, S_j; \psi), \quad \psi = e^\Delta \tag{7.24} \]

각 경계 \(j\) 마다 하나씩, 총 \(k-1\) 개의 비중심 초기하. 단, 이들은 서로 다른 표본공간에 정의돼 결합 분포가 명시적이지 않다.

해결 — Quasi-likelihood 방식 추정 함수 (식 7.25~7.26):

\[ U(\psi; \mathbf{Z}) = \sum_{j=1}^{k-1} w_j^* \{Z_{1j} - \chi_{1j}(\psi)\} \]

최적 가중치는 역공분산 행렬 기반. 점근적으로 비조건부 MLE 와 같은 분산 을 달성 (식 7.27 = Exercise 5.3 의 \(\tfrac{1}{3}(1 - \sum \pi_j^3)\) 공식).

6.3 §7.5.3 예 — 치즈 맛 실험 재방문

Table 5.1 의 첫 두 줄 (첨가물 A vs B) 만 사용해 순서형 조건부 추정 시연.

비조건부 MLE: \(\hat\Delta = -3.028\), SE 0.455
조건부 MLE: 거의 동일 값 (희소하지 않으므로)

핵심 메시지: 대부분의 실무 데이터에서 조건부 vs 비조건부 차이는 무시 가능. 매우 희소한 분할표(셀당 관측이 1~2개) 에서만 실질적 차이가 발생하며, 이때 조건부 접근이 거의 항상 덜 편향된다.

7 §7.6 참고문헌 — 지적 계보

주제	대표 문헌
조건부 추론 이론	Cox & Hinkley (1974), Barndorff-Nielsen (1985, 1986)
매칭 쌍·사례-대조	Breslow & Day (1980)
Fisher’s exact 역사	Fisher (1935), Yates (1934)
Mantel–Haenszel	Mantel & Haenszel (1959)
Bradley–Terry	Bradley & Terry (1952), Agresti (1984)
Caussinus quasi-symmetry	Caussinus (1965)
초기하 근사	Breslow & Cologne (1986), Barndorff-Nielsen & Cox (1979)
프로파일 수정	Cox & Reid (1987), McCullagh & Tibshirani (1988)

핵심 발전 단계:

Fisher (1922) 충분통계량 개념 → 조건화의 기초
Fisher (1935) 2×2 정확검정 → 초기하 응용의 원형
Cox (1972) 비례 위험 부분우도 → 조건부 아이디어의 생존분석 확장
Barndorff-Nielsen (1985) modified profile → 현대 고차원 추론의 기반
Cox & Reid (1987) orthogonal parameters → 현대 conditional inference 이론

8 §7.7 연습 미리보기

§7.7 의 연습 20여 문제는 대략 네 묶음.

정규 비율 Fieller 문제의 변형 (7.1–7.6) — 비율 추정의 정확 CI
REML 유도의 다양한 표현 (7.8–7.13) — 주변 우도가 어떻게 여러 가지로 쓰이는가
초기하 모멘트 계산 — \(P_r(\psi)\) 다항식 기법
매칭 쌍 quasi-symmetry 의 Bradley–Terry 해석 — 스포츠·선거 데이터 응용

9 Ch.7 의 현대적 파급

현대 실무 도구	Ch.7 어디에서 왔는가
`survival::clogit` (조건부 로지스틱)	§7.5.1 명목 매칭 쌍
`scipy.stats.fisher_exact`	§7.3.1 중심 초기하
Mantel–Haenszel test (메타분석)	§7.4.2 여러 \(2\times2\) 통합
`lme4::lmer` (REML)	§7.2.1 주변 우도
Bradley–Terry 랭킹 (체스 Elo, 스포츠)	§7.5.1 quasi-symmetry
Fieller’s CI (비율 추정)	§7.2.2 조건부 정확 추론
Partial likelihood (Cox 모형)	§7.2.2 의 비례 위험 버전
LASSO 의 profile-based tuning	§7.2.4 profile 우도
Barndorff-Nielsen 고차 근사	§7.2.4 modified profile

한 문장 요약: Ch.7 의 “조건부 우도” 는 단일 기법이 아니라 현대 통계학의 정확 추론 전반의 공통 언어 이다. 임상시험 메타분석, 사례-대조 역학, 생존분석, 스포츠 순위, 심지어 현대 머신러닝의 일부 고차 추론 기법까지 이 장의 원리 위에 서 있다.

10 읽는 방향 가이드

첫 독서 경로 (최단):

§7.1 장해 모수 문제 인식
§7.2.3 지수족 자동 조건화 (가장 직관적)
§7.3.1 중심 초기하 (Fisher’s exact 이해)
§7.4.1 두 이항 비교
§7.5.1 매칭 쌍 (Bradley–Terry)

깊이 있는 경로:

§7.2 전체 (네 기법 비교)
§7.3 전체 (초기하 족)
§7.4 + Mantel–Haenszel 외부 문헌
§7.5 + Bradley–Terry 문헌
Cox & Reid (1987), Barndorff-Nielsen (1985)

GLM 실무 중심:

§7.2.1 REML
§7.2.3 지수족 조건화
§7.4 이항 응용
conditional logistic regression 구현 문헌

11 코드 — Ch.7 의 다섯 도구 미리보기

import numpy as np
from scipy import stats
import statsmodels.api as sm

# === 1. REML (§7.2.1) : 분산 성분 불편 추정 ===
rng = np.random.default_rng(0)
n, p = 100, 3
X = rng.normal(size=(n, p))
y = X @ [1, -0.5, 2] + rng.normal(scale=2, size=n)
beta = np.linalg.lstsq(X, y, rcond=None)[0]
RSS = np.sum((y - X @ beta)**2)
print(f"MLE  sigma^2 = {RSS/n:.3f}  (편향)")
print(f"REML sigma^2 = {RSS/(n-p):.3f}  (불편)")

# === 2. Fisher's Exact Test (§7.3.1) : 초기하 정확검정 ===
table = np.array([[8, 2], [1, 5]])
odds, p_val = stats.fisher_exact(table, alternative="greater")
print(f"\nFisher Exact: OR={odds:.2f}, p={p_val:.4f}")

# === 3. Fieller CI (§7.2.2) : 비율 정확 신뢰구간 ===
y1, y2 = 3.0, 1.5  # 관측값
# score 기반 Fieller: (y2 - psi*y1)^2 <= z^2 * (1 + psi^2)
z = 1.96
a = y1**2 - z**2
b = -2*y1*y2
c = y2**2 - z**2
disc = b**2 - 4*a*c
if disc > 0 and a > 0:
    lo = (-b - np.sqrt(disc))/(2*a)
    hi = (-b + np.sqrt(disc))/(2*a)
    print(f"\nFieller 95% CI for psi = y2/y1: ({lo:.3f}, {hi:.3f})")

# === 4. Mantel-Haenszel (§7.4.2) : 여러 2x2 통합 ===
# 층화 2x2: (a_i, b_i; c_i, d_i)
strata = [
    np.array([[8, 2], [1, 5]]),
    np.array([[10, 3], [2, 7]]),
    np.array([[5, 1], [3, 4]]),
]
num, den = 0, 0
for t in strata:
    a, b, c, d = t[0,0], t[0,1], t[1,0], t[1,1]
    n = t.sum()
    num += a * d / n
    den += b * c / n
OR_MH = num / den
print(f"\nMantel-Haenszel OR = {OR_MH:.3f}")

# === 5. 조건부 로지스틱 (§7.5.1) : 매칭 쌍 ===
# 쌍마다 사례-대조 차이만 사용 (동일 응답 쌍은 무시)
# 예시: 각 쌍 (x_case, x_control)
pairs = [(1, 0), (1, 0), (0, 1), (1, 0), (1, 1), (0, 0)]
discordant = [(xc, xr) for xc, xr in pairs if xc != xr]
# P(case has x=1) = exp(beta*(x_case - x_ctrl)) / (1 + exp(...))
# 단순 조건부 MLE
from scipy.optimize import minimize
def nll(beta):
    ll = 0
    for xc, xr in discordant:
        dx = xc - xr
        ll += beta * dx - np.log(1 + np.exp(beta * dx))
    return -ll
res = minimize(nll, x0=0, method="BFGS")
print(f"\n매칭 쌍 조건부 로지스틱: beta_hat = {res.x[0]:.3f}")

각 섹션이 미니 예제로 작동. 각각의 상세 유도는 후속 포스트(06-2 hypergeometric, 06-3 Ille-et-Vilaine, 06-4 matched pairs)로 이어진다.

12 관련 주제

선행 지식

Log-linear Models — 개관
Log-linear ↔︎ Multinomial 쌍대성 (§6.4) — Ch.7 의 예고편
Likelihood Functions for Polytomous GLMs
Measurement Scales — 비례 오즈 이해
최대우도추정량 (MLE)

후속 주제 (각 소절 상세)

관련 개념

13 참고문헌

McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), Ch.7. Chapman & Hall.
Neyman, J. & Scott, E. L. (1948). Consistent estimates based on partially consistent observations. Econometrica, 16, 1–32.
Cox, D. R. & Hinkley, D. V. (1974). Theoretical Statistics. Chapman & Hall.
Cox, D. R. & Reid, N. (1987). Parameter orthogonality and approximate conditional inference. JRSS B, 49, 1–39.
Barndorff-Nielsen, O. E. (1985). On a formula for the distribution of the maximum likelihood estimator. Biometrika, 70, 343–365.
Fisher, R. A. (1935). The logic of inductive inference. JRSS A, 98, 39–82.
Mantel, N. & Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospective studies. JNCI, 22, 719–748.
Bradley, R. A. & Terry, M. E. (1952). Rank analysis of incomplete block designs, I. Biometrika, 39, 324–345.
Caussinus, H. (1965). Contribution à l’analyse statistique des tableaux de corrélation. Ann. Fac. Sci. Univ. Toulouse, 29, 77–183.
Breslow, N. E. & Day, N. E. (1980). Statistical Methods in Cancer Research, Vol. I. IARC.
Breslow, N. E. & Cologne, J. (1986). Methods of analysis of matched case-control studies. Biometrika, 73, 523–531.
Tuyns, A. J. et al. (1977). Le cancer de l’œsophage en Ille-et-Vilaine. Bull. Cancer, 64, 45–60.
Patterson, H. D. & Thompson, R. (1971). Recovery of inter-block information when block sizes are unequal. Biometrika, 58, 545–554.
Fieller, E. C. (1954). Some problems in interval estimation. JRSS B, 16, 175–185.
Agresti, A. (2013). Categorical Data Analysis (3rd ed.), Ch.8. Wiley.