Kwangmin Kim - 이항 GLM 심화 결과와 연습

1 왜 Ch.4 연습을 재구성하는가

McCullagh & Nelder §4.8 의 23 개 연습은 본문을 보조하는 드릴이지만, 함께 묶어 보면 이항 GLM 의 수학적 골격을 보여 준다.

분포 관계: Bernoulli ↔︎ Binomial ↔︎ Poisson 의 상호 변환, 극한, 변환 불변성.
이질성 분산: Beta-Binomial 과 클러스터 모형의 cumulant 구조 비교.
판별 분석과 로지스틱의 동치: Efron (1975) 의 고전 결과.
편향 최소화: 경험 로짓의 \(c = 1/2\) 가 왜 “마법 상수” 인가.
역 문제와 설계 효율: Fieller 신뢰집합, 후향 설계의 효율.
링크 함수의 분포 이론: 로지스틱·Gumbel 분포의 cumulant 계산.

23 → 6 으로 재묶는 이유: 각 결과는 실무 이항 GLM 의 어떤 질문에 직접 답한다. “왜 arcsine 변환?”, “왜 경험 로짓에서 \(+1/2\)?”, “후향 설계가 더 효율적일 수 있나?” 등.

직관: 연습은 본문의 단서를 실제 계산으로 확인시키는 도구다. §4.8 의 가치는 “각 결과가 어떻게 유도되는지 손을 움직여 보게 한다” 는 점. 이 포스트는 그 유도의 구조와 의의를 압축한다.

2 결과 1 — Bernoulli, Binomial, Poisson 의 상호 관계 (Ex 4.1~4.4, 4.7)

2.1 기초 — Bernoulli 합 = Binomial (Ex 4.1, 4.2)

\(Y_1, \dots, Y_m \overset{\text{iid}}{\sim} \mathrm{Bern}(\pi)\) 에서 특정 수열의 확률

\[ P(Y = y) \;=\; \pi^y(1-\pi)^{m-y} \]

이 수열 중 \(y\) 개 1 을 갖는 조합은 \(\binom{m}{y}\). 합치면 \(\mathrm{Bin}(m, \pi)\).

또 독립 이항 \(Y_1 \sim \mathrm{Bin}(m_1, \pi)\), \(Y_2 \sim \mathrm{Bin}(m_2, \pi)\) (같은 \(\pi\)) 의 합은 \(\mathrm{Bin}(m_1 + m_2, \pi)\).

GLM 의의: 이 성질이 covariate class 집계의 수학적 근거. 같은 공변량 값의 관측들을 합쳐 하나의 이항으로 다룰 수 있다.

2.2 다른 \(\pi\) 의 이항 합 — 오즈비 다항식 (Ex 4.3)

\(Y_1 \sim \mathrm{Bin}(m_1, \pi_1)\), \(Y_2 \sim \mathrm{Bin}(m_2, \pi_2)\) (다른 \(\pi\)) 의 합 \(Y = Y_1 + Y_2\) 의 분포:

\[ P(Y = y) \;=\; (1-\pi_1)^{m_1}\pi_2^y(1-\pi_2)^{m_2-y}\cdot P_0(\psi; m_1, m_2, y) \]

여기서 \(\psi = \pi_1(1-\pi_2)/\{\pi_2(1-\pi_1)\}\) = 오즈비, \(P_0\) 는 \(\psi\) 의 다항식.

특수 사례 \(\pi_1 = \pi_2\) → \(\psi = 1\) → \(P_0(1) = \binom{m_1+m_2}{y}\) — Ex 4.2 와 일치.

GLM 의의: 이 다항식 구조가 Fisher’s exact test 와 conditional logistic regression 의 기초. 조건부 분포 (\(y_{\cdot}\) 고정) 가 오즈비만의 함수.

2.3 두 Poisson 조건부 = Binomial (Ex 4.4)

\(Y_1 \sim \mathrm{Poi}(\mu)\), \(Y_2 \sim \mathrm{Poi}(\rho\mu)\) 독립:

\[ Y_1 + Y_2 \sim \mathrm{Poi}(\mu(1+\rho)) \]

\[ Y_1 | Y_1 + Y_2 = m \sim \mathrm{Bin}\left(m, \frac{1}{1+\rho}\right) \]

\(H_0: \rho = 1\) 검정: 주변 \(m\) 고정 하에 \(Y_1\) 의 분포가 \(\mathrm{Bin}(m, 1/2)\). 중심 이항 꼬리 확률로 검정.

GLM 의의: Ch.6 로그선형 모형 과 Ch.4 로지스틱 회귀 의 조건부 동치성. 같은 자료가 Poisson 또는 이항으로 다르게 모델링되지만 본질적으로 같은 정보.

2.4 Binomial → Poisson 근사 (Ex 4.7)

\(\pi = \mu/m\) 고정, \(m \to \infty\) 극한에서

\[ \frac{B(y; m, \mu/m)}{P(y; \mu)} \;\approx\; \left(\frac{m}{m-y}\right)^{1/2} \]

작은 \(y/m\) 에서 \(\to 1\) — Poisson 근사 정확.

GLM 의의: 희귀 사건 (보험 청구·의학 사망률) 에서 Poisson 이 근사 타당. Ch.6 으로의 자연스러운 확장.

2.5 arcsine 변환의 분산 안정화 (Ex 4.8)

\(Y \sim \mathrm{Bin}(m, \pi)\), \(Z = \arcsin\sqrt{Y/m}\) 의 델타 방법:

\[ E(Z) \;\approx\; \arcsin\sqrt\pi - \frac{1-2\pi}{8\sqrt{m\pi(1-\pi)}},\qquad \mathrm{Var}(Z) \;\approx\; \frac{1}{4m} \]

분산이 \(\pi\) 와 무관한 상수 \(1/(4m)\). 이것이 “variance-stabilizing” 의 의미.

GLM 의의: GLM 이전 시대의 표준 트릭. 현대에는 GLM 이 링크로 이 역할을 대체하지만, arcsine 은 작은 \(m\) 의 빠른 예비 분석에 유용.

3 결과 2 — 이질성 분산 구조 (Ex 4.5, 4.6, 4.17, 4.18)

3.1 고정 이질 — 분산 감소 (Ex 4.5)

\(Y_i \sim \mathrm{Bin}(m, \pi_i)\) 독립, \(Y = \sum Y_i\). 조건부 평균·분산:

\[ E(Y | \boldsymbol\pi) = m\cdot n\cdot \bar\pi = m_\cdot\bar\pi \]

\[ \mathrm{Var}(Y | \boldsymbol\pi) = m_\cdot\bar\pi(1-\bar\pi) - m(n-1)k_2(\pi) \]

\(k_2(\pi) = \sum(\pi_i - \bar\pi)^2/(n-1)\) 은 \(\pi\) 의 표본 분산. \(\pi\) 의 분산이 있으면 \(Y\) 분산 감소.

3.2 무작위 이질 — 분산 증가 (Ex 4.6, §4.5.1 재확인)

\(\pi_i\) 를 독립 확률변수로 (\(E\pi_i = \pi\), \(\mathrm{Var}\pi_i = \tau^2\pi(1-\pi)\)) 두면

\[ E(Y) = m_\cdot\pi,\qquad \mathrm{Var}(Y) = m_\cdot\pi(1-\pi)\{1 + (m-1)\tau^2\} \]

분산 팽창 (과산포). \(0 \le \tau^2 \le 1\) 이므로 \(\mathrm{Var}(Y) \ge m_\cdot\pi(1-\pi)\) — 이항 최소 분산.

3.3 역설 해소

두 결과가 반대로 보이는 이유:

고정: \(\pi_i\) 의 특정 값들 고정. 주변 분산은 “정보 감소 없이” 계산됨.
무작위: \(\pi_i\) 자체를 모름. 주변 분산은 “추가 불확실성” 까지 포함.

실무는 거의 항상 후자 (무작위).

3.4 Beta-Binomial 분포 (Ex 4.17)

\(\pi\) 가 \(\mathrm{Beta}(\alpha, \beta)\) 이면 주변 \(Y\):

\[ P(Y = y) \;=\; \binom{m}{y}\frac{B(\alpha+y, m+\beta-y)}{B(\alpha, \beta)} \]

평균·분산:

\[ E(Y) = m\pi,\qquad \mathrm{Var}(Y) = m\pi(1-\pi)\{1 + (m-1)\tau^2\} \]

여기서 \(\pi = \alpha/(\alpha+\beta)\), \(\tau^2 = 1/(\alpha+\beta+1)\).

중요 차이: Beta-Binomial 의 \(\sigma^2(m) = 1 + (m-1)\tau^2\) 는 \(m\) 의 선형 함수. 반면 클러스터 모형 (4.20) 은 \(\sigma^2 = 1 + (k-1)\tau^2\) 상수. 잔차 vs \(m_i\) 플롯으로 진단.

3.5 클러스터 모형의 고차 cumulant (Ex 4.18)

\(\pi_i\) 의 3 차 cumulant \(\kappa_3(\pi_i) = \tau_3\pi(1-\pi)(1-2\pi)\) 포함:

\[ \kappa_3(Y) = m\pi(1-\pi)(1-2\pi)\{1 + 3(k-1)\tau_2 + (k-1)(k-2)\tau_3\} \]

\(\kappa_4\) 는 훨씬 복잡 — 2 차 모멘트만으로 모든 cumulant 를 결정하지 못함. Beyond 2차 효과를 모형화하려면 추가 모수 필요.

의의: Quasi-likelihood 에서 \(\sigma^2\) 하나로 2차까지 고정. 3차·4차까지 가려면 추가 모수로 “왜도·첨도 모형화” 필요. 실무에서는 2차로 충분한 경우가 많다.

4 결과 3 — 로지스틱 판별 분석 (Efron 1975, Ex 4.12, 4.13)

4.1 설정

\(p\) 개 측정 변수 \(\mathbf{Z}\) 로 두 집단 \(G_1, G_2\) 를 구분. 사전 확률 \(\pi_1 = P(G_1)\).

\[ G_1: \mathbf{Z} \sim \mathcal N_p(\boldsymbol\mu_1, \boldsymbol\Sigma) \]

\[ G_2: \mathbf{Z} \sim \mathcal N_p(\boldsymbol\mu_2, \boldsymbol\Sigma) \]

(공분산 \(\boldsymbol\Sigma\) 공유 — LDA 가정.)

4.2 사후 확률이 로지스틱 형태

Bayes 정리:

\[ P(Y = 1 | \mathbf{Z} = \mathbf{z}^*) \;=\; \frac{\pi_1 f_1(\mathbf{z}^*)}{\pi_1 f_1(\mathbf{z}^*) + (1-\pi_1) f_2(\mathbf{z}^*)} \]

오즈:

\[ \frac{P(Y=1|\mathbf{z}^*)}{P(Y=2|\mathbf{z}^*)} \;=\; \frac{\pi_1}{1-\pi_1}\exp(\alpha + \boldsymbol\beta^\top\mathbf{z}^*) \]

여기서

\[ \alpha \;=\; \tfrac12\boldsymbol\mu_2^\top\boldsymbol\Sigma^{-1}\boldsymbol\mu_2 - \tfrac12\boldsymbol\mu_1^\top\boldsymbol\Sigma^{-1}\boldsymbol\mu_1 \]

\[ \boldsymbol\beta \;=\; \boldsymbol\Sigma^{-1}(\boldsymbol\mu_1 - \boldsymbol\mu_2) \]

사후 오즈가 \(\mathbf{z}\) 에 대해 로지스틱 형태. 판별 분석 (LDA) 이 로지스틱 회귀와 같은 분류 규칙을 준다.

4.3 두 추정 방법의 차이

LDA (Normal 가정): - \(\boldsymbol\mu_1, \boldsymbol\mu_2, \boldsymbol\Sigma\) 각각 추정. - \(\boldsymbol\beta = \boldsymbol\Sigma^{-1}(\boldsymbol\mu_1 - \boldsymbol\mu_2)\) 로 대입. - 정규 가정 참이면 효율적.

로지스틱 회귀: - \(\boldsymbol\beta\) 직접 추정 (지수족 MLE). - 분포 가정 없음. - 정규 가정 틀리면 LDA 보다 robust.

4.4 Efron (1975) 의 수치 결과

정규 가정 하에: - LDA: 더 정확한 CI·검정. - 로지스틱: 약 5–10% 효율 손실 (asymptotic relative efficiency).

비정규 자료에서는: - LDA: 편향 가능. - 로지스틱: 일관성 유지.

실무 권장: 자료가 확실히 다변량 정규면 LDA, 아니면 로지스틱. 대부분의 실무에서 후자가 더 안전.

4.5 지수 분포로의 확장 (Ex 4.13)

정규 대신 독립 지수 분포 (\(Z_j \sim \mathrm{Exp}(\lambda_{j,g})\)) 를 가정해도 유사 계산. 사후 오즈가 다시 로지스틱 형태 — 공변량을 로그 척도로 입력하면 계수가 대응.

의의: “로지스틱 회귀는 정규성에 의존하지 않는다.” 잠재 분포가 Normal·Exponential·… 여러 경우가 다 로지스틱에 흡수됨.

직관: 로지스틱 회귀의 생명력은 “분포 가정 없이” 오즈비 해석을 유지하는 유연성에 있다. LDA 가 “Normal 이면 최적” 이라면 로지스틱은 “어느 분포여도 괜찮은”.

5 결과 4 — 편향 최소화 변환 (Ex 4.14, 4.15, 4.16)

5.1 경험 로짓의 대칭성 요구 (Ex 4.14)

\(Y \sim \mathrm{Bin}(m, \pi)\) 일 때 \(m - Y \sim \mathrm{Bin}(m, 1-\pi)\). 로그 오즈 \(\lambda = \log\{\pi/(1-\pi)\}\) 는 \(Y \to m - Y\) 변환 하에서 \(\lambda' = -\lambda\).

변환

\[ \tilde\lambda \;=\; \log\frac{Y + c_1}{m - Y + c_2} \]

의 일관성 (\(Y \to m-Y\) 하에서 \(\tilde\lambda \to -\tilde\lambda\)) 을 위해 \(c_1 = c_2\) 필요.

5.2 편향의 차수 (Ex 4.15)

\(Y = m\pi + \sqrt{m\pi(1-\pi)}Z\), \(Z = O_p(1)\) 로 표현. 로그 확장:

\[ E\{\log(Y+c)\} \;=\; \log(m\pi) + \frac{c}{m\pi} - \frac{1-\pi}{2m\pi} + O(m^{-3/2}) \]

대응 계산 후 (대칭 \(c_1 = c_2 = c\) 가정)

\[ E(\tilde\lambda) \;=\; \lambda + \frac{(1-2\pi)(c - 1/2)}{m\pi(1-\pi)} + O(m^{-3/2}) \]

핵심: \(c = 1/2\) 에서 \(O(m^{-1})\) 편향 항이 사라짐. 남은 편향은 \(O(m^{-3/2})\) 로 훨씬 작음.

다른 \(c\) 값 (예: 0, 1, 그 밖): - \(c = 0\): MLE. \(O(m^{-1})\) 편향. 경계값 (\(Y=0, m\)) 에서 발산. - \(c = 1/2\): 최적 편향 + 경계 안정. 경험 로짓의 표준. - \(c = 1\): 동일 차수 편향, 없는 이점.

정리: \(c = 1/2\) 는 수학적 최적 + 수치적 안정 의 우연한 일치. Cox (1970) 의 고전 결과.

5.3 Haldane 보정 (Ex 4.16)

\(Y_1, \dots, Y_r\) 이 \(\mathrm{Bin}(m_i, \pi)\) 독립 (공통 \(\pi\), 다른 \(m_i\)). \(\hat\pi = Y_\cdot/m_\cdot\).

Pearson 스타일 분산 추정량

\[ s^2 \;=\; \frac{1}{r-1}\sum_i\frac{(Y_i - m_i\hat\pi)^2}{m_i\hat\pi(1-\hat\pi)} \]

의 기대값:

\[ E(s^2) \;=\; \frac{m_\cdot}{m_\cdot - 1} \]

\(r-1\) 이 아니라 \(m_\cdot/(m_\cdot - 1)\). 이항 자료의 \(\sigma^2 = 1\) 추정에 편향.

Haldane 수정: \(s^2\) 에 \((m_\cdot - 1)/m_\cdot\) 곱해 편향 제거. 과산포 없는 영가설 하에서 기대값 정확히 1.

의의: (4.22) 복제 추정의 표준 공식이 이 수정을 반영. 순진한 Pearson 제곱합은 이항 자료에서 편향됨.

6 결과 5 — 역 문제와 설계 효율 (Ex 4.19, 4.20, 4.21)

6.1 역 문제 — 용량 추정

전통 로지스틱: “공변량 \(x\) 에서 확률 \(\pi\)?” → 순방향.

역 문제: “확률 \(\pi_0\) 를 주는 \(x_0\)?” → 역방향.

6.2 Reduced model (Ex 4.19)

가설 \(H_0: \pi(x_0) = \pi_0\) 하에 \(\beta_0 = g(\pi_0) - \beta_1 x_0\). 모형 재표현:

\[ g(\pi) \;=\; \beta_0(1 - x/x_0) + g(\pi_0)\cdot x/x_0 \]

즉 \(x_0\) 를 고정 offset 처럼 다루고 \(\beta_0, \beta_1\) 을 재모수화. 통상 소프트웨어로 적합 가능.

6.3 Fieller 신뢰구간 (Ex 4.20)

\(x_0\) 에 대한 축약 모형의 잔차 이탈도 \(D(x_0)\) 를 \(x_0\) 함수로 그린다. 최소 \(D\) 에서 \(\chi^2_1\) 임계값 아래 영역이 \(x_0\) 의 신뢰구간.

공식적으로

\[ \left|\frac{\hat\beta_0 + \hat\beta_1 x_0 - g(\pi_0)}{v(x_0)}\right| < k_{\alpha/2}^* \]

\(v(x_0)^2 = \mathrm{Var}(\hat\beta_0) + 2x_0\,\mathrm{Cov}(\hat\beta_0, \hat\beta_1) + x_0^2\,\mathrm{Var}(\hat\beta_1)\).

특징: - 신뢰”집합” 은 유한 구간, 반무한 구간, 또는 구간의 여집합 (두 개의 발산) 일 수 있다. - 일반 Wald CI 와 달리 log-likelihood 의 비선형성을 반영.

실무 권장: 복수 링크에서 신뢰집합 계산. 일치할 때만 신뢰.

6.4 후향 설계의 효율 (Ex 4.21)

교재 Table 4.2 의 자료에서:

전향: 각 노출군 100 명씩, 총 200 명. 로그 오즈비 분산 \(\approx 0.472\).
후향: Case 100, control 100. 로그 오즈비 분산 \(\approx 0.093\).

상대 효율 \(0.472 / 0.093 \approx 5.1\). 후향이 약 5 배 효율적.

6.5 왜 후향이 효율적인가

희귀 질환 (\(\pi_{\cdot 1} = 0.05\)) 에서 전향 표본의 대부분이 \(\bar D\) (질병 없음). 검정력이 \(D\) 정보에 따라 결정되므로 소수의 \(D\) 가 병목.

후향은 \(D\) 수를 인위적으로 균형시켜 이 병목을 제거.

단, 전향은: - 절대 위험·발병률 추정 가능. - 시간적 순서 (인과 방향) 명확.

후향은: - 오즈비만 추정 (Prentice-Pyke). - 회상 편향 (recall bias) 위험.

설계 선택은 효율뿐 아니라 연구 질문·편향 제어·실행 가능성의 종합.

7 결과 6 — 링크 함수의 분포 이론 (Ex 4.9, 4.22, 4.23)

7.1 Cumulant 항등식 (Ex 4.9, §2.7 재확인)

cumulant 함수 \(m K(\theta)\) 를 갖는 지수족에서

\[ \kappa_3(\mu) = \kappa_2(\mu)\kappa_2'(\mu),\qquad \frac{\kappa_3}{\kappa_2^2} = \frac{d}{d\mu}\log\kappa_2(\mu) \]

이항에서 \(K(\theta) = \log(1+e^\theta)\) 로 검증: - \(\kappa_2 = \pi(1-\pi)\) - \(\kappa_2' = 1 - 2\pi\) - \(\kappa_3 = \pi(1-\pi)(1-2\pi)\)

Anscombe 변환 유도 (Ex 4.10): 대칭화 변환 \(g(\mu)\) 는

\[ 3\kappa_2^2 g''(\mu) + g'(\mu)\kappa_3(\mu) = 0 \]

위 cumulant 관계를 대입하면 \(g'(\mu) \propto \kappa_2^{-1/3}(\mu) = V^{-1/3}(\mu)\).

\[ g(\mu) \;=\; \int^\mu V^{-1/3}(t)\,dt \]

이것이 Anscombe 잔차 변환 공식 (§4.2.5).

7.2 로지스틱 분포의 cumulants (Ex 4.22)

로지스틱 밀도

\[ f_X(x) = \frac{e^x}{(1+e^x)^2} \]

는 0 대칭. CDF \(F(x) = e^x/(1+e^x)\) — 로지스틱 링크의 역함수.

MGF: \(M_X(t) = \pi t / \sin(\pi t)\).

짝수 cumulants:

\[ \kappa_2 = \pi^2/3,\quad \kappa_4 = 2\pi^4/15,\quad \kappa_6 = 16\pi^6/63, \dots \]

점근적으로 \(\kappa_{2r} \approx 2(2r-1)!\{1 + 2^{-2r}\}\).

정확 공식: Riemann zeta 함수 이용.

\[ \kappa_{2r} \;=\; 2(2r-1)!\,\zeta(2r) \]

7.3 Gumbel 분포의 cumulants (Ex 4.23)

\(Y = \log X\), \(X\) 는 단위 지수. 밀도

\[ f_Y(y) = e^{y - e^y} \]

(Gumbel minimum 분포). CDF 는 cloglog 링크의 역함수와 관련.

MGF: \(M_Y(t) = \Gamma(1+t)\).

\[ \kappa_r = \psi^{(r-1)}(1) = (-1)^r(r-1)!\,\zeta(r) \]

처음 네 cumulants:

\[ \kappa_1 = -\gamma \approx -0.5772,\quad \kappa_2 = \pi^2/6,\quad \kappa_3 = -2.40411,\quad \kappa_4 = \pi^4/15 \]

로지스틱과의 관계: 로지스틱의 짝수 cumulant = Gumbel 짝수 cumulant \(\times 2\). 두 분포가 “차이의 분포” 로 연결 — \(X_1 - X_2\) (두 Gumbel) 가 로지스틱.

7.4 의의

네 링크 함수는 모두 어떤 분포의 CDF. 그 분포의 cumulant 가 해당 링크의 통계적 성질을 결정. 로지스틱의 풍부한 cumulant 구조가 여러 점에서 편의 (정준성, 대칭성, zeta 함수 유도) 를 제공.

8 코드 예시

8.1 Step 1: Poisson 조건부 = Binomial 검증 (Ex 4.4)

import numpy as np
from scipy.stats import poisson, binom

rng = np.random.default_rng(0)
mu, rho = 3.0, 1.5

# 두 Poisson 독립 표본
n_sim = 100000
Y1 = rng.poisson(mu, size=n_sim)
Y2 = rng.poisson(rho * mu, size=n_sim)
Y_sum = Y1 + Y2

# 주변 합은 Poisson(mu(1+rho))?
print(f"Y1+Y2 평균: {Y_sum.mean():.3f}  (이론 {mu*(1+rho)})")

# 조건부 Y1 | Y1+Y2 = m 은 Binomial(m, 1/(1+rho))?
m_val = 10
mask = (Y_sum == m_val)
print(f"\n조건부 Y1 | Y1+Y2=10:")
print(f"  관측 평균: {Y1[mask].mean():.3f}  (이론 {m_val/(1+rho):.3f})")
print(f"  관측 분산: {Y1[mask].var():.3f}  (이론 {m_val*1/(1+rho)*rho/(1+rho):.3f})")

\(Y_1 | Y_1 + Y_2 = m\) 이 \(\mathrm{Bin}(m, 1/(1+\rho))\) 임을 수치 확인. Ch.4-Ch.6 동치성 근거.

8.2 Step 2: 이질성 역설 비교 (Ex 4.5, 4.6)

# 고정 vs 무작위 이질
m, n = 10, 20
pi_mean = 0.4

# 고정 이질: 특정 pi_i 값들
pi_fixed = np.linspace(0.2, 0.6, n)
print(f"고정 이질 (pi_i = {pi_fixed[0]:.2f} ~ {pi_fixed[-1]:.2f}):")
k2 = np.var(pi_fixed, ddof=1)
bar_pi = pi_fixed.mean()
Var_Y_fixed = n*m*bar_pi*(1-bar_pi) - m*(n-1)*k2
print(f"  Var(Y) = {Var_Y_fixed:.2f}")
print(f"  이항 최소 분산: {n*m*bar_pi*(1-bar_pi):.2f}")

# 무작위 이질: pi_i 가 Beta 분포에서
n_sim = 50000
tau2 = k2 / (pi_mean*(1-pi_mean))   # 고정 이질의 tau^2 로 맞춤
# Beta(alpha, beta) with mean pi, var tau^2 pi(1-pi)
alpha_b = pi_mean * (1/tau2 - 1)
beta_b  = (1-pi_mean) * (1/tau2 - 1)
pi_random = rng.beta(alpha_b, beta_b, size=(n_sim, n))
Y_random = rng.binomial(m, pi_random).sum(axis=1)
print(f"\n무작위 이질 (동일 tau²={tau2:.3f}):")
print(f"  Var(Y) = {Y_random.var():.2f}")
print(f"  이론:   {n*m*pi_mean*(1-pi_mean)*(1 + (m-1)*tau2):.2f}")

같은 \(\tau^2\) 에서 고정은 분산 감소, 무작위는 증가. 역설의 수치 확인.

8.3 Step 3: 경험 로짓의 \(c = 1/2\) 최적성 (Ex 4.15)

pi_true = 0.3
lambda_true = np.log(pi_true / (1-pi_true))

for m in [20, 50, 100, 200]:
    n_sim = 10000
    y = rng.binomial(m, pi_true, size=n_sim).astype(float)
    results = {}
    for c in [0, 0.25, 0.5, 0.75, 1.0]:
        lam_hat = np.log((y + c) / (m - y + c + 1e-10))
        bias = lam_hat.mean() - lambda_true
        results[c] = bias
    # O(m^{-1}) 스케일 확인
    scaled = {c: b * m for c, b in results.items()}
    print(f"m={m}: m × bias =", " ".join(f"{c}:{b:+.4f}" for c, b in scaled.items()))

\(c = 0.5\) 에서 m × bias 가 다른 \(c\) 대비 현저히 작음. \(m\) 증가에 따른 감소 패턴도 확인.

8.4 Step 4: Fieller 역 문제 CI (Ex 4.19, 4.20)

import statsmodels.api as sm

# 교재 Table 4.3 재구성
x_obs = np.array([0, 1, 2])
y_obs = np.array([3, 5, 8])
m_obs = np.array([10, 10, 10])
X = np.column_stack([np.ones(3), x_obs])
Y = np.column_stack([y_obs, m_obs - y_obs])
m_fit = sm.GLM(Y, X, family=sm.families.Binomial()).fit()

b0, b1 = m_fit.params
V = m_fit.cov_params().values
pi_0 = 0.01
g_pi0 = np.log(pi_0 / (1 - pi_0))          # logit
k = 1.96

# Fieller 집합: (b0 + b1*x0 - g_pi0)^2 / v(x0)^2 < k^2
def is_in_CI(x0):
    num = (b0 + b1*x0 - g_pi0)**2
    v2 = V[0,0] + 2*x0*V[0,1] + x0**2*V[1,1]
    return num < k**2 * v2

x_grid = np.linspace(-15, 5, 1000)
in_CI = np.array([is_in_CI(x) for x in x_grid])
bounds = x_grid[in_CI]
print(f"Fieller 95% CI for x_0 (pi_0 = 0.01):")
print(f"  [{bounds.min():.3f}, {bounds.max():.3f}]")

# 점 추정
x0_hat = (g_pi0 - b0) / b1
print(f"점 추정: x_0 = {x0_hat:.3f}")

Fieller 의 비대칭 CI 가 Wald 근사와 다를 수 있음을 확인.

8.5 Step 5: 로지스틱 판별 vs 로지스틱 회귀 (Ex 4.12)

# LDA vs Logistic on simulated Normal data
rng = np.random.default_rng(0)
n_per = 200
p = 3
mu_1 = np.array([1, 1, 0])
mu_2 = np.array([-1, 0, 1])
Sigma = np.eye(p) * 0.5 + 0.3
Sigma_inv = np.linalg.inv(Sigma)

# LDA 이론 계수
alpha_LDA = 0.5 * mu_2 @ Sigma_inv @ mu_2 - 0.5 * mu_1 @ Sigma_inv @ mu_1
beta_LDA = Sigma_inv @ (mu_1 - mu_2)

# 자료 생성
Z1 = rng.multivariate_normal(mu_1, Sigma, size=n_per)
Z2 = rng.multivariate_normal(mu_2, Sigma, size=n_per)
Z = np.vstack([Z1, Z2])
y = np.concatenate([np.ones(n_per), np.zeros(n_per)])

# 로지스틱 회귀
X = sm.add_constant(Z)
m_log = sm.GLM(y, X, family=sm.families.Binomial()).fit(disp=0)

print(f"LDA 이론:       alpha = {alpha_LDA:+.3f}, beta = {beta_LDA}")
print(f"로지스틱 추정:  alpha = {m_log.params[0]:+.3f}, beta = {m_log.params[1:]}")
# 두 계수 추정이 비슷함 확인

정규 자료에서 LDA 이론값과 로지스틱 회귀 추정값이 유사. Efron (1975) 의 동치성 증명.

9 흔한 실수

실수	처방
단순 Pearson \(s^2\) 로 \(\sigma^2\) 검정	Haldane 수정 \((m_\cdot - 1)/m_\cdot\) 필요
arcsine 변환을 GLM 에 통합	GLM 이 변환 대체. 예비 분석에만
경험 로짓 \(c = 1\) 사용	\(c = 1/2\) 가 유일한 최적 편향
후향 설계의 모든 분석을 전향처럼	오즈비만 추정. 절대 위험 불가
Fieller CI 를 Wald 로 대체	비대칭성 놓침. 복수 링크 비교 필요
LDA 계수를 Normal 가정 없이 로지스틱 대체	비정규에서 편향. 로지스틱이 더 안전
두 Poisson 의 주변합으로 로지스틱 검정	조건부 분포 쓰기. Ex 4.4 의 정확한 방법

10 요약

결과 1 (Ex 4.1~4.4, 4.7, 4.8): Bernoulli/Binomial/Poisson 의 상호 변환. Covariate class 집계·Fisher’s exact·arcsine 변환의 수학적 근거.
결과 2 (Ex 4.5, 4.6, 4.17, 4.18): 고정 vs 무작위 이질의 분산 구조. Beta-Binomial (\(\sigma^2 \propto m\)) vs 클러스터 (\(\sigma^2\) 상수). 고차 cumulant 가 모형 간 차이.
결과 3 (Ex 4.12, 4.13, Efron 1975): LDA = 로지스틱 회귀 (정규 가정 하). \(\boldsymbol\beta = \boldsymbol\Sigma^{-1}(\boldsymbol\mu_1 - \boldsymbol\mu_2)\). 비정규에서는 로지스틱이 더 robust.
결과 4 (Ex 4.14, 4.15, 4.16): 경험 로짓 \(c = 1/2\) 만 \(O(m^{-2})\) 편향. Haldane 수정이 \(s^2\) 의 이항 편향 제거.
결과 5 (Ex 4.19~4.21): Fieller 비대칭 CI, 희귀 질환에서 후향 설계의 5 배 효율 이득.
결과 6 (Ex 4.9, 4.22, 4.23): Cumulant 항등식 \(\kappa_3 = \kappa_2 \kappa_2'\), Anscombe 변환 유도, 로지스틱·Gumbel 분포의 zeta 함수 cumulant.

한 줄 요약: Ch.4 의 23 개 연습은 이항 GLM 의 “수학적 뿌리” — 분포 변환, 이질성 구조, 판별 분석 동치, 편향 최적화, 설계 효율, 링크 함수의 분포 이론 — 을 손으로 확인시킨다. 본문이 “이렇게 한다” 를 알려준다면 연습은 “왜 그런지” 를 보여 준다.

11 관련 주제

선행 지식

이항 자료 GLM 개관
이항분포 — cumulant 구조
이항 반응 모형 — 네 링크, Prentice-Pyke
이항 우도함수 — 편향 공식
과산포 — 무작위 이질

관련 개념

GLM 심화 결과와 연습 — Ch.2 — Exponential tilting, cumulant 항등식
선형모형 심화 결과와 연습 — Ch.3 — 설계 행렬, aliasing

후속 주제

Polytomous Data (McCullagh Ch.5) — 다범주 반응
Log-linear Models (McCullagh Ch.6) — Poisson 조건부 연결
LDA vs Logistic 현대 비교 — Hastie-Tibshirani-Friedman
Fieller’s theorem 일반 이론