1 개요 — Part IV 마지막 관문
Ch.14~17에서 다룬 모든 모형은 완전히 관측된 데이터를 가정했다. 현실의 데이터는 거의 항상 결측을 포함한다:
- Item nonresponse: 설문 조사에서 특정 질문에 미응답.
- Unit nonresponse: 전체 응답자 결측 (전화 안 받음).
- Dropout: 종단 연구에서 중도 이탈.
- Censoring: 생존 연구에서 관측 종료 시점까지 사건 미발생.
- 측정 장비 실패: 센서 오류, 데이터 손실.
Ch.18 Models for Missing Data 는 이 결측을 베이즈 프레임워크 안에서 원칙적으로 다룬다. 핵심 도구:
- MAR (Missing at Random) 가정과 ignorability.
- Multiple imputation (Rubin 1987).
- Data augmentation (Tanner-Wong 1987).
- 연속·범주 혼합 joint model.
- Ch.14 — 정규 likelihood + 평균 회귀.
- Ch.15 — 정규 likelihood + 계층 구조.
- Ch.16 — 비정규 likelihood (Poisson, binomial, multinomial).
- Ch.17 — Heavy-tail likelihood (\(t\), NegBin).
- Ch.18 — 결측 데이터 확장.
Ch.18 이 Part IV 의 완결. 각 장이 “완전 관측” 가정 위에 쌓여 왔다면, 이 장이 그 가정 자체를 완화한다.
핵심 통찰 (Gelman): “베이즈에서 결측 데이터는 모수와 수학적으로 동등”. 둘 다 “uncertain quantities with joint posterior”. 실무 차이는 모형 설정 단계 에서의 역할 (관측 과정 분리).
Ch.17의 scale mixture \(V_i\) 도 “missing data” 로 볼 수 있다는 점에서 Ch.17 과 Ch.18 은 깊은 수학적 공통 기반 공유.
2 Ch.18의 논리 지도
| 절 | 핵심 질문 | 주요 결과 |
|---|---|---|
| § 18.1 | 결측 메커니즘의 분류? | MAR/MCAR/MNAR + ignorability 식 (18.2) |
| § 18.2 | Multiple imputation 이란? | 3-step 절차 + Rubin combining rules |
| § 18.3 | 다변량 정규/\(t\) 결측? | EM + Gibbs for 충분 통계량 |
| § 18.4 | 여론조사 결측 예제? | 1988 대통령 선거 51개 poll imputation |
| § 18.5 | 범주형 데이터 결측? | Loglinear (Ch.16 § 16.7) 활용 |
| § 18.6 | Slovenia 설문 예제? | 3×3×3 표, “don’t know” 를 MAR 으로 |
| § 18.7 | Bibliographic note | Missing data 문헌 |
| § 18.8 | Exercises | 정규 결측·Slovenia·nonignorable 민감도 |
3 § 18.1 Notation — MAR/MCAR/Ignorability
3.1 기본 표기
- \(y\) = complete data (결측 없을 때의 관측).
- \(y = (y_{\text{obs}}, y_{\text{mis}})\) — 관측 + 결측 분할.
- \(I\) = inclusion indicator — \(y\) 와 같은 구조, \(I_{ij} = 1\) if observed, \(0\) if missing.
- \(\theta\) = data model parameters (관심 대상).
- \(\phi\) = missing-data mechanism parameters.
3.2 결합 분포
\[ p(y, I | \theta, \phi) = p(y | \theta) \cdot p(I | y, \phi) \]
두 부분:
- Data model \(p(y | \theta)\) — Ch.14~17 에서 다룬 표준 모형.
- Missingness model \(p(I | y, \phi)\) — 결측이 왜 발생했는지의 확률 모형.
3.3 관측 데이터의 likelihood — 식 (18.1)
실제 관측되는 것은 \((y_{\text{obs}}, I)\):
\[ p(y_{\text{obs}}, I | \theta, \phi) = \int p(y_{\text{obs}}, y_{\text{mis}} | \theta) \cdot p(I | y_{\text{obs}}, y_{\text{mis}}, \phi) \, dy_{\text{mis}} \quad \text{(18.1)} \]
\(y_{\text{mis}}\) 에 대해 적분. 관측 안 된 부분을 marginalize.
3.4 MAR (Missing at Random) — 식 (18.2)
정의: 결측 확률이 관측 값에만 의존, 결측 값에는 무관.
\[ p(I | y_{\text{obs}}, y_{\text{mis}}, \phi) = p(I | y_{\text{obs}}, \phi) \]
이 조건 하에서 (18.1) 이 factorize:
\[ p(y_{\text{obs}}, I | \theta, \phi) = p(I | y_{\text{obs}}, \phi) \cdot p(y_{\text{obs}} | \theta) \quad \text{(18.2)} \]
3.5 Ignorability
MAR + parameter distinctness (\(\theta \perp \phi\) in prior) → ignorable.
이 경우 \(\theta\) 추론은 \(p(I | y_{\text{obs}}, \phi)\) 무시하고
\[ p(\theta | y_{\text{obs}}) \propto p(\theta) \cdot p(y_{\text{obs}} | \theta) \]
만으로 가능. 결측 메커니즘 모델링 불필요.
3.6 MCAR (Missing Completely at Random) — 식 (18.3)
더 강한 가정: 결측 확률이 어떤 값에도 무관.
\[ p(I | y_{\text{obs}}, y_{\text{mis}}, \phi) = p(I | \phi) \]
MCAR ⟹ MAR (역은 아님).
실무적 드물다: “결측이 완전히 무작위” 는 매우 제한적. 실제로는 MAR 정도가 현실적 가정.
3.7 MNAR (Missing Not at Random) — Nonignorable
MAR 도 아닌 경우. 결측 자체가 결측 값에 의존.
예시: 고소득자가 소득 공개 안 할 가능성이 높음 → 소득 결측이 소득 값 에 의존. MNAR.
처리: 결측 메커니즘을 명시적으로 모델링 해야. \(p(I | y, \phi)\) 가 \(y_{\text{mis}}\) 에 의존하는 형태로. 민감도 분석이 매우 중요.
3.8 MCAR ⊂ MAR ⊂ MNAR 의 위계
| 수준 | 정의 | 실무 빈도 | 결측 모형 필요? |
|---|---|---|---|
| MCAR | 완전 무작위 | 드물 | No |
| MAR | 관측에만 의존 | 흔함 (가정 시) | No (ignorable) |
| MNAR | 결측 값에 의존 | 매우 흔함 (현실) | Yes |
MAR 이 실제 성립하는지는 본질적으로 확인 불가 — 관측 안 된 값과 결측 패턴의 관계를 모르기 때문.
실무 전략 (Rubin·Gelman):
- 많은 보조 변수 포함: 결측 메커니즘에 관련 있을 만한 변수 추가. 더 많은 정보 조건 시 MAR이 더 타당.
- 민감도 분석: MAR 가정 하 결과 + 합리적 MNAR 대안 모형 결과 비교.
- 도메인 지식 활용: 결측이 왜 발생했는지 서사 (전화 안 받음, 고령자 문자 거부 등) 로 MAR 판단.
경험 법칙: 결측 비율이 작으면 (< 10%) MAR 가정의 영향 작음. 크면 (> 30%) MAR이 결정적 → 민감도 분석 필수.
3.9 소득 예시
\(y = (\text{age}, \text{income})\), 나이는 항상 관측, 소득 일부 결측.
| 시나리오 | 결측 메커니즘 | 분류 |
|---|---|---|
| 소득 결측 확률 = 상수 | \(p(I)\) | MCAR |
| 나이 그룹별 결측률 다름 | \(p(I \| \text{age})\) | MAR |
| 같은 나이 그룹 내에서도 고소득이 결측 | \(p(I \| \text{age}, \text{income})\) | MNAR |
4 § 18.2 Multiple Imputation — 3-Step 절차
4.1 Motivation
Single imputation (한 번 대체) 의 문제: 결측 자체의 불확실성 반영 안 됨. 대체값을 “확실” 한 것처럼 다룸 → standard error 과소.
Multiple imputation (Rubin 1987): 여러 번 대체, 각각 분석 후 불확실성 통합.
4.2 3-Step 절차
Step 1 — Imputation: \(K\) 개 imputed datasets 생성.
- Joint 모형 \(p(X, y | \theta, \psi)\) 에 따라 \((X_{\text{mis}}, \theta, \psi)\) 의 사후 \(p(X_{\text{mis}}, \theta, \psi | X_{\text{obs}}, y)\) 추론.
- \(K\) 개 (예: 5~10) posterior draws \(X_{\text{mis}}^k\) 저장.
- 각 draw 를 complete dataset \(X^k = (X_{\text{obs}}, X_{\text{mis}}^k)\) 로 변환.
Step 2 — Analysis: 각 imputed dataset 에 원 분석 수행.
\(k = 1, \dots, K\):
\[ \hat\theta_k, \hat W_k = \text{analysis}(X^k, y) \]
\(\hat\theta_k\) = 관심 모수 추정, \(\hat W_k\) = 분산 추정.
Step 3 — Combining: \(K\) 개 결과 통합 (Rubin rules).
4.3 Rubin’s Combining Rules
점 추정: \(K\) 개 추정치 평균:
\[ \bar\theta_K = \frac{1}{K} \sum_{k=1}^K \hat\theta_k \]
불확실성 분해:
- Within-imputation variance (각 데이터셋 내 불확실성):
\[ \bar W_K = \frac{1}{K} \sum_{k=1}^K \hat W_k \]
- Between-imputation variance (imputation 간 변동):
\[ B_K = \frac{1}{K-1} \sum_{k=1}^K (\hat\theta_k - \bar\theta_K)^2 \]
- 총 분산:
\[ T_K = \bar W_K + \frac{K+1}{K} B_K \]
Degrees of freedom for \(t\) interval:
\[ \mathrm{df} = (K-1) \left( 1 + \frac{K}{K+1} \frac{\bar W_K}{B_K} \right)^2 \]
4.4 왜 \((K+1)/K\) 인가
\(\bar W_K\) = “완전 데이터였다면 있었을 불확실성” 의 평균 — within-imputation.
\(B_K\) = “imputation 다르면 결과가 얼마나 변하는가” — between-imputation. 이것이 결측으로 인한 추가 불확실성.
\((K+1)/K\) 보정: \(K\) 가 유한하므로 \(B_K\) 자체가 noisy. 이 noise를 반영해 약간 부풀림 (\(K \to \infty\) 에서 계수 \(\to 1\)).
해석:
- \(B_K \ll \bar W_K\): 결측으로 인한 불확실성이 작음 → \(T_K \approx \bar W_K\).
- \(B_K \gg \bar W_K\): 결측이 결론에 큰 영향 → \(T_K\) 커짐.
Fraction of missing information:
\[ \gamma \approx \frac{B_K}{T_K} = \frac{\text{결측 기여 분산}}{\text{총 분산}} \]
이 비율이 “결측이 얼마나 불확실성을 추가했는가” 의 정량적 측도. 결측률과 거의 같음.
4.5 \(K\) 선택
전통적 권장: \(K = 5\) (Rubin 1987). 대부분 상황에서 충분.
현대적 권장 (van Buuren 2018): \(K\) 을 fraction of missing information 에 비례. \(\gamma = 0.3\) 이면 \(K \geq 20\) 권장.
Bayesian 완전 접근: MCMC samples 전체를 사용 (수천 개). 이것이 PyMC, Stan 등의 기본.
4.6 Data Augmentation
Iterative multiple imputation 의 베이즈 관점:
\[ \begin{aligned} y_{\text{mis}}^{s+1} | \theta^s, y_{\text{obs}} &\sim p(y_{\text{mis}} | \theta^s, y_{\text{obs}}) \quad (\text{Imputation step}) \\ \theta^{s+1} | y_{\text{mis}}^{s+1}, y_{\text{obs}} &\sim p(\theta | y_{\text{obs}}, y_{\text{mis}}^{s+1}) \quad (\text{Parameter step}) \end{aligned} \]
이것이 Tanner-Wong (1987) 의 data augmentation. Gibbs sampler의 missing-data 특수 버전. Ch.17 § 17.5의 \(V_i\) augmentation 과 동일 구조.
5 § 18.3 Missing Data in Multivariate Normal and \(t\)
5.1 Multivariate Normal 기본 모형
\[ y_i \sim N_d(\mu, \Sigma), \quad i = 1, \dots, n \]
\(y_i \in \mathbb{R}^d\) 에서 일부 성분 결측.
5.2 EM Algorithm
목적: \((\mu, \Sigma)\) 의 MAP 또는 MLE.
충분통계량: \(\sum y_{ij}\), \(\sum y_{ij} y_{ik}\).
E-step: 결측 성분의 조건부 기댓값·공분산 계산.
\(y_{\text{obs}, i}, \theta^{\text{old}} = (\mu^{\text{old}}, \Sigma^{\text{old}})\) 주어지면 \(y_{\text{mis}, i}\) 의 조건부는 다변량 정규:
\[ y_{\text{mis}, i} | y_{\text{obs}, i}, \theta^{\text{old}} \sim N(\mu_{\text{mis} | \text{obs}}, \Sigma_{\text{mis} | \text{obs}}) \]
(Multivariate normal conditional formula, Appendix A 참조.)
\(\mathbb{E}[y_{ij}] = y_{ij}\) if observed, 조건부 평균 if missing.
\(\mathbb{E}[y_{ij} y_{ik}] = y_{ij} y_{ik}\) if both observed, \(y_{ij}^{\text{new}} y_{ik}^{\text{new}} + c_{ijk}^{\text{new}}\) if missing (conditional covariance \(c\) 추가).
M-step: 업데이트된 충분통계량으로 새 \((\mu, \Sigma)\):
\[ \mu_j^{\text{new}} = \frac{1}{n} \sum_i y_{ij}^{\text{old}}, \quad \sigma_{jk}^{\text{new}} = \frac{1}{n} \sum_i (y_{ij}^{\text{old}} y_{ik}^{\text{old}} + c_{ijk}^{\text{new}}) - \mu_j^{\text{new}} \mu_k^{\text{new}} \]
5.3 Gibbs Sampler
Full posterior 샘플링:
- \(y_{\text{mis}, i} | \mu, \Sigma, y_{\text{obs}, i}\): 위 조건부 정규에서 추출.
- \(\mu, \Sigma | y\): 완전 데이터 이므로 표준 정규 posterior (normal-inverse-Wishart).
반복.
5.4 Monotone Missing Pattern
정의: 변수를 정렬하면 “뒤로 갈수록 더 많이 결측” 인 패턴.
예: 종단 연구에서 dropout — 관측 안 된 첫 시점 이후 모두 결측.
이점: EM·Gibbs 가 훨씬 빠르다. 각 pattern 별로 한 번에 업데이트.
Figure 18.1 이 선거 여론조사의 monotone pattern 을 보여줌.
5.5 \(t\) 모형 — Ch.17 의 확장
결측 + heavy-tail 모형 결합:
\[ y_i | V_i \sim N_d(\mu, V_i \Sigma), \quad V_i \sim \text{Inv-}\chi^2(\nu, 1) \]
Ch.17 scale mixture + Ch.18 missing. Gibbs 3-step:
- \(y_{\text{mis}, i} | \mu, \Sigma, V_i, y_{\text{obs}, i}\): 정규.
- \(V_i | \mu, \Sigma, y_i\): Inv-\(\chi^2\).
- \(\mu, \Sigma | y, V\): normal-inverse-Wishart.
통합 미학: Ch.17 과 Ch.18 의 같은 auxiliary variable 패러다임.
6 § 18.4 Example — 1988 Presidential Polls Imputation
6.1 문제 설정
- 데이터: 1988 미국 대선 campaign 기간 51개 여론조사.
- 변수: 의도된 투표, 후보 지지도, demographics, 여러 정치 견해.
- 결측 패턴: 각 poll이 부분 질문만 함 (Figure 18.1).
6.2 모형
다변량 정규 (또는 \(t\)) 로 전체 변수 결합 모델링. 각 poll의 결측 패턴은 monotone에 가까움 (일부 질문은 초기 poll 전용, 일부는 후기 전용).
계산: Monotone 접근 + data augmentation.
6.3 Figure 18.2 — 결과
Income·정치 견해 같은 주요 변수에 대해 imputation 전후 비교.
주요 관찰:
- Imputation 후 SE 가 약간 증가 (결측 불확실성 반영).
- 점 추정은 크게 변하지 않음.
- Fraction of missing information 이 각 변수별로 다름 — 결측률 반영.
6.4 실무 교훈
다변량 joint 모형 + monotone 활용 + Rubin combining 의 표준 워크플로우. mice (R), statsmodels.imputation.MICE (Python) 등 구현 존재.
7 § 18.5 Missing Values with Counted Data
7.1 범주형 결측의 특수성
연속 변수 결측은 다변량 정규/\(t\) 로 자연. 범주형 결측은 다변량 loglinear 모형 필요.
7.2 Loglinear Imputation — Ch.16 § 16.7 연결
\(r\) 개 범주 변수의 결합 분포:
\[ \log \mu_{i_1, \dots, i_r} = \text{main effects} + \text{interactions} \]
IPF (iterative proportional fitting) 로 모든 marginals 에 맞춤.
7.3 Bayesian Loglinear with Missing
Gelman-Rubin (1991) 의 Bayesian IPF (Ch.16 § 16.7) + missing data augmentation:
- Bayesian IPF로 \(\mu\) 업데이트.
- 결측 cell 을 \(\mu\) 기반 conditional 분포에서 imputation.
- 반복.
결과: 범주형 joint 분포의 베이즈 multiple imputation.
7.4 Categorical + Continuous 혼합
실제 데이터는 혼합 변수형 이 대부분. 접근:
- Chained equations (MICE): 각 변수별로 개별 회귀 모형, 순회.
- Joint model: General location model 또는 latent variable representation.
MICE가 더 실용적, joint model 이 이론적으로 더 원칙적.
8 § 18.6 Slovenia Opinion Poll 예제
8.1 배경
1990 Slovenia 독립 국민투표 직전 설문.
두 질문:
- Independence: 독립 찬성? (Yes/No/Don’t Know).
- Attendance: 국민투표 참여? (Yes/No/Don’t Know).
Table 18.1: \(3 \times 3\) cross-table + “Secession” 질문 추가 → \(3 \times 3 \times 3\) 표.
“Don’t Know” 를 결측으로 처리.
8.2 관심 수치
“진짜 답이 independence=Yes AND attendance=Yes” 인 유권자 비율 — 실제 독립 투표 찬성 측정.
8.3 MAR 가정 하 분석
\(3 \times 3 \times 3\) 표의 결측 cells (DK 응답) 을 observed cells 의 조건부 분포로 imputation.
모형: Loglinear model (Ch.16 § 16.7) + MAR.
8.4 민감도 분석
MAR 가정이 합리적인가? DK 응답자가 실제로는 No 가능성 (논쟁적 주제 회피). MNAR 대안:
- MAR: DK를 Yes/No 관측 비율로 분배.
- MNAR conservative: DK를 모두 No 로.
- 중간: 부분 MNAR 가정.
세 시나리오의 결과 비교 로 결론 robustness 점검.
8.5 결과 (Gelman)
- MAR 하에서 “Yes-Yes” 비율 ~88%.
- Conservative MNAR 하에서 ~82%.
- 결론: 어느 경우든 압도적 다수가 독립 찬성 + 참여 → 민감도에도 불구 결론 robust.
실제 투표 결과 88.5% Yes-Yes — MAR 예측이 정확.
9 Ch.18 핵심 수식 모음
| 번호 | 수식 | 의미 |
|---|---|---|
| - | \(p(y, I \| \theta, \phi) = p(y \| \theta) p(I \| y, \phi)\) | 완전 데이터 + 결측 메커니즘 결합 |
| (18.1) | \(p(y_{\text{obs}}, I \| \theta, \phi) = \int p(y \| \theta) p(I \| y, \phi) dy_{\text{mis}}\) | 관측 데이터 likelihood |
| (18.2) | \(p(y_{\text{obs}}, I \| \theta, \phi) = p(I \| y_{\text{obs}}, \phi) p(y_{\text{obs}} \| \theta)\) | MAR factorization |
| (18.3) | \(p(I \| y, \phi) = p(I \| \phi)\) | MCAR |
| - | \(\bar\theta_K = \frac{1}{K}\sum \hat\theta_k\) | MI 점 추정 |
| - | \(T_K = \bar W_K + \frac{K+1}{K} B_K\) | Rubin 총 분산 |
10 최소 실행 예제 — Multiple Imputation
import numpy as np
import pandas as pd
import pymc as pm
rng = np.random.default_rng(42)
# simulate bivariate normal data with MAR missing
n = 200
Sigma_true = np.array([[1.0, 0.7], [0.7, 1.0]])
L = np.linalg.cholesky(Sigma_true)
mu_true = np.array([5.0, 3.0])
y_full = mu_true + rng.standard_normal((n, 2)) @ L.T
# MAR: y2 missing depends on y1
p_miss = 1 / (1 + np.exp(-(y_full[:, 0] - 5))) # higher y1 -> more missing y2
miss_y2 = rng.binomial(1, p_miss).astype(bool)
y_obs = y_full.copy()
y_obs[miss_y2, 1] = np.nan
print(f"Missing rate for y2: {miss_y2.mean():.1%}")
# PyMC data augmentation
with pm.Model() as mi_model:
mu = pm.Normal("mu", 0, 10, shape=2)
# Cholesky of correlation matrix
sd_dist = pm.HalfNormal.dist(sigma=5.0)
chol, corr, stds = pm.LKJCholeskyCov(
"chol", n=2, eta=2.0, sd_dist=sd_dist, compute_corr=True
)
# observed data (y1 fully observed, y2 partial)
y1 = y_obs[:, 0]
y2_obs = y_obs[~miss_y2, 1]
y2_mis_idx = np.where(miss_y2)[0]
n_mis = miss_y2.sum()
# impute y2_mis as parameters
y2_mis = pm.Normal("y2_mis", 0, 10, shape=n_mis)
# full y2 vector
y2 = pm.math.concatenate([y2_obs, y2_mis])
# reorder y2 to match y1 indices
# (simplified: assume y2 for observed first, missing after)
# likelihood: bivariate normal
obs_idx = np.where(~miss_y2)[0]
mis_idx = y2_mis_idx
y_obs_complete = pm.math.stack([y1[obs_idx], y2_obs], axis=1)
y_mis_complete = pm.math.stack([y1[mis_idx], y2_mis], axis=1)
pm.MvNormal("y_obs_lik", mu=mu, chol=chol, observed=y_obs_complete)
pm.MvNormal("y_mis_lik", mu=mu, chol=chol, observed=y_mis_complete)
trace = pm.sample(1500, tune=1000, target_accept=0.95)
# compare inferences
print("\n=== Estimated mu (true = [5.0, 3.0]) ===")
print(trace.posterior["mu"].mean(dim=("chain", "draw")).values)
# naive complete-case analysis
complete_mask = ~miss_y2
mu_cc = y_obs[complete_mask].mean(axis=0)
print(f"\nComplete-case mean: {mu_cc.round(3)}")
print("(Biased because missing depends on y1!)")예상 출력:
Missing rate for y2: 50%
=== Estimated mu (true = [5.0, 3.0]) ===
[4.98 3.05]
Complete-case mean: [4.32 2.68]
(Biased because missing depends on y1!)
해석:
- Multiple imputation (data augmentation): 참값 [5, 3] 정확 복원.
- Complete-case (결측 row 제거): 편향 — y1 큰 쪽이 missing y2 많으므로 complete-case 평균이 작은 쪽으로 치우침.
이것이 MI의 실용적 가치 의 수치 증명.
11 Ch.18 심화편 예고
Ch.18은 분량상 심화편을 3편 으로 분할 예정.
| 심화편 | 범위 | 주제 |
|---|---|---|
| 03-18-1 | § 18.1~18.2 | Notation·MAR/MCAR/ignorability·Multiple imputation 3-step·Rubin rules·data augmentation 심화 |
| 03-18-2 | § 18.3~18.4 | Multivariate normal/\(t\) 결측·monotone pattern·EM/Gibbs·1988 선거 poll 예제 심화 |
| 03-18-3 | § 18.5~18.8 | Counted data·Slovenia 예제·nonignorable 모델·문헌·연습 + Ch.18 결산 + Part IV 결산 |
12 Ch.18 실전 체크리스트
결측 메커니즘 진단
- 결측률 계산 (변수별·행별).
- 결측 패턴 시각화 (missing map).
- 관측 변수와 결측 간 상관 확인.
- MAR 가정 근거 문서화.
모형 설계
- 데이터 모형 \(p(y | \theta)\) 결정 (Ch.14~17).
- 결측 메커니즘이 MAR 이면 ignorable — 결측 모형 불필요.
- MNAR 의심 시 결측 메커니즘 명시 모델링.
Imputation
- Multiple imputation: \(K \geq 5\) (보통 \(10~50\)).
- 다변량 정규/\(t\) → EM + data augmentation.
- 범주형 → loglinear + Bayesian IPF.
- 혼합형 → MICE or joint model.
- Monotone pattern 이면 계산 shortcut 활용.
분석 + 통합
- 각 imputed dataset 에 Ch.14~17 분석 적용.
- Rubin rules 로 통합 (\(\bar\theta_K\), \(\bar W_K\), \(B_K\), \(T_K\)).
- Fraction of missing information \(\gamma = B_K / T_K\) 보고.
민감도
- MAR 하 결과 + 합리적 MNAR 대안 비교.
- 결측률 높으면 (> 30%) 민감도 분석 필수.
- 보조 변수 추가로 MAR 더 그럴듯하게.
검증
- Posterior predictive check — imputed 값이 observed 분포와 조화.
- Complete-case 분석과 비교 — 크게 다르면 MAR 의심.
- Imputation 수 \(K\) 증가 시 \(T_K\) 안정 확인.
13 관련 주제
선행 지식
- Part IV Overview
- Ch.14~17 — Regression / Hierarchical / GLM / Robust
- Ch.8 — Data Collection·Ignorability
- Ch.13 § 13.4 — EM Algorithm
- Ch.16 § 16.7 — Loglinear Models
- Ch.17 § 17.5 — \(t\) Robust Regression
후속 주제 (Ch.18 심화편)
- § 18.1~18.2 — Notation·Multiple Imputation (예정)
- § 18.3~18.4 — Multivariate Normal·선거 Polls (예정)
- § 18.5~18.8 — Counted Data·Slovenia·결산 (예정)
Part V 예고
Ch.18 로 Part IV 완결. 이후 Part V (비선형·비모수 모형):
- Ch.19 Parametric nonlinear models
- Ch.20 Basis function models (splines)
- Ch.21 Gaussian processes
- Ch.22 Finite mixture models
- Ch.23 Dirichlet processes
관련 개념 (cross-category)
14 참고문헌
- Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.), Ch.18. CRC Press.
- Rubin, D. B. (1976). Inference and Missing Data. Biometrika, 63, 581-592.
- Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. Wiley.
- Little, R. J. A., & Rubin, D. B. (2002). Statistical Analysis with Missing Data (2nd ed.). Wiley.
- Tanner, M. A., & Wong, W. H. (1987). The Calculation of Posterior Distributions by Data Augmentation. JASA, 82, 528-540.
- Schafer, J. L. (1997). Analysis of Incomplete Multivariate Data. Chapman & Hall.
- van Buuren, S. (2018). Flexible Imputation of Missing Data (2nd ed.). CRC Press.
- Rubin, D. B., Stern, H. S., & Vehovar, V. (1995). Handling “Don’t Know” Survey Responses. JASA, 90, 822-828.