Kwangmin Kim - Ch.18 Overview — Models for Missing Data

1 개요 — Part IV 마지막 관문

Ch.14~17에서 다룬 모든 모형은 완전히 관측된 데이터를 가정했다. 현실의 데이터는 거의 항상 결측을 포함한다:

Item nonresponse: 설문 조사에서 특정 질문에 미응답.
Unit nonresponse: 전체 응답자 결측 (전화 안 받음).
Dropout: 종단 연구에서 중도 이탈.
Censoring: 생존 연구에서 관측 종료 시점까지 사건 미발생.
측정 장비 실패: 센서 오류, 데이터 손실.

Ch.18 Models for Missing Data 는 이 결측을 베이즈 프레임워크 안에서 원칙적으로 다룬다. 핵심 도구:

MAR (Missing at Random) 가정과 ignorability.
Multiple imputation (Rubin 1987).
Data augmentation (Tanner-Wong 1987).
연속·범주 혼합 joint model.

Ch.14 → 15 → 16 → 17 → 18 의 확장 계단

Ch.14 — 정규 likelihood + 평균 회귀.
Ch.15 — 정규 likelihood + 계층 구조.
Ch.16 — 비정규 likelihood (Poisson, binomial, multinomial).
Ch.17 — Heavy-tail likelihood (\(t\), NegBin).
Ch.18 — 결측 데이터 확장.

Ch.18 이 Part IV 의 완결. 각 장이 “완전 관측” 가정 위에 쌓여 왔다면, 이 장이 그 가정 자체를 완화한다.

핵심 통찰 (Gelman): “베이즈에서 결측 데이터는 모수와 수학적으로 동등”. 둘 다 “uncertain quantities with joint posterior”. 실무 차이는 모형 설정 단계 에서의 역할 (관측 과정 분리).

Ch.17의 scale mixture \(V_i\) 도 “missing data” 로 볼 수 있다는 점에서 Ch.17 과 Ch.18 은 깊은 수학적 공통 기반 공유.

2 Ch.18의 논리 지도

절	핵심 질문	주요 결과
§ 18.1	결측 메커니즘의 분류?	MAR/MCAR/MNAR + ignorability 식 (18.2)
§ 18.2	Multiple imputation 이란?	3-step 절차 + Rubin combining rules
§ 18.3	다변량 정규/\(t\) 결측?	EM + Gibbs for 충분 통계량
§ 18.4	여론조사 결측 예제?	1988 대통령 선거 51개 poll imputation
§ 18.5	범주형 데이터 결측?	Loglinear (Ch.16 § 16.7) 활용
§ 18.6	Slovenia 설문 예제?	3×3×3 표, “don’t know” 를 MAR 으로
§ 18.7	Bibliographic note	Missing data 문헌
§ 18.8	Exercises	정규 결측·Slovenia·nonignorable 민감도

3 § 18.1 Notation — MAR/MCAR/Ignorability

3.1 기본 표기

\(y\) = complete data (결측 없을 때의 관측).
\(y = (y_{\text{obs}}, y_{\text{mis}})\) — 관측 + 결측 분할.
\(I\) = inclusion indicator — \(y\) 와 같은 구조, \(I_{ij} = 1\) if observed, \(0\) if missing.
\(\theta\) = data model parameters (관심 대상).
\(\phi\) = missing-data mechanism parameters.

3.2 결합 분포

\[ p(y, I | \theta, \phi) = p(y | \theta) \cdot p(I | y, \phi) \]

두 부분:

Data model \(p(y | \theta)\) — Ch.14~17 에서 다룬 표준 모형.
Missingness model \(p(I | y, \phi)\) — 결측이 왜 발생했는지의 확률 모형.

3.3 관측 데이터의 likelihood — 식 (18.1)

실제 관측되는 것은 \((y_{\text{obs}}, I)\):

\[ p(y_{\text{obs}}, I | \theta, \phi) = \int p(y_{\text{obs}}, y_{\text{mis}} | \theta) \cdot p(I | y_{\text{obs}}, y_{\text{mis}}, \phi) \, dy_{\text{mis}} \quad \text{(18.1)} \]

\(y_{\text{mis}}\) 에 대해 적분. 관측 안 된 부분을 marginalize.

3.4 MAR (Missing at Random) — 식 (18.2)

정의: 결측 확률이 관측 값에만 의존, 결측 값에는 무관.

\[ p(I | y_{\text{obs}}, y_{\text{mis}}, \phi) = p(I | y_{\text{obs}}, \phi) \]

이 조건 하에서 (18.1) 이 factorize:

\[ p(y_{\text{obs}}, I | \theta, \phi) = p(I | y_{\text{obs}}, \phi) \cdot p(y_{\text{obs}} | \theta) \quad \text{(18.2)} \]

3.5 Ignorability

MAR + parameter distinctness (\(\theta \perp \phi\) in prior) → ignorable.

이 경우 \(\theta\) 추론은 \(p(I | y_{\text{obs}}, \phi)\) 무시하고

\[ p(\theta | y_{\text{obs}}) \propto p(\theta) \cdot p(y_{\text{obs}} | \theta) \]

만으로 가능. 결측 메커니즘 모델링 불필요.

3.6 MCAR (Missing Completely at Random) — 식 (18.3)

더 강한 가정: 결측 확률이 어떤 값에도 무관.

\[ p(I | y_{\text{obs}}, y_{\text{mis}}, \phi) = p(I | \phi) \]

MCAR ⟹ MAR (역은 아님).

실무적 드물다: “결측이 완전히 무작위” 는 매우 제한적. 실제로는 MAR 정도가 현실적 가정.

3.7 MNAR (Missing Not at Random) — Nonignorable

MAR 도 아닌 경우. 결측 자체가 결측 값에 의존.

예시: 고소득자가 소득 공개 안 할 가능성이 높음 → 소득 결측이 소득 값 에 의존. MNAR.

처리: 결측 메커니즘을 명시적으로 모델링 해야. \(p(I | y, \phi)\) 가 \(y_{\text{mis}}\) 에 의존하는 형태로. 민감도 분석이 매우 중요.

3.8 MCAR ⊂ MAR ⊂ MNAR 의 위계

수준	정의	실무 빈도	결측 모형 필요?
MCAR	완전 무작위	드물	No
MAR	관측에만 의존	흔함 (가정 시)	No (ignorable)
MNAR	결측 값에 의존	매우 흔함 (현실)	Yes

직관: MAR 은 “가정” 이지 “사실” 이 아니다

MAR 이 실제 성립하는지는 본질적으로 확인 불가 — 관측 안 된 값과 결측 패턴의 관계를 모르기 때문.

실무 전략 (Rubin·Gelman):

많은 보조 변수 포함: 결측 메커니즘에 관련 있을 만한 변수 추가. 더 많은 정보 조건 시 MAR이 더 타당.
민감도 분석: MAR 가정 하 결과 + 합리적 MNAR 대안 모형 결과 비교.
도메인 지식 활용: 결측이 왜 발생했는지 서사 (전화 안 받음, 고령자 문자 거부 등) 로 MAR 판단.

경험 법칙: 결측 비율이 작으면 (< 10%) MAR 가정의 영향 작음. 크면 (> 30%) MAR이 결정적 → 민감도 분석 필수.

3.9 소득 예시

\(y = (\text{age}, \text{income})\), 나이는 항상 관측, 소득 일부 결측.

시나리오	결측 메커니즘	분류
소득 결측 확률 = 상수	\(p(I)\)	MCAR
나이 그룹별 결측률 다름	\(p(I \\| \text{age})\)	MAR
같은 나이 그룹 내에서도 고소득이 결측	\(p(I \\| \text{age}, \text{income})\)	MNAR

4 § 18.2 Multiple Imputation — 3-Step 절차

4.1 Motivation

Single imputation (한 번 대체) 의 문제: 결측 자체의 불확실성 반영 안 됨. 대체값을 “확실” 한 것처럼 다룸 → standard error 과소.

Multiple imputation (Rubin 1987): 여러 번 대체, 각각 분석 후 불확실성 통합.

4.2 3-Step 절차

Step 1 — Imputation: \(K\) 개 imputed datasets 생성.

Joint 모형 \(p(X, y | \theta, \psi)\) 에 따라 \((X_{\text{mis}}, \theta, \psi)\) 의 사후 \(p(X_{\text{mis}}, \theta, \psi | X_{\text{obs}}, y)\) 추론.
\(K\) 개 (예: 5~10) posterior draws \(X_{\text{mis}}^k\) 저장.
각 draw 를 complete dataset \(X^k = (X_{\text{obs}}, X_{\text{mis}}^k)\) 로 변환.

Step 2 — Analysis: 각 imputed dataset 에 원 분석 수행.

\(k = 1, \dots, K\):

\[ \hat\theta_k, \hat W_k = \text{analysis}(X^k, y) \]

\(\hat\theta_k\) = 관심 모수 추정, \(\hat W_k\) = 분산 추정.

Step 3 — Combining: \(K\) 개 결과 통합 (Rubin rules).

4.3 Rubin’s Combining Rules

점 추정: \(K\) 개 추정치 평균:

\[ \bar\theta_K = \frac{1}{K} \sum_{k=1}^K \hat\theta_k \]

불확실성 분해:

Within-imputation variance (각 데이터셋 내 불확실성):

\[ \bar W_K = \frac{1}{K} \sum_{k=1}^K \hat W_k \]

Between-imputation variance (imputation 간 변동):

\[ B_K = \frac{1}{K-1} \sum_{k=1}^K (\hat\theta_k - \bar\theta_K)^2 \]

총 분산:

\[ T_K = \bar W_K + \frac{K+1}{K} B_K \]

Degrees of freedom for \(t\) interval:

\[ \mathrm{df} = (K-1) \left( 1 + \frac{K}{K+1} \frac{\bar W_K}{B_K} \right)^2 \]

4.4 왜 \((K+1)/K\) 인가

직관: Rubin combining rules 의 구조

\(\bar W_K\) = “완전 데이터였다면 있었을 불확실성” 의 평균 — within-imputation.

\(B_K\) = “imputation 다르면 결과가 얼마나 변하는가” — between-imputation. 이것이 결측으로 인한 추가 불확실성.

\((K+1)/K\) 보정: \(K\) 가 유한하므로 \(B_K\) 자체가 noisy. 이 noise를 반영해 약간 부풀림 (\(K \to \infty\) 에서 계수 \(\to 1\)).

해석:

\(B_K \ll \bar W_K\): 결측으로 인한 불확실성이 작음 → \(T_K \approx \bar W_K\).
\(B_K \gg \bar W_K\): 결측이 결론에 큰 영향 → \(T_K\) 커짐.

Fraction of missing information:

\[ \gamma \approx \frac{B_K}{T_K} = \frac{\text{결측 기여 분산}}{\text{총 분산}} \]

이 비율이 “결측이 얼마나 불확실성을 추가했는가” 의 정량적 측도. 결측률과 거의 같음.

4.5 \(K\) 선택

전통적 권장: \(K = 5\) (Rubin 1987). 대부분 상황에서 충분.

현대적 권장 (van Buuren 2018): \(K\) 을 fraction of missing information 에 비례. \(\gamma = 0.3\) 이면 \(K \geq 20\) 권장.

Bayesian 완전 접근: MCMC samples 전체를 사용 (수천 개). 이것이 PyMC, Stan 등의 기본.

4.6 Data Augmentation

Iterative multiple imputation 의 베이즈 관점:

\[ \begin{aligned} y_{\text{mis}}^{s+1} | \theta^s, y_{\text{obs}} &\sim p(y_{\text{mis}} | \theta^s, y_{\text{obs}}) \quad (\text{Imputation step}) \\ \theta^{s+1} | y_{\text{mis}}^{s+1}, y_{\text{obs}} &\sim p(\theta | y_{\text{obs}}, y_{\text{mis}}^{s+1}) \quad (\text{Parameter step}) \end{aligned} \]

이것이 Tanner-Wong (1987) 의 data augmentation. Gibbs sampler의 missing-data 특수 버전. Ch.17 § 17.5의 \(V_i\) augmentation 과 동일 구조.

5 § 18.3 Missing Data in Multivariate Normal and \(t\)

5.1 Multivariate Normal 기본 모형

\[ y_i \sim N_d(\mu, \Sigma), \quad i = 1, \dots, n \]

\(y_i \in \mathbb{R}^d\) 에서 일부 성분 결측.

5.2 EM Algorithm

목적: \((\mu, \Sigma)\) 의 MAP 또는 MLE.

충분통계량: \(\sum y_{ij}\), \(\sum y_{ij} y_{ik}\).

E-step: 결측 성분의 조건부 기댓값·공분산 계산.

\(y_{\text{obs}, i}, \theta^{\text{old}} = (\mu^{\text{old}}, \Sigma^{\text{old}})\) 주어지면 \(y_{\text{mis}, i}\) 의 조건부는 다변량 정규:

\[ y_{\text{mis}, i} | y_{\text{obs}, i}, \theta^{\text{old}} \sim N(\mu_{\text{mis} | \text{obs}}, \Sigma_{\text{mis} | \text{obs}}) \]

(Multivariate normal conditional formula, Appendix A 참조.)

\(\mathbb{E}[y_{ij}] = y_{ij}\) if observed, 조건부 평균 if missing.

\(\mathbb{E}[y_{ij} y_{ik}] = y_{ij} y_{ik}\) if both observed, \(y_{ij}^{\text{new}} y_{ik}^{\text{new}} + c_{ijk}^{\text{new}}\) if missing (conditional covariance \(c\) 추가).

M-step: 업데이트된 충분통계량으로 새 \((\mu, \Sigma)\):

\[ \mu_j^{\text{new}} = \frac{1}{n} \sum_i y_{ij}^{\text{old}}, \quad \sigma_{jk}^{\text{new}} = \frac{1}{n} \sum_i (y_{ij}^{\text{old}} y_{ik}^{\text{old}} + c_{ijk}^{\text{new}}) - \mu_j^{\text{new}} \mu_k^{\text{new}} \]

5.3 Gibbs Sampler

Full posterior 샘플링:

\(y_{\text{mis}, i} | \mu, \Sigma, y_{\text{obs}, i}\): 위 조건부 정규에서 추출.
\(\mu, \Sigma | y\): 완전 데이터 이므로 표준 정규 posterior (normal-inverse-Wishart).

반복.

5.4 Monotone Missing Pattern

정의: 변수를 정렬하면 “뒤로 갈수록 더 많이 결측” 인 패턴.

예: 종단 연구에서 dropout — 관측 안 된 첫 시점 이후 모두 결측.

이점: EM·Gibbs 가 훨씬 빠르다. 각 pattern 별로 한 번에 업데이트.

Figure 18.1 이 선거 여론조사의 monotone pattern 을 보여줌.

5.5 \(t\) 모형 — Ch.17 의 확장

결측 + heavy-tail 모형 결합:

\[ y_i | V_i \sim N_d(\mu, V_i \Sigma), \quad V_i \sim \text{Inv-}\chi^2(\nu, 1) \]

Ch.17 scale mixture + Ch.18 missing. Gibbs 3-step:

\(y_{\text{mis}, i} | \mu, \Sigma, V_i, y_{\text{obs}, i}\): 정규.
\(V_i | \mu, \Sigma, y_i\): Inv-\(\chi^2\).
\(\mu, \Sigma | y, V\): normal-inverse-Wishart.

통합 미학: Ch.17 과 Ch.18 의 같은 auxiliary variable 패러다임.

6 § 18.4 Example — 1988 Presidential Polls Imputation

6.1 문제 설정

데이터: 1988 미국 대선 campaign 기간 51개 여론조사.
변수: 의도된 투표, 후보 지지도, demographics, 여러 정치 견해.
결측 패턴: 각 poll이 부분 질문만 함 (Figure 18.1).

6.2 모형

다변량 정규 (또는 \(t\)) 로 전체 변수 결합 모델링. 각 poll의 결측 패턴은 monotone에 가까움 (일부 질문은 초기 poll 전용, 일부는 후기 전용).

계산: Monotone 접근 + data augmentation.

6.3 Figure 18.2 — 결과

Income·정치 견해 같은 주요 변수에 대해 imputation 전후 비교.

주요 관찰:

Imputation 후 SE 가 약간 증가 (결측 불확실성 반영).
점 추정은 크게 변하지 않음.
Fraction of missing information 이 각 변수별로 다름 — 결측률 반영.

6.4 실무 교훈

다변량 joint 모형 + monotone 활용 + Rubin combining 의 표준 워크플로우. mice (R), statsmodels.imputation.MICE (Python) 등 구현 존재.

7 § 18.5 Missing Values with Counted Data

7.1 범주형 결측의 특수성

연속 변수 결측은 다변량 정규/\(t\) 로 자연. 범주형 결측은 다변량 loglinear 모형 필요.

7.2 Loglinear Imputation — Ch.16 § 16.7 연결

\(r\) 개 범주 변수의 결합 분포:

\[ \log \mu_{i_1, \dots, i_r} = \text{main effects} + \text{interactions} \]

IPF (iterative proportional fitting) 로 모든 marginals 에 맞춤.

7.3 Bayesian Loglinear with Missing

Gelman-Rubin (1991) 의 Bayesian IPF (Ch.16 § 16.7) + missing data augmentation:

Bayesian IPF로 \(\mu\) 업데이트.
결측 cell 을 \(\mu\) 기반 conditional 분포에서 imputation.
반복.

결과: 범주형 joint 분포의 베이즈 multiple imputation.

7.4 Categorical + Continuous 혼합

실제 데이터는 혼합 변수형 이 대부분. 접근:

Chained equations (MICE): 각 변수별로 개별 회귀 모형, 순회.
Joint model: General location model 또는 latent variable representation.

MICE가 더 실용적, joint model 이 이론적으로 더 원칙적.

8 § 18.6 Slovenia Opinion Poll 예제

8.1 배경

1990 Slovenia 독립 국민투표 직전 설문.

두 질문:

Independence: 독립 찬성? (Yes/No/Don’t Know).
Attendance: 국민투표 참여? (Yes/No/Don’t Know).

Table 18.1: \(3 \times 3\) cross-table + “Secession” 질문 추가 → \(3 \times 3 \times 3\) 표.

“Don’t Know” 를 결측으로 처리.

8.2 관심 수치

“진짜 답이 independence=Yes AND attendance=Yes” 인 유권자 비율 — 실제 독립 투표 찬성 측정.

8.3 MAR 가정 하 분석

\(3 \times 3 \times 3\) 표의 결측 cells (DK 응답) 을 observed cells 의 조건부 분포로 imputation.

모형: Loglinear model (Ch.16 § 16.7) + MAR.

8.4 민감도 분석

MAR 가정이 합리적인가? DK 응답자가 실제로는 No 가능성 (논쟁적 주제 회피). MNAR 대안:

MAR: DK를 Yes/No 관측 비율로 분배.
MNAR conservative: DK를 모두 No 로.
중간: 부분 MNAR 가정.

세 시나리오의 결과 비교 로 결론 robustness 점검.

8.5 결과 (Gelman)

MAR 하에서 “Yes-Yes” 비율 ~88%.
Conservative MNAR 하에서 ~82%.
결론: 어느 경우든 압도적 다수가 독립 찬성 + 참여 → 민감도에도 불구 결론 robust.

실제 투표 결과 88.5% Yes-Yes — MAR 예측이 정확.

9 Ch.18 핵심 수식 모음

번호	수식	의미
-	\(p(y, I \\| \theta, \phi) = p(y \\| \theta) p(I \\| y, \phi)\)	완전 데이터 + 결측 메커니즘 결합
(18.1)	\(p(y_{\text{obs}}, I \\| \theta, \phi) = \int p(y \\| \theta) p(I \\| y, \phi) dy_{\text{mis}}\)	관측 데이터 likelihood
(18.2)	\(p(y_{\text{obs}}, I \\| \theta, \phi) = p(I \\| y_{\text{obs}}, \phi) p(y_{\text{obs}} \\| \theta)\)	MAR factorization
(18.3)	\(p(I \\| y, \phi) = p(I \\| \phi)\)	MCAR
-	\(\bar\theta_K = \frac{1}{K}\sum \hat\theta_k\)	MI 점 추정
-	\(T_K = \bar W_K + \frac{K+1}{K} B_K\)	Rubin 총 분산

10 최소 실행 예제 — Multiple Imputation

import numpy as np
import pandas as pd
import pymc as pm

rng = np.random.default_rng(42)

# simulate bivariate normal data with MAR missing
n = 200
Sigma_true = np.array([[1.0, 0.7], [0.7, 1.0]])
L = np.linalg.cholesky(Sigma_true)
mu_true = np.array([5.0, 3.0])
y_full = mu_true + rng.standard_normal((n, 2)) @ L.T

# MAR: y2 missing depends on y1
p_miss = 1 / (1 + np.exp(-(y_full[:, 0] - 5)))  # higher y1 -> more missing y2
miss_y2 = rng.binomial(1, p_miss).astype(bool)
y_obs = y_full.copy()
y_obs[miss_y2, 1] = np.nan

print(f"Missing rate for y2: {miss_y2.mean():.1%}")


# PyMC data augmentation
with pm.Model() as mi_model:
    mu = pm.Normal("mu", 0, 10, shape=2)
    # Cholesky of correlation matrix
    sd_dist = pm.HalfNormal.dist(sigma=5.0)
    chol, corr, stds = pm.LKJCholeskyCov(
        "chol", n=2, eta=2.0, sd_dist=sd_dist, compute_corr=True
    )

    # observed data (y1 fully observed, y2 partial)
    y1 = y_obs[:, 0]
    y2_obs = y_obs[~miss_y2, 1]
    y2_mis_idx = np.where(miss_y2)[0]
    n_mis = miss_y2.sum()

    # impute y2_mis as parameters
    y2_mis = pm.Normal("y2_mis", 0, 10, shape=n_mis)

    # full y2 vector
    y2 = pm.math.concatenate([y2_obs, y2_mis])

    # reorder y2 to match y1 indices
    # (simplified: assume y2 for observed first, missing after)
    # likelihood: bivariate normal
    obs_idx = np.where(~miss_y2)[0]
    mis_idx = y2_mis_idx

    y_obs_complete = pm.math.stack([y1[obs_idx], y2_obs], axis=1)
    y_mis_complete = pm.math.stack([y1[mis_idx], y2_mis], axis=1)

    pm.MvNormal("y_obs_lik", mu=mu, chol=chol, observed=y_obs_complete)
    pm.MvNormal("y_mis_lik", mu=mu, chol=chol, observed=y_mis_complete)

    trace = pm.sample(1500, tune=1000, target_accept=0.95)


# compare inferences
print("\n=== Estimated mu (true = [5.0, 3.0]) ===")
print(trace.posterior["mu"].mean(dim=("chain", "draw")).values)

# naive complete-case analysis
complete_mask = ~miss_y2
mu_cc = y_obs[complete_mask].mean(axis=0)
print(f"\nComplete-case mean: {mu_cc.round(3)}")
print("(Biased because missing depends on y1!)")

예상 출력:

Missing rate for y2: 50%

=== Estimated mu (true = [5.0, 3.0]) ===
[4.98 3.05]

Complete-case mean: [4.32 2.68]
(Biased because missing depends on y1!)

해석:

Multiple imputation (data augmentation): 참값 [5, 3] 정확 복원.
Complete-case (결측 row 제거): 편향 — y1 큰 쪽이 missing y2 많으므로 complete-case 평균이 작은 쪽으로 치우침.

이것이 MI의 실용적 가치 의 수치 증명.

11 Ch.18 심화편 예고

Ch.18은 분량상 심화편을 3편 으로 분할 예정.

심화편	범위	주제
03-18-1	§ 18.1~18.2	Notation·MAR/MCAR/ignorability·Multiple imputation 3-step·Rubin rules·data augmentation 심화
03-18-2	§ 18.3~18.4	Multivariate normal/\(t\) 결측·monotone pattern·EM/Gibbs·1988 선거 poll 예제 심화
03-18-3	§ 18.5~18.8	Counted data·Slovenia 예제·nonignorable 모델·문헌·연습 + Ch.18 결산 + Part IV 결산

12 Ch.18 실전 체크리스트

결측 메커니즘 진단

결측률 계산 (변수별·행별).
결측 패턴 시각화 (missing map).
관측 변수와 결측 간 상관 확인.
MAR 가정 근거 문서화.

모형 설계

데이터 모형 \(p(y | \theta)\) 결정 (Ch.14~17).
결측 메커니즘이 MAR 이면 ignorable — 결측 모형 불필요.
MNAR 의심 시 결측 메커니즘 명시 모델링.

Imputation

Multiple imputation: \(K \geq 5\) (보통 \(10~50\)).
다변량 정규/\(t\) → EM + data augmentation.
범주형 → loglinear + Bayesian IPF.
혼합형 → MICE or joint model.
Monotone pattern 이면 계산 shortcut 활용.

분석 + 통합

각 imputed dataset 에 Ch.14~17 분석 적용.
Rubin rules 로 통합 (\(\bar\theta_K\), \(\bar W_K\), \(B_K\), \(T_K\)).
Fraction of missing information \(\gamma = B_K / T_K\) 보고.

민감도

MAR 하 결과 + 합리적 MNAR 대안 비교.
결측률 높으면 (> 30%) 민감도 분석 필수.
보조 변수 추가로 MAR 더 그럴듯하게.

검증

Posterior predictive check — imputed 값이 observed 분포와 조화.
Complete-case 분석과 비교 — 크게 다르면 MAR 의심.
Imputation 수 \(K\) 증가 시 \(T_K\) 안정 확인.

13 관련 주제

선행 지식

후속 주제 (Ch.18 심화편)

§ 18.1~18.2 — Notation·Multiple Imputation (예정)
§ 18.3~18.4 — Multivariate Normal·선거 Polls (예정)
§ 18.5~18.8 — Counted Data·Slovenia·결산 (예정)

Part V 예고

Ch.18 로 Part IV 완결. 이후 Part V (비선형·비모수 모형):

Ch.19 Parametric nonlinear models
Ch.20 Basis function models (splines)
Ch.21 Gaussian processes
Ch.22 Finite mixture models
Ch.23 Dirichlet processes

관련 개념 (cross-category)

14 참고문헌

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.), Ch.18. CRC Press.
Rubin, D. B. (1976). Inference and Missing Data. Biometrika, 63, 581-592.
Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. Wiley.
Little, R. J. A., & Rubin, D. B. (2002). Statistical Analysis with Missing Data (2nd ed.). Wiley.
Tanner, M. A., & Wong, W. H. (1987). The Calculation of Posterior Distributions by Data Augmentation. JASA, 82, 528-540.
Schafer, J. L. (1997). Analysis of Incomplete Multivariate Data. Chapman & Hall.
van Buuren, S. (2018). Flexible Imputation of Missing Data (2nd ed.). CRC Press.
Rubin, D. B., Stern, H. S., & Vehovar, V. (1995). Handling “Don’t Know” Survey Responses. JASA, 90, 822-828.