Ch.18 Overview — Models for Missing Data

Part IV 마지막 관문: MAR·Multiple Imputation·Data Augmentation·Multivariate Normal/\(t\)·Counted Data·Rubin Combining Rules 통합 지도

Gelman BDA Ch.18의 8개 절을 한 편으로 조망한다. § 18.1 notation 과 MAR/MCAR/ignorability 정의 — 식 (18.1) marginal, 식 (18.2) MAR factorization, 식 (18.3) MCAR, § 18.2 multiple imputation 3-step + Rubin combining rules, § 18.3 multivariate normal/\(t\) 결측에 EM·Gibbs, § 18.4 1988 대통령 여론조사 51개 시리즈 imputation, § 18.5 counted data 결측 (loglinear 활용), § 18.6 Slovenia preplebiscite 설문 (MAR 가정과 민감도), Part IV “likelihood 확장 계단” (Ch.14 정규 → 15 계층 → 16 비정규 → 17 heavy-tail → 18 결측) 의 마지막 관문.

Statistics
Bayesian
Missing-Data
Multiple-Imputation
MAR
저자

Kwangmin Kim

공개

2026년 04월 24일

1 개요 — Part IV 마지막 관문

Ch.14~17에서 다룬 모든 모형은 완전히 관측된 데이터를 가정했다. 현실의 데이터는 거의 항상 결측을 포함한다:

  • Item nonresponse: 설문 조사에서 특정 질문에 미응답.
  • Unit nonresponse: 전체 응답자 결측 (전화 안 받음).
  • Dropout: 종단 연구에서 중도 이탈.
  • Censoring: 생존 연구에서 관측 종료 시점까지 사건 미발생.
  • 측정 장비 실패: 센서 오류, 데이터 손실.

Ch.18 Models for Missing Data 는 이 결측을 베이즈 프레임워크 안에서 원칙적으로 다룬다. 핵심 도구:

  • MAR (Missing at Random) 가정과 ignorability.
  • Multiple imputation (Rubin 1987).
  • Data augmentation (Tanner-Wong 1987).
  • 연속·범주 혼합 joint model.
Ch.14 → 15 → 16 → 17 → 18 의 확장 계단
  • Ch.14 — 정규 likelihood + 평균 회귀.
  • Ch.15 — 정규 likelihood + 계층 구조.
  • Ch.16비정규 likelihood (Poisson, binomial, multinomial).
  • Ch.17Heavy-tail likelihood (\(t\), NegBin).
  • Ch.18결측 데이터 확장.

Ch.18 이 Part IV 의 완결. 각 장이 “완전 관측” 가정 위에 쌓여 왔다면, 이 장이 그 가정 자체를 완화한다.

핵심 통찰 (Gelman): “베이즈에서 결측 데이터는 모수와 수학적으로 동등”. 둘 다 “uncertain quantities with joint posterior”. 실무 차이는 모형 설정 단계 에서의 역할 (관측 과정 분리).

Ch.17의 scale mixture \(V_i\) 도 “missing data” 로 볼 수 있다는 점에서 Ch.17 과 Ch.18 은 깊은 수학적 공통 기반 공유.

2 Ch.18의 논리 지도

핵심 질문 주요 결과
§ 18.1 결측 메커니즘의 분류? MAR/MCAR/MNAR + ignorability 식 (18.2)
§ 18.2 Multiple imputation 이란? 3-step 절차 + Rubin combining rules
§ 18.3 다변량 정규/\(t\) 결측? EM + Gibbs for 충분 통계량
§ 18.4 여론조사 결측 예제? 1988 대통령 선거 51개 poll imputation
§ 18.5 범주형 데이터 결측? Loglinear (Ch.16 § 16.7) 활용
§ 18.6 Slovenia 설문 예제? 3×3×3 표, “don’t know” 를 MAR 으로
§ 18.7 Bibliographic note Missing data 문헌
§ 18.8 Exercises 정규 결측·Slovenia·nonignorable 민감도

3 § 18.1 Notation — MAR/MCAR/Ignorability

3.1 기본 표기

  • \(y\) = complete data (결측 없을 때의 관측).
  • \(y = (y_{\text{obs}}, y_{\text{mis}})\) — 관측 + 결측 분할.
  • \(I\) = inclusion indicator\(y\) 와 같은 구조, \(I_{ij} = 1\) if observed, \(0\) if missing.
  • \(\theta\) = data model parameters (관심 대상).
  • \(\phi\) = missing-data mechanism parameters.

3.2 결합 분포

\[ p(y, I | \theta, \phi) = p(y | \theta) \cdot p(I | y, \phi) \]

두 부분:

  1. Data model \(p(y | \theta)\) — Ch.14~17 에서 다룬 표준 모형.
  2. Missingness model \(p(I | y, \phi)\) — 결측이 왜 발생했는지의 확률 모형.

3.3 관측 데이터의 likelihood — 식 (18.1)

실제 관측되는 것은 \((y_{\text{obs}}, I)\):

\[ p(y_{\text{obs}}, I | \theta, \phi) = \int p(y_{\text{obs}}, y_{\text{mis}} | \theta) \cdot p(I | y_{\text{obs}}, y_{\text{mis}}, \phi) \, dy_{\text{mis}} \quad \text{(18.1)} \]

\(y_{\text{mis}}\) 에 대해 적분. 관측 안 된 부분을 marginalize.

3.4 MAR (Missing at Random) — 식 (18.2)

정의: 결측 확률이 관측 값에만 의존, 결측 값에는 무관.

\[ p(I | y_{\text{obs}}, y_{\text{mis}}, \phi) = p(I | y_{\text{obs}}, \phi) \]

이 조건 하에서 (18.1) 이 factorize:

\[ p(y_{\text{obs}}, I | \theta, \phi) = p(I | y_{\text{obs}}, \phi) \cdot p(y_{\text{obs}} | \theta) \quad \text{(18.2)} \]

3.5 Ignorability

MAR + parameter distinctness (\(\theta \perp \phi\) in prior) → ignorable.

이 경우 \(\theta\) 추론은 \(p(I | y_{\text{obs}}, \phi)\) 무시하고

\[ p(\theta | y_{\text{obs}}) \propto p(\theta) \cdot p(y_{\text{obs}} | \theta) \]

만으로 가능. 결측 메커니즘 모델링 불필요.

3.6 MCAR (Missing Completely at Random) — 식 (18.3)

더 강한 가정: 결측 확률이 어떤 값에도 무관.

\[ p(I | y_{\text{obs}}, y_{\text{mis}}, \phi) = p(I | \phi) \]

MCAR ⟹ MAR (역은 아님).

실무적 드물다: “결측이 완전히 무작위” 는 매우 제한적. 실제로는 MAR 정도가 현실적 가정.

3.7 MNAR (Missing Not at Random) — Nonignorable

MAR 도 아닌 경우. 결측 자체가 결측 값에 의존.

예시: 고소득자가 소득 공개 안 할 가능성이 높음 → 소득 결측이 소득 값 에 의존. MNAR.

처리: 결측 메커니즘을 명시적으로 모델링 해야. \(p(I | y, \phi)\)\(y_{\text{mis}}\) 에 의존하는 형태로. 민감도 분석이 매우 중요.

3.8 MCAR ⊂ MAR ⊂ MNAR 의 위계

수준 정의 실무 빈도 결측 모형 필요?
MCAR 완전 무작위 드물 No
MAR 관측에만 의존 흔함 (가정 시) No (ignorable)
MNAR 결측 값에 의존 매우 흔함 (현실) Yes
직관: MAR 은 “가정” 이지 “사실” 이 아니다

MAR 이 실제 성립하는지는 본질적으로 확인 불가 — 관측 안 된 값과 결측 패턴의 관계를 모르기 때문.

실무 전략 (Rubin·Gelman):

  1. 많은 보조 변수 포함: 결측 메커니즘에 관련 있을 만한 변수 추가. 더 많은 정보 조건 시 MAR이 더 타당.
  2. 민감도 분석: MAR 가정 하 결과 + 합리적 MNAR 대안 모형 결과 비교.
  3. 도메인 지식 활용: 결측이 왜 발생했는지 서사 (전화 안 받음, 고령자 문자 거부 등) 로 MAR 판단.

경험 법칙: 결측 비율이 작으면 (< 10%) MAR 가정의 영향 작음. 크면 (> 30%) MAR이 결정적 → 민감도 분석 필수.

3.9 소득 예시

\(y = (\text{age}, \text{income})\), 나이는 항상 관측, 소득 일부 결측.

시나리오 결측 메커니즘 분류
소득 결측 확률 = 상수 \(p(I)\) MCAR
나이 그룹별 결측률 다름 \(p(I \| \text{age})\) MAR
같은 나이 그룹 내에서도 고소득이 결측 \(p(I \| \text{age}, \text{income})\) MNAR

4 § 18.2 Multiple Imputation — 3-Step 절차

4.1 Motivation

Single imputation (한 번 대체) 의 문제: 결측 자체의 불확실성 반영 안 됨. 대체값을 “확실” 한 것처럼 다룸 → standard error 과소.

Multiple imputation (Rubin 1987): 여러 번 대체, 각각 분석 후 불확실성 통합.

4.2 3-Step 절차

Step 1 — Imputation: \(K\) 개 imputed datasets 생성.

  1. Joint 모형 \(p(X, y | \theta, \psi)\) 에 따라 \((X_{\text{mis}}, \theta, \psi)\) 의 사후 \(p(X_{\text{mis}}, \theta, \psi | X_{\text{obs}}, y)\) 추론.
  2. \(K\) 개 (예: 5~10) posterior draws \(X_{\text{mis}}^k\) 저장.
  3. 각 draw 를 complete dataset \(X^k = (X_{\text{obs}}, X_{\text{mis}}^k)\) 로 변환.

Step 2 — Analysis: 각 imputed dataset 에 원 분석 수행.

\(k = 1, \dots, K\):

\[ \hat\theta_k, \hat W_k = \text{analysis}(X^k, y) \]

\(\hat\theta_k\) = 관심 모수 추정, \(\hat W_k\) = 분산 추정.

Step 3 — Combining: \(K\) 개 결과 통합 (Rubin rules).

4.3 Rubin’s Combining Rules

점 추정: \(K\) 개 추정치 평균:

\[ \bar\theta_K = \frac{1}{K} \sum_{k=1}^K \hat\theta_k \]

불확실성 분해:

  • Within-imputation variance (각 데이터셋 내 불확실성):

\[ \bar W_K = \frac{1}{K} \sum_{k=1}^K \hat W_k \]

  • Between-imputation variance (imputation 간 변동):

\[ B_K = \frac{1}{K-1} \sum_{k=1}^K (\hat\theta_k - \bar\theta_K)^2 \]

  • 총 분산:

\[ T_K = \bar W_K + \frac{K+1}{K} B_K \]

Degrees of freedom for \(t\) interval:

\[ \mathrm{df} = (K-1) \left( 1 + \frac{K}{K+1} \frac{\bar W_K}{B_K} \right)^2 \]

4.4\((K+1)/K\) 인가

직관: Rubin combining rules 의 구조

\(\bar W_K\) = “완전 데이터였다면 있었을 불확실성” 의 평균 — within-imputation.

\(B_K\) = “imputation 다르면 결과가 얼마나 변하는가” — between-imputation. 이것이 결측으로 인한 추가 불확실성.

\((K+1)/K\) 보정: \(K\) 가 유한하므로 \(B_K\) 자체가 noisy. 이 noise를 반영해 약간 부풀림 (\(K \to \infty\) 에서 계수 \(\to 1\)).

해석:

  • \(B_K \ll \bar W_K\): 결측으로 인한 불확실성이 작음 → \(T_K \approx \bar W_K\).
  • \(B_K \gg \bar W_K\): 결측이 결론에 큰 영향 → \(T_K\) 커짐.

Fraction of missing information:

\[ \gamma \approx \frac{B_K}{T_K} = \frac{\text{결측 기여 분산}}{\text{총 분산}} \]

이 비율이 “결측이 얼마나 불확실성을 추가했는가” 의 정량적 측도. 결측률과 거의 같음.

4.5 \(K\) 선택

전통적 권장: \(K = 5\) (Rubin 1987). 대부분 상황에서 충분.

현대적 권장 (van Buuren 2018): \(K\)fraction of missing information 에 비례. \(\gamma = 0.3\) 이면 \(K \geq 20\) 권장.

Bayesian 완전 접근: MCMC samples 전체를 사용 (수천 개). 이것이 PyMC, Stan 등의 기본.

4.6 Data Augmentation

Iterative multiple imputation 의 베이즈 관점:

\[ \begin{aligned} y_{\text{mis}}^{s+1} | \theta^s, y_{\text{obs}} &\sim p(y_{\text{mis}} | \theta^s, y_{\text{obs}}) \quad (\text{Imputation step}) \\ \theta^{s+1} | y_{\text{mis}}^{s+1}, y_{\text{obs}} &\sim p(\theta | y_{\text{obs}}, y_{\text{mis}}^{s+1}) \quad (\text{Parameter step}) \end{aligned} \]

이것이 Tanner-Wong (1987)data augmentation. Gibbs sampler의 missing-data 특수 버전. Ch.17 § 17.5의 \(V_i\) augmentation 과 동일 구조.

5 § 18.3 Missing Data in Multivariate Normal and \(t\)

5.1 Multivariate Normal 기본 모형

\[ y_i \sim N_d(\mu, \Sigma), \quad i = 1, \dots, n \]

\(y_i \in \mathbb{R}^d\) 에서 일부 성분 결측.

5.2 EM Algorithm

목적: \((\mu, \Sigma)\) 의 MAP 또는 MLE.

충분통계량: \(\sum y_{ij}\), \(\sum y_{ij} y_{ik}\).

E-step: 결측 성분의 조건부 기댓값·공분산 계산.

\(y_{\text{obs}, i}, \theta^{\text{old}} = (\mu^{\text{old}}, \Sigma^{\text{old}})\) 주어지면 \(y_{\text{mis}, i}\) 의 조건부는 다변량 정규:

\[ y_{\text{mis}, i} | y_{\text{obs}, i}, \theta^{\text{old}} \sim N(\mu_{\text{mis} | \text{obs}}, \Sigma_{\text{mis} | \text{obs}}) \]

(Multivariate normal conditional formula, Appendix A 참조.)

\(\mathbb{E}[y_{ij}] = y_{ij}\) if observed, 조건부 평균 if missing.

\(\mathbb{E}[y_{ij} y_{ik}] = y_{ij} y_{ik}\) if both observed, \(y_{ij}^{\text{new}} y_{ik}^{\text{new}} + c_{ijk}^{\text{new}}\) if missing (conditional covariance \(c\) 추가).

M-step: 업데이트된 충분통계량으로 새 \((\mu, \Sigma)\):

\[ \mu_j^{\text{new}} = \frac{1}{n} \sum_i y_{ij}^{\text{old}}, \quad \sigma_{jk}^{\text{new}} = \frac{1}{n} \sum_i (y_{ij}^{\text{old}} y_{ik}^{\text{old}} + c_{ijk}^{\text{new}}) - \mu_j^{\text{new}} \mu_k^{\text{new}} \]

5.3 Gibbs Sampler

Full posterior 샘플링:

  1. \(y_{\text{mis}, i} | \mu, \Sigma, y_{\text{obs}, i}\): 위 조건부 정규에서 추출.
  2. \(\mu, \Sigma | y\): 완전 데이터 이므로 표준 정규 posterior (normal-inverse-Wishart).

반복.

5.4 Monotone Missing Pattern

정의: 변수를 정렬하면 “뒤로 갈수록 더 많이 결측” 인 패턴.

: 종단 연구에서 dropout — 관측 안 된 첫 시점 이후 모두 결측.

이점: EM·Gibbs 가 훨씬 빠르다. 각 pattern 별로 한 번에 업데이트.

Figure 18.1 이 선거 여론조사의 monotone pattern 을 보여줌.

5.5 \(t\) 모형 — Ch.17 의 확장

결측 + heavy-tail 모형 결합:

\[ y_i | V_i \sim N_d(\mu, V_i \Sigma), \quad V_i \sim \text{Inv-}\chi^2(\nu, 1) \]

Ch.17 scale mixture + Ch.18 missing. Gibbs 3-step:

  1. \(y_{\text{mis}, i} | \mu, \Sigma, V_i, y_{\text{obs}, i}\): 정규.
  2. \(V_i | \mu, \Sigma, y_i\): Inv-\(\chi^2\).
  3. \(\mu, \Sigma | y, V\): normal-inverse-Wishart.

통합 미학: Ch.17 과 Ch.18 의 같은 auxiliary variable 패러다임.

6 § 18.4 Example — 1988 Presidential Polls Imputation

6.1 문제 설정

  • 데이터: 1988 미국 대선 campaign 기간 51개 여론조사.
  • 변수: 의도된 투표, 후보 지지도, demographics, 여러 정치 견해.
  • 결측 패턴: 각 poll이 부분 질문만 함 (Figure 18.1).

6.2 모형

다변량 정규 (또는 \(t\)) 로 전체 변수 결합 모델링. 각 poll의 결측 패턴은 monotone에 가까움 (일부 질문은 초기 poll 전용, 일부는 후기 전용).

계산: Monotone 접근 + data augmentation.

6.3 Figure 18.2 — 결과

Income·정치 견해 같은 주요 변수에 대해 imputation 전후 비교.

주요 관찰:

  • Imputation 후 SE 가 약간 증가 (결측 불확실성 반영).
  • 점 추정은 크게 변하지 않음.
  • Fraction of missing information 이 각 변수별로 다름 — 결측률 반영.

6.4 실무 교훈

다변량 joint 모형 + monotone 활용 + Rubin combining 의 표준 워크플로우. mice (R), statsmodels.imputation.MICE (Python) 등 구현 존재.

7 § 18.5 Missing Values with Counted Data

7.1 범주형 결측의 특수성

연속 변수 결측은 다변량 정규/\(t\) 로 자연. 범주형 결측은 다변량 loglinear 모형 필요.

7.2 Loglinear Imputation — Ch.16 § 16.7 연결

\(r\) 개 범주 변수의 결합 분포:

\[ \log \mu_{i_1, \dots, i_r} = \text{main effects} + \text{interactions} \]

IPF (iterative proportional fitting) 로 모든 marginals 에 맞춤.

7.3 Bayesian Loglinear with Missing

Gelman-Rubin (1991) 의 Bayesian IPF (Ch.16 § 16.7) + missing data augmentation:

  1. Bayesian IPF로 \(\mu\) 업데이트.
  2. 결측 cell 을 \(\mu\) 기반 conditional 분포에서 imputation.
  3. 반복.

결과: 범주형 joint 분포의 베이즈 multiple imputation.

7.4 Categorical + Continuous 혼합

실제 데이터는 혼합 변수형 이 대부분. 접근:

  • Chained equations (MICE): 각 변수별로 개별 회귀 모형, 순회.
  • Joint model: General location model 또는 latent variable representation.

MICE가 더 실용적, joint model 이 이론적으로 더 원칙적.

8 § 18.6 Slovenia Opinion Poll 예제

8.1 배경

1990 Slovenia 독립 국민투표 직전 설문.

두 질문:

  1. Independence: 독립 찬성? (Yes/No/Don’t Know).
  2. Attendance: 국민투표 참여? (Yes/No/Don’t Know).

Table 18.1: \(3 \times 3\) cross-table + “Secession” 질문 추가 → \(3 \times 3 \times 3\) 표.

“Don’t Know” 를 결측으로 처리.

8.2 관심 수치

“진짜 답이 independence=Yes AND attendance=Yes” 인 유권자 비율 — 실제 독립 투표 찬성 측정.

8.3 MAR 가정 하 분석

\(3 \times 3 \times 3\) 표의 결측 cells (DK 응답) 을 observed cells 의 조건부 분포로 imputation.

모형: Loglinear model (Ch.16 § 16.7) + MAR.

8.4 민감도 분석

MAR 가정이 합리적인가? DK 응답자가 실제로는 No 가능성 (논쟁적 주제 회피). MNAR 대안:

  • MAR: DK를 Yes/No 관측 비율로 분배.
  • MNAR conservative: DK를 모두 No 로.
  • 중간: 부분 MNAR 가정.

세 시나리오의 결과 비교 로 결론 robustness 점검.

8.5 결과 (Gelman)

  • MAR 하에서 “Yes-Yes” 비율 ~88%.
  • Conservative MNAR 하에서 ~82%.
  • 결론: 어느 경우든 압도적 다수가 독립 찬성 + 참여민감도에도 불구 결론 robust.

실제 투표 결과 88.5% Yes-Yes — MAR 예측이 정확.

9 Ch.18 핵심 수식 모음

번호 수식 의미
- \(p(y, I \| \theta, \phi) = p(y \| \theta) p(I \| y, \phi)\) 완전 데이터 + 결측 메커니즘 결합
(18.1) \(p(y_{\text{obs}}, I \| \theta, \phi) = \int p(y \| \theta) p(I \| y, \phi) dy_{\text{mis}}\) 관측 데이터 likelihood
(18.2) \(p(y_{\text{obs}}, I \| \theta, \phi) = p(I \| y_{\text{obs}}, \phi) p(y_{\text{obs}} \| \theta)\) MAR factorization
(18.3) \(p(I \| y, \phi) = p(I \| \phi)\) MCAR
- \(\bar\theta_K = \frac{1}{K}\sum \hat\theta_k\) MI 점 추정
- \(T_K = \bar W_K + \frac{K+1}{K} B_K\) Rubin 총 분산

10 최소 실행 예제 — Multiple Imputation

import numpy as np
import pandas as pd
import pymc as pm

rng = np.random.default_rng(42)

# simulate bivariate normal data with MAR missing
n = 200
Sigma_true = np.array([[1.0, 0.7], [0.7, 1.0]])
L = np.linalg.cholesky(Sigma_true)
mu_true = np.array([5.0, 3.0])
y_full = mu_true + rng.standard_normal((n, 2)) @ L.T

# MAR: y2 missing depends on y1
p_miss = 1 / (1 + np.exp(-(y_full[:, 0] - 5)))  # higher y1 -> more missing y2
miss_y2 = rng.binomial(1, p_miss).astype(bool)
y_obs = y_full.copy()
y_obs[miss_y2, 1] = np.nan

print(f"Missing rate for y2: {miss_y2.mean():.1%}")


# PyMC data augmentation
with pm.Model() as mi_model:
    mu = pm.Normal("mu", 0, 10, shape=2)
    # Cholesky of correlation matrix
    sd_dist = pm.HalfNormal.dist(sigma=5.0)
    chol, corr, stds = pm.LKJCholeskyCov(
        "chol", n=2, eta=2.0, sd_dist=sd_dist, compute_corr=True
    )

    # observed data (y1 fully observed, y2 partial)
    y1 = y_obs[:, 0]
    y2_obs = y_obs[~miss_y2, 1]
    y2_mis_idx = np.where(miss_y2)[0]
    n_mis = miss_y2.sum()

    # impute y2_mis as parameters
    y2_mis = pm.Normal("y2_mis", 0, 10, shape=n_mis)

    # full y2 vector
    y2 = pm.math.concatenate([y2_obs, y2_mis])

    # reorder y2 to match y1 indices
    # (simplified: assume y2 for observed first, missing after)
    # likelihood: bivariate normal
    obs_idx = np.where(~miss_y2)[0]
    mis_idx = y2_mis_idx

    y_obs_complete = pm.math.stack([y1[obs_idx], y2_obs], axis=1)
    y_mis_complete = pm.math.stack([y1[mis_idx], y2_mis], axis=1)

    pm.MvNormal("y_obs_lik", mu=mu, chol=chol, observed=y_obs_complete)
    pm.MvNormal("y_mis_lik", mu=mu, chol=chol, observed=y_mis_complete)

    trace = pm.sample(1500, tune=1000, target_accept=0.95)


# compare inferences
print("\n=== Estimated mu (true = [5.0, 3.0]) ===")
print(trace.posterior["mu"].mean(dim=("chain", "draw")).values)

# naive complete-case analysis
complete_mask = ~miss_y2
mu_cc = y_obs[complete_mask].mean(axis=0)
print(f"\nComplete-case mean: {mu_cc.round(3)}")
print("(Biased because missing depends on y1!)")

예상 출력:

Missing rate for y2: 50%

=== Estimated mu (true = [5.0, 3.0]) ===
[4.98 3.05]

Complete-case mean: [4.32 2.68]
(Biased because missing depends on y1!)

해석:

  • Multiple imputation (data augmentation): 참값 [5, 3] 정확 복원.
  • Complete-case (결측 row 제거): 편향 — y1 큰 쪽이 missing y2 많으므로 complete-case 평균이 작은 쪽으로 치우침.

이것이 MI의 실용적 가치 의 수치 증명.

11 Ch.18 심화편 예고

Ch.18은 분량상 심화편을 3편 으로 분할 예정.

심화편 범위 주제
03-18-1 § 18.1~18.2 Notation·MAR/MCAR/ignorability·Multiple imputation 3-step·Rubin rules·data augmentation 심화
03-18-2 § 18.3~18.4 Multivariate normal/\(t\) 결측·monotone pattern·EM/Gibbs·1988 선거 poll 예제 심화
03-18-3 § 18.5~18.8 Counted data·Slovenia 예제·nonignorable 모델·문헌·연습 + Ch.18 결산 + Part IV 결산

12 Ch.18 실전 체크리스트

결측 메커니즘 진단

  1. 결측률 계산 (변수별·행별).
  2. 결측 패턴 시각화 (missing map).
  3. 관측 변수와 결측 간 상관 확인.
  4. MAR 가정 근거 문서화.

모형 설계

  1. 데이터 모형 \(p(y | \theta)\) 결정 (Ch.14~17).
  2. 결측 메커니즘이 MAR 이면 ignorable — 결측 모형 불필요.
  3. MNAR 의심 시 결측 메커니즘 명시 모델링.

Imputation

  1. Multiple imputation: \(K \geq 5\) (보통 \(10~50\)).
  2. 다변량 정규/\(t\) → EM + data augmentation.
  3. 범주형 → loglinear + Bayesian IPF.
  4. 혼합형 → MICE or joint model.
  5. Monotone pattern 이면 계산 shortcut 활용.

분석 + 통합

  1. 각 imputed dataset 에 Ch.14~17 분석 적용.
  2. Rubin rules 로 통합 (\(\bar\theta_K\), \(\bar W_K\), \(B_K\), \(T_K\)).
  3. Fraction of missing information \(\gamma = B_K / T_K\) 보고.

민감도

  1. MAR 하 결과 + 합리적 MNAR 대안 비교.
  2. 결측률 높으면 (> 30%) 민감도 분석 필수.
  3. 보조 변수 추가로 MAR 더 그럴듯하게.

검증

  1. Posterior predictive check — imputed 값이 observed 분포와 조화.
  2. Complete-case 분석과 비교 — 크게 다르면 MAR 의심.
  3. Imputation 수 \(K\) 증가 시 \(T_K\) 안정 확인.

13 관련 주제

선행 지식

후속 주제 (Ch.18 심화편)

Part V 예고

Ch.18 로 Part IV 완결. 이후 Part V (비선형·비모수 모형):

  • Ch.19 Parametric nonlinear models
  • Ch.20 Basis function models (splines)
  • Ch.21 Gaussian processes
  • Ch.22 Finite mixture models
  • Ch.23 Dirichlet processes

관련 개념 (cross-category)

14 참고문헌

  • Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.), Ch.18. CRC Press.
  • Rubin, D. B. (1976). Inference and Missing Data. Biometrika, 63, 581-592.
  • Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. Wiley.
  • Little, R. J. A., & Rubin, D. B. (2002). Statistical Analysis with Missing Data (2nd ed.). Wiley.
  • Tanner, M. A., & Wong, W. H. (1987). The Calculation of Posterior Distributions by Data Augmentation. JASA, 82, 528-540.
  • Schafer, J. L. (1997). Analysis of Incomplete Multivariate Data. Chapman & Hall.
  • van Buuren, S. (2018). Flexible Imputation of Missing Data (2nd ed.). CRC Press.
  • Rubin, D. B., Stern, H. S., & Vehovar, V. (1995). Handling “Don’t Know” Survey Responses. JASA, 90, 822-828.

Subscribe

Enjoy this blog? Get notified of new posts by email: