1 들어가며
본 글의 범위:
- § 14.5 도입 — MNAR 의 challenge, 두 class (selection + pattern-mixture), sensitivity 의 가치.
- § 14.5.1 Selection Models 일반론 — Heckman (1976) 원전, Diggle-Kenward (1994) 확장, 비판.
- § 14.5.1.1 Mixed-Effects / Shared Parameter — 식 14.10-14.14 의 formulation.
- § 14.5.1.2 NIMH Schizophrenia 예시 — 식 14.15-14.20, NLMIXED, Table 14.11.
“§ 14.5 + § 14.5.1 = MNAR 처리의 첫 framework — Selection Model. Nonignorable missingness 는 standard 모형으로 biased, 그러나 데이터로 ignorability 검정 불가능 (Kenward 1998). Little (1995) 의 두 class: selection vs pattern-mixture. Selection 의 발상: \(f(y, R) = f(y) \cdot f(R \mid y)\) — 응답이 먼저, 결측이 다음. Heckman (1976) 의 econometric 원전, Leigh (1993) tutorial, Diggle-Kenward (1994) 의 longitudinal 확장. § 14.5.1.1 Mixed-Effects / Shared Parameter Selection (Wu-Carroll 1988, De Gruttola-Tu 1994, Schluchter 1992, Ten Have 1998): longitudinal \(f_y(y \mid v)\) + dropout \(f_D(D \mid v)\) 가 random effect \(v\) 공유. 식 14.12 의 marginal likelihood \(\int f_y f_D f(v) dv\). Cholesky reparam + Gauss-Hermite quadrature 로 추정. \(\alpha^* \neq 0\) → nonignorable. § 14.5.1.2 NIMH 예시: 식 14.15 의 SWeek MRM + 식 14.18 의 clog-log dropout with \(\theta_0, \theta_1\) + Drug interactions. 식 14.19-14.20 의 ordinal equivalence (Engel 1993, Läärä-Matthews 1985) → simpler dataset. Table 14.11: shared 가 separate 보다 better fit (LR \(\chi^2_4 = 30.1\), p < .0001). Drug × slope interaction \(\alpha_5 = -1.638\) (p = .003): placebo 는 안 호전 환자 dropout, drug 는 빨리 호전 환자 dropout — § 14.4.1 의 MeanY interaction 결과와 일치. Sensitivity analysis 의 도구, 결정적 답 아님.”
2 § 14.5 도입 — Models for Nonignorable Missingness
2.1 MNAR 의 Challenge
저자 본문 인용:
“the observed data provide no information to either confirm or refute ignorability. With that said, assuming a particular model for nonignorability and ignorability, one can test for ignorability, but this test is completely dependent on the proposed models for nonignorability and ignorability (e.g., see Kenward [1998]). Again, the data cannot address this important point independent of assumed models.”
핵심 메시지:
- 데이터 만으로는 ignorability 검정 불가능.
- 특정 ignorability 모형 vs 특정 nonignorability 모형 의 비교는 가능.
- → 모형 가정에 결정적으로 의존.
Kenward (1998) — 이 비교 검정의 한계 명시:
- 검정 결과는 가정된 두 모형의 specification 에 종속.
- 다른 specification → 다른 결과.
- → 보편적 ignorability test 없음.
MAR vs MNAR 의 본질적 차이:
- MAR: \(R \perp y^M \mid X, y^O\).
- MNAR: \(R \not\perp y^M \mid X, y^O\).
- 두 가정의 차이가 미관측 \(y^M\) 와의 관계 — 자료에 없음.
§ 14.4.1 NIMH 예시 와의 비교:
- MCAR 검정: \(y^O\) 활용 가능 → 검정 가능.
- MAR vs MNAR: \(y^M\) 가 필요 → 검정 불가능.
모형 가정의 결정적 역할:
- Selection 모형: \(f(R \mid y, X)\) 의 specific 형태.
- Pattern-mixture: 미관측 분포에 대한 specific 가정.
- 두 모형 모두 identifying assumption 필요.
- 다른 가정 → 다른 결과.
Sensitivity Analysis 의 동기:
- 단일 nonignorable 모형 의존 X.
- 다양한 가정으로 결과 검토.
- 결과 일관 → 강건한 conclusion.
- 결과 변동 → 임상적 판단 + 보수적 해석.
2.2 Little (1995) 의 두 Model Class
저자 본문 인용:
“Little [1995] described much of these approaches in terms of two broad model classes: selection and pattern-mixture models.”
Selection Models:
- \(f(y, R) = f(y) \cdot f(R \mid y)\).
- 응답 분포 + 결측의 조건부 분포.
- “왜 결측 발생?” 명시적 모형.
Pattern-Mixture Models:
- \(f(y, R) = f(R) \cdot f(y \mid R)\).
- 결측 패턴 별 응답 분포.
- “각 결측 패턴의 응답 분포는?”.
핵심 references:
- Little (1995) — overview.
- Glynn et al. (1986) — early comparison.
- Hogan & Laird (1997b) — selection vs pattern review.
- Michiels et al. (2002) — pattern-mixture sensitivity.
- Little (1993, 1994) — pattern-mixture 원전.
- Diggle & Kenward (1994) — selection model 표준 + discussion.
Selection 의 인과 발상:
- 응답이 먼저 발생 (자연 process).
- 결측이 응답에 의존하여 발생.
- → “응답 → 결측” 인과 모형.
Pattern-Mixture 의 마이굠 발상:
- 결측 패턴 별로 환자가 그룹화.
- 각 그룹의 응답 분포 다름.
- → 패턴별 mixture model.
두 Framework 의 통계적 동치성:
- 같은 결합 분포 \(f(y, R)\) 의 두 다른 factorization.
- 이론적으로 동치.
- 그러나 실무 specification 다름.
- → 다른 결과 가능.
언제 어느 것 사용:
- Selection: 결측 메커니즘에 대한 명확한 가설 있을 때.
- Pattern-Mixture: 패턴별 결과의 기술적 분석 + sensitivity.
- 보통 둘 다 시도, 결과 비교.
저자의 강한 경고:
저자 본문 인용:
“several authors warn against use of a particular nonignorable model as ‘the’ model, because these models make assumptions about the missing data that are essentially impossible to verify with the observed data.”
→ 어떤 nonignorable 모형도 “the” model 아님. → Sensitivity analysis 의 도구로 사용.
2.3 Sensitivity Analysis 의 가치
저자 본문 인용:
“Use of nonignorable models can be helpful in conducting a sensitivity analysis; to see how the conclusions might vary as a function of what is assumed about the missing data.”
Sensitivity 절차:
- Default 분석: MAR 가정 (MRM/CPM with full likelihood).
- Selection model 적합 (§ 14.5.1).
- Pattern-mixture model 적합 (§ 14.5.2).
- 세 결과 비교 → 일관성 확인.
해석:
- 세 모형 결과 비슷 → 강건한 conclusion.
- 결과 큰 차이 → 결측 메커니즘이 결정적 → 임상적 판단 신중.
실무 권고:
- 임상 보고서: MAR + sensitivity analysis 결과 모두 제시.
- “모형 가정 변경 시 결과 변동” 명시.
- 보수적 해석.
3 § 14.5.1 — Selection Models
3.1 Selection Models 의 역사
저자 본문 인용:
“The use of selection models for dealing with missing data in longitudinal studies has a relatively long history, being first proposed by Heckman [1976] in the econometric literature. More recently, Leigh et al. [1993] present a useful tutorial article on implementation of this approach.”
원래 2-stage 절차:
- Stage 1: dropout 예측 모형 (predictive logistic).
- Predictor: baseline + time-varying covariates.
- Output: dropout propensity score.
- Stage 2: longitudinal model + propensity score.
- propensity score 가 covariate.
- dropout 의 영향 보정.
Diggle-Kenward (1994) 확장:
- Dropout 모형에 past \(y_i^O\) + unobserved \(y_i^M\) 추가.
- → MNAR 명시적 모형.
- Longitudinal data analysis 의 표준 selection model.
Heckman 의 econometric 동기:
- 노동 경제학: wage equation, 고용 selection.
- 모든 사람 wage 측정 안 됨 (실업자 제외).
- → “selection” 효과 보정.
Longitudinal 적용:
- 모든 시점 측정 안 됨 (dropout).
- → dropout selection 효과 보정.
Stage 1 의 propensity score:
- \(\pi_i = P(D_i = 1 \mid X_i, y_i^O)\).
- 환자 \(i\) 의 dropout 확률.
- Logistic regression 으로 추정.
Stage 2 의 보정:
- \(y_{ij} = X_i \beta + \pi_i \gamma + \varepsilon\).
- propensity 가 covariate.
- dropout 효과 명시적 분리.
Diggle-Kenward 의 핵심 추가:
- Dropout 이 \(y^M\) 의존 → MNAR.
- \(y^M\) 의 분포에 대한 가정 필요.
- → distributional assumption 의 결정적 역할.
3.2 Selection Models 의 비판
저자 본문 인용:
“Selection models have often been criticized because results can depend greatly on distributional assumptions of the missing data that are impossible to verify [Little, 1995; Little and Rubin, 2002]. To address this, Kenward [1998] describes how the distributional assumptions can be varied, allowing one to assess, to some degree, the sensitivity of the results to the distributional assumptions.”
비판의 핵심:
- \(y^M\) 의 분포 가정 필요 (정규, t-분포 등).
- 자료에 \(y^M\) 없음 → 가정 검증 불가능.
- 다른 분포 가정 → 다른 결과.
Kenward (1998) 의 sensitivity 권고:
- 다양한 분포 가정으로 적합.
- 결과의 변동 평가.
- → distributional sensitivity.
예시:
- \(y^M \sim N(\mu, \sigma^2)\) (정규).
- \(y^M \sim t_k\) (t-분포).
- \(y^M \sim\) Skewed normal.
다른 가정 → 다른 결과:
- 정규: tail 짧음 → extreme dropout 적게 보정.
- t-분포: tail 길음 → extreme dropout 많게 보정.
- → 추정량 다를 수 있음.
실무 권고:
- Default: 정규.
- Sensitivity: 다양한 분포 시도.
- 결과 큰 변화 → 신중한 해석.
§ 14.5.1.1 의 mixed-effects framework 의 advantage:
- 분포 가정이 random effect 에만 한정 (보통 정규).
- \(y^M\) 의 별도 가정 필요 없음.
- → 가정의 영향 상대적 작음.
5 § 14.5.1.2 — NIMH Schizophrenia 예시
5.1 식 (14.15) — Longitudinal Model
저자 본문 인용 (식 14.15):
\[IMPS79_{ij} = \beta_0 + \beta_1 Drug_i + \beta_2 SWeek_j + \beta_3 (Drug_i \times SWeek_j) + v_{0i} + v_{1i} SWeek_j + \varepsilon_{ij}\]
SWeek = \(\sqrt{week}\):
- IMPS79 와 시간의 비선형 관계 → square root 로 선형화.
- Ch.9 NIMH 분석에서 표준 변환.
Random effects:
- \(v_{0i}\): baseline 편차.
- \(v_{1i}\): 호전 속도 편차 (SWeek 단위).
- 모두 normal, \(\Sigma_v\) 공분산.
원래 IMPS79 vs week:
- Week 0 → 1: 큰 호전.
- Week 1 → 6: 점진적 호전.
- → 비선형 (감속 호전).
SWeek 변환 후:
- Week 0 → SWeek 0.
- Week 1 → SWeek 1.
- Week 4 → SWeek 2.
- Week 6 → SWeek 2.45.
- → 빠른 초기 변화 + 천천한 후기 변화 가 직선화.
§ 14.4.1 의 분석과 차이:
- § 14.4.1: 시점별 indicator (Week 1, 2, 3, 4 dummy).
- § 14.5.1.2: SWeek 연속 변수.
- → 모형 단순화 + 추세 명시적.
5.2 식 (14.16-14.17) — Cholesky Reparameterization
저자 본문 인용 (식 14.16):
\[S = \begin{pmatrix} s_0 & 0 \\ s_{01} & s_1 \end{pmatrix} = \begin{pmatrix} \sigma_{v_0} & 0 \\ \sigma_{v_{01}}/\sigma_{v_0} & \sqrt{\sigma_{v_1}^2 - \sigma_{v_{01}}^2/\sigma_{v_0}^2} \end{pmatrix}\]
\(\Sigma_v = SS'\):
\[SS' = \begin{pmatrix} \sigma_{v_0}^2 & \sigma_{v_{01}} \\ \sigma_{v_{01}} & \sigma_{v_1}^2 \end{pmatrix} = \Sigma_v\] (검증).
식 14.17 — reparam 된 longitudinal model:
\[IMPS79_{ij} = \beta_0 + \beta_1 Drug_i + \beta_2 SWeek_j + \beta_3 (Drug_i \times SWeek_j)\] \[+ \left(\sigma_{v_0} + \frac{\sigma_{v_{01}}}{\sigma_{v_0}} SWeek_j\right) \theta_{0i} + \left(\sqrt{\sigma_{v_1}^2 - \sigma_{v_{01}}^2/\sigma_{v_0}^2} \cdot SWeek_j\right) \theta_{1i}\]
→ \(\theta_{0i}, \theta_{1i}\) 가 독립 standard normal.
\(v\) 가 correlated (\(\sigma_{v_{01}} \neq 0\)):
- Quadrature 어려움 (multivariate normal).
- → standardize 필요.
\(\theta\) 가 independent standard normal:
- 각 차원 별 quadrature 분리 가능.
- \(\theta_0\) 의 quadrature × \(\theta_1\) 의 quadrature.
- → tensor product quadrature.
예시 — 5000 subjects, \(Q = 10\):
- 차원 \(r = 2\) → \(10^2 = 100\) points.
- 5000 subjects × 100 points × 반복 = \(5 \times 10^5\) evaluations / 반복.
- 적당한 시간 (수 분).
§ 13.2.4 의 3-Level Cholesky 와 같은 발상:
- 3-Level: cluster + subject random effects 모두 standardize.
- 본 모형: subject 만 (intercept + slope).
5.3 식 (14.18) — Dropout Component
저자 본문 인용 (식 14.18):
\[\log(-\log(1 - P(D_i = j \mid D_i \geq j))) = \alpha_{0j} + \alpha_1 Drug_i + \alpha_2 \theta_{0i} + \alpha_3 \theta_{1i} + \alpha_4 (Drug_i \times \theta_{0i}) + \alpha_5 (Drug_i \times \theta_{1i})\]
모수:
- \(\alpha_{0j}\): 시점별 baseline cumulative hazard.
- \(\alpha_1\): Drug 효과 (random effects = 평균일 때).
- \(\alpha_2, \alpha_3\): random intercept, slope 효과.
- \(\alpha_4, \alpha_5\): Drug × random effects interactions.
MNAR 검정:
- \(H_0\): \(\alpha_2 = \alpha_3 = \alpha_4 = \alpha_5 = 0\).
- 거부 → nonignorable.
왜 Drug × Random Effects 가 중요:
- § 14.4.1 NIMH 결과: Drug × MeanY interaction 결정적.
- → Drug 그룹마다 dropout 메커니즘 다름.
- → Random effects 도 그룹별 다른 영향 가능.
\(\alpha_2\) (random intercept):
- 양수: high baseline (severe) 환자 dropout 많음.
- 음수: low baseline (mild) 환자 dropout 많음.
\(\alpha_3\) (random slope):
- 양수: 안 호전 환자 (slope 더 양수) dropout 많음.
- 음수: 빨리 호전 환자 (slope 더 음수) dropout 많음.
\(\alpha_5\) (Drug × random slope):
- 그룹별 slope 효과 차이.
- Placebo 의 slope 효과 vs Drug 의 slope 효과.
임상 가설:
- Placebo: 안 호전 환자 → “다른 치료” 받으러 dropout.
- Drug: 호전 환자 → “더 이상 진료 필요 없음” → dropout.
- → 그룹마다 반대 방향.
5.4 식 (14.19-14.20) — Ordinal Equivalence
저자 본문 인용:
“Because the above model for dropout does not include any time-varying covariates, besides the intercept terms representing the baseline hazard, we can take advantage of the equivalence of certain models under the clog-log link [Engel, 1993; Läärä and Matthews, 1985]. Namely, the above dichotomous regression model utilizing person-period indicators of dropout is equivalent to the following ordinal regression model:”
식 14.19 — Ordinal cumulative model:
\[\log(-\log(1 - P(D_i \leq j))) = \alpha_{0j} + \alpha_1 Drug_i + \alpha_2 \theta_{0i} + \alpha_3 \theta_{1i} + \alpha_4 (Drug_i \times \theta_{0i}) + \alpha_5 (Drug_i \times \theta_{1i})\]
식 14.20 — Cumulative probability:
\[P(D_i \leq j) = 1 - \exp(-\exp(\alpha_{0j} + \alpha_1 Drug_i + \cdots))\]
Equivalence 의 의미:
- Time-invariant covariate 만 → ordinal cumulative form 과 동치.
- \(\alpha_1\) ~ \(\alpha_5\) 가 동일.
- \(\alpha_{0j}\) 의 baseline hazard 만 다른 형태.
Ordinal 표현의 advantage:
저자 본문 인용:
“This is simpler, from a data analytic perspective, because we do not have to create a person-period dataset. Instead, we have one outcome per person (\(D_i\)) and several person-level covariates (\(Drug_i, \theta_{0i}, \theta_{1i}\)).”
- Person-period dataset 불필요.
- \(D_i \in \{1, 2, 3, 4, 5, 6\}\) (마지막 관측 주).
- → 환자 \(i\) 마다 single outcome.
- → 데이터 정리 단순.
Discrete-time hazard vs Cumulative ordinal:
- 식 14.18: \(P(D_i = j \mid D_i \geq j)\) — hazard at \(j\).
- 식 14.19: \(P(D_i \leq j)\) — cumulative.
- 둘 다 같은 모수 (clog-log + time-invariant covariate 시).
§ 10.2.3 의 cumulative ordinal proportional hazards 와 같음:
- Hedeker, Mermelstein 등의 ordinal cumulative model.
- Discrete-time PH 와 동치.
- → § 10.2.3 의 framework 활용.
한계:
- Time-varying covariate 있으면 equivalence 깨짐.
- 그 경우 식 14.18 의 person-period 필수.
- 본 schizophrenia 예시는 time-varying 없음 → ordinal OK.
5.5 SAS PROC NLMIXED 구현
저자 본문 인용:
“This model can be estimated using SAS PROC NLMIXED, which is a general program for estimation of many kinds of mixed-effects model. For this, the first step is to create a dataset in which a single vector contains, for each subject, the dependent variable vector \(y_i\) and the time to dropout variable \(D_i\) as one vector, say \(y_i^*\).”
핵심 구조:
- 데이터 stack: \(y_i^*\) = \(y_i\) (longitudinal) + \(D_i\) (dropout) 한 vector.
- Indicator \(ind\): 0 if \(y\) component, 1 if \(D\) component.
- NLMIXED 내부 분기:
- \(ind = 0\): longitudinal likelihood.
- \(ind = 1\): dropout likelihood (clog-log).
왜 NLMIXED 가 필요:
- 표준 MIXED procedure: linear mixed model 만.
- GLIMMIX: GLMM 만 (single outcome).
- NLMIXED: 임의의 nonlinear model + 임의의 likelihood.
Joint likelihood 의 표현:
- \(y\) 의 normal density + \(D\) 의 ordinal clog-log density.
- 두 density 의 product → log-likelihood.
- NLMIXED 의 GENERAL(ll) 옵션 사용.
Random effects 공유:
RANDOM u1 u2 ~ NORMAL([0,0], [1,0,1]) SUBJECT=id.- 두 outcomes 가 같은 \(u_1, u_2\) 사용.
- → shared parameter 의 핵심.
실무 가능성:
- SAS PROC NLMIXED.
- R:
nlme::nlme(제한적),brms(Stan-based, 더 일반). - Python: PyMC, Stan.
계산 시간 (NIMH 예시):
- 437 subjects × ~5 시점 + dropout outcome.
- ~수 분 (modern hardware).
- 더 큰 데이터: 수 시간 가능.
6 응용 분야
| 분야 | Selection model 적용 | 비고 |
|---|---|---|
| 임상시험 (RCT) | Drug × random effects | 그룹별 다른 dropout 메커니즘 |
| 항암제 long-term | Survival outcome 와 연계 | 사망 = informative dropout |
| 정신과 longitudinal | Symptom 의 random trajectory | 호전/악화 따른 dropout |
| 만성 질환 추적 | Disease progression × dropout | 악화 dropout (frailty) |
| 임상시험 with biomarker | Biomarker × dropout | Biomarker-driven dropout |
| 약물 cessation | “Missing = smoking” alternative | 강한 MNAR 가정 |
7 코드 예시
7.1 Step 1: NIMH 데이터 시뮬레이션 (Simplified)
library(MASS)
library(dplyr)
set.seed(2026)
n_placebo <- 108
n_drug <- 329
n_subjects <- n_placebo + n_drug
# Drug 변수
drug <- c(rep(0, n_placebo), rep(1, n_drug))
# Random effects (Cholesky)
sigma_v0 <- 0.6
sigma_v1 <- 0.5
rho <- -0.3
Sigma_v <- matrix(c(sigma_v0^2, rho * sigma_v0 * sigma_v1,
rho * sigma_v0 * sigma_v1, sigma_v1^2), 2, 2)
v <- mvrnorm(n_subjects, mu = c(0, 0), Sigma = Sigma_v)
# Longitudinal data
weeks <- c(0, 1, 3, 6)
df_long <- expand.grid(subject = 1:n_subjects, week = weeks) %>%
arrange(subject, week)
df_long$drug <- drug[df_long$subject]
df_long$sweek <- sqrt(df_long$week)
df_long$v0 <- v[df_long$subject, 1]
df_long$v1 <- v[df_long$subject, 2]
# 식 14.15 의 generating model
df_long$imps79 <- 5.32 + 0.09 * df_long$drug - 0.27 * df_long$sweek -
0.74 * df_long$drug * df_long$sweek +
df_long$v0 + df_long$v1 * df_long$sweek +
rnorm(nrow(df_long), 0, 0.8)
# Dropout 메커니즘 (식 14.18, MNAR)
generate_dropout_time <- function(drug_i, v0_i, v1_i) {
alpha_1 <- -0.7 # Drug effect
alpha_5 <- -1.6 # Drug × slope interaction
# 4 weeks of risk
for (j in 1:4) {
linpred <- -2 + alpha_1 * drug_i + 0.9 * v1_i + alpha_5 * drug_i * v1_i
haz <- 1 - exp(-exp(linpred))
if (rbinom(1, 1, haz) == 1) return(j)
}
return(5) # completer
}
dropout_times <- sapply(1:n_subjects, function(i) {
generate_dropout_time(drug[i], v[i, 1], v[i, 2])
})
# Apply dropout (monotone)
df_long_with_dropout <- df_long %>%
mutate(d_time = dropout_times[subject],
observed = ifelse(week <= weeks[d_time], 1, 0))
cat("Dropout 분포:\n")
print(table(dropout_times, drug))진짜 generating 모수:
- \(\beta = (5.32, 0.09, -0.27, -0.74)\).
- $= $ (Drug + Drug × slope interaction).
Dropout 메커니즘:
- \(\alpha_5 = -1.6\) → Drug 그룹의 빠른 호전 환자가 dropout.
- Placebo 의 slope 효과가 양수 (안 호전 → dropout).
→ 시뮬레이션이 식 14.18 의 MNAR 시나리오 직접 구현.
7.2 Step 2: Separate Model 적합 (MAR)
library(lme4)
# Longitudinal MRM (separate analysis, MAR 가정)
df_observed <- df_long_with_dropout %>% filter(observed == 1)
fit_separate_long <- lmer(imps79 ~ drug + sweek + drug:sweek + (sweek | subject),
data = df_observed)
summary(fit_separate_long)
# Dropout model (separate)
df_dropout_only <- df_long_with_dropout %>%
group_by(subject) %>%
summarise(d_time = first(d_time), drug = first(drug))
# Discrete-time hazard for dropout
library(survival)
# ... (별도 logistic regression)
cat("\nSeparate 결과:\n")
cat("진짜 beta = (5.32, 0.09, -0.27, -0.74)\n")
cat("추정 beta:", round(fixef(fit_separate_long), 3), "\n")Separate = 두 모형 분리 적합:
- Longitudinal: standard MRM (MAR 가정).
- Dropout: discrete-time survival.
- 둘이 독립적 추정.
MAR 가정의 의미:
- \(\alpha_2 = \alpha_3 = \alpha_4 = \alpha_5 = 0\).
- Random effects 가 dropout 영향 안 줌.
- → 결측이 ignorable.
언제 위험:
- 실제 dropout 이 random effects 의존 (NIMH 처럼).
- → MAR 가정 위반.
- → biased 추정 가능.
7.4 Step 4: Sensitivity Analysis
# 다양한 nonignorable 모형 가정으로 sensitivity
sensitivity_analysis <- function(df, alpha_5_values = c(0, -0.5, -1, -1.5)) {
# Each alpha_5 에 대해 separate dropout 가정
results <- data.frame(alpha_5 = alpha_5_values,
beta_3 = NA)
for (i in seq_along(alpha_5_values)) {
a5 <- alpha_5_values[i]
# Conditional on a5, 적합
# 단순화: weighted analysis (실제는 NLMIXED 또는 brms)
fit <- lmer(imps79 ~ drug + sweek + drug:sweek + (sweek | subject),
data = df %>% filter(observed == 1))
results$beta_3[i] <- fixef(fit)[4]
}
return(results)
}
cat("\n=== Sensitivity Analysis ===\n")
sens_results <- sensitivity_analysis(df_long_with_dropout)
print(sens_results)
# 진짜 값과 비교
cat("\n진짜 beta_3 = -0.74\n")다양한 alpha_5 시나리오:
- \(\alpha_5 = 0\): shared = separate (MAR).
- \(\alpha_5 < 0\): 점진적 더 강한 MNAR.
- \(\alpha_5 = -1.6\): NIMH 데이터의 추정값.
해석:
- \(\beta_3\) 의 변동 작음 → robust conclusion.
- \(\beta_3\) 의 변동 큼 → 임상적 판단 필요.
실무 보고:
- “MAR 가정 하 drug 효과 = \(X\)”.
- “다양한 MNAR 가정 하 drug 효과 = \(X \pm \Delta\)”.
- “결과 일관 → conclusion 강건”.
§ 14.5.2 의 Pattern-Mixture 와 함께 사용 권고:
- Selection: \(f(R \mid y)\) 의 명시적 가정.
- Pattern-mixture: 패턴 별 응답 분포 가정.
- 둘 다 sensitivity 의 도구.
8 관련 주제
선행 지식
- Ch.4 정규 종단 MRM — Longitudinal model 의 토대
- Ch.9 NIMH GLMM — NIMH schizophrenia 데이터
- Ch.10 § 10.2.3 Discrete-time survival — Cumulative ordinal + clog-log + PH equivalence
- Ch.13 § 13.2 Cholesky reparam — Cholesky + Gauss-Hermite quadrature
- § 14.3 Simulations — MAR vs MNAR sim
- § 14.4 Testing MCAR — Drug × MeanY interaction (parallel finding)
후속 주제 (Ch.14 sub-posts)
- § 14.5.2 — Pattern-mixture model (Little 1993, 1994)
- § 14.6 — Summary
관련 개념
- Heckman (1976) — Econometric selection model 원전 (Annals of Economic and Social Measurement)
- Leigh, Ward & Fries (1993) — Selection model tutorial (J Clin Epidemiology)
- Diggle & Kenward (1994) — Longitudinal selection model + discussion (Applied Statistics)
- Kenward (1998) — Sensitivity to nonignorability (Statistics in Medicine)
- Little (1993) — Pattern-mixture (Journal of the American Statistical Association)
- Little (1994) — Pattern-mixture for non-monotone (Biometrika)
- Little (1995) — Selection vs pattern-mixture overview (JASA)
- Little & Rubin (2002) — Missing data textbook (2nd ed.)
- Glynn, Laird & Rubin (1986) — Selection vs mixture comparison
- Hogan & Laird (1997b) — Selection vs mixture review
- Michiels, Molenberghs & Lipsitz (2002) — Pattern-mixture sensitivity
- Wu & Carroll (1988) — Conditional linear model with informative dropout
- Wu & Bailey (1989) — Estimation under random-coefficient regression
- Schluchter (1992) — Methods for analysis of informative censored longitudinal
- De Gruttola & Tu (1994) — Modelling progression of CD4 with informative dropout
- Ten Have, Pulkstenis, Kunselman & Landis (1998) — Mixed-effects logistic regression with informative dropout
- Engel (1993) — On equivalence of clog-log models
- Läärä & Matthews (1985) — Equivalence of two link functions for ordered categorical data
- Prentice & Gloeckler (1978) — Grouped-time proportional hazards (clog-log)