1 들어가며
본 글의 범위:
- § 14.1 Introduction (longitudinal 결측의 본질, MRM/GEE 의 결측 처리, references).
- § 14.2 mechanisms framework setup (Rubin typology, \(R_i\) notation, dropout).
- § 14.2.1 MCAR (가장 강한 가정).
- § 14.2.2 MAR + ignorability.
- § 14.2.3 MNAR + sensitivity 의 필수성.
“§ 14.1 + § 14.2 = Ch.14 의 framework. 결측 데이터의 세 가지 패턴 (intermittent, item nonresponse, dropout) + Mixed-effects model 의 결측 유연성 (각 환자 시점 수 변동 자연 처리). 그러나 모형 마다 결측에 대한 가정 다름. Rubin (1976) typology = framework. \(R_{ij}\) indicator + \(y_i^O / y_i^M\) partition + dropout time \(D_i\). 세 가지 mechanism: MCAR (\(R_i \perp y_i^O, y_i^M\), 가장 강함), MAR (\(R_i \perp y_i^M \mid X_i, y_i^O\), default 권고), MNAR (\(R_i\) 가 \(y_i^M\) 의존, 검정 불가능). Ignorability = MAR + distinct parameters → MRM/CPM (full likelihood) 의 MAR 충분 vs GEE1 의 MCAR 필요. MNAR → sensitivity analysis 필수.”
2 § 14.1 — Introduction
2.1 Longitudinal Study 의 결측 데이터 본질
저자 본문 인용:
“Even in well-controlled situations, missing data invariably occur in longitudinal studies.”
→ “잘 통제된 상황에서도 종단 연구에는 반드시 결측 데이터가 발생”.
왜 longitudinal 에서 특히 흔한가:
- Cross-sectional: 한 번 측정 → 결측 = 비응답.
- Longitudinal: \(T\) 시점 측정 → 각 시점마다 결측 가능성.
- \(T\) 가 클수록 결측 누적.
- 시간이 길수록 환자 사망, 이사, 관심 상실.
예시 — RCT 에서 5 시점 follow-up:
- 각 시점 90% retention (10% missing).
- 모든 시점 complete = \(0.9^5 = 59\%\).
- 즉 41% 환자가 적어도 한 시점 결측.
더 긴 연구:
- 10 시점 (각 90%): \(0.9^{10} = 35\%\) complete.
- → 65% 환자가 incomplete.
현실 임상 연구:
- 정신과 RCT (16 주): retention 보통 70-80%.
- 종양학 long-term: retention 50-60%.
- → 결측 처리 가정이 결과의 결정적 요인.
무시의 위험:
- Complete cases 만 사용 → 표본 크기 ↓ + bias 가능.
- 잘못된 결측 가정 → 추정량 bias + Type I error 인플레.
- → Ch.14 의 mechanism 정밀 분석 필요.
2.2 결측의 세 가지 패턴
저자 본문 인용:
“Subjects can be missed at a particular measurement wave… Alternatively, subjects who are assessed at a given study timepoint, might only provide responses to a subset of the study variables… Finally, subjects might dropout of the study, or be lost to follow-up.”
세 가지 패턴:
- Intermittent missing: 일부 시점만 결측, 나머지 관측.
- Item nonresponse: 한 시점에서 일부 변수만 결측.
- Dropout (lost to follow-up): 한 시점 이후 영원히 결측.
| 패턴 | 예시 | 분석 난이도 |
|---|---|---|
| Intermittent | 환자가 8 주차 결측, 4·12 주 관측 | 중 (random missing 가정 가능) |
| Item nonresponse | 8 주차 우울 점수만 결측, 다른 척도 관측 | 중 (multivariate imputation 가능) |
| Dropout | 8 주차 이후 모든 시점 결측 | 가장 어려움 (monotone, 끝이 결측) |
Dropout 의 특수성:
- Monotone pattern: \(R_{i,j-1} = 0 \Rightarrow R_{i,j} = 0\).
- 결측 데이터의 “정보량 0” — 보정 불가능 (없는 데이터).
- 임상 의미 큼 — dropout 자체가 outcome 의 함수일 가능성.
Intermittent vs Dropout 의 임상적 의미:
- Intermittent: 보통 random (한 번 못 옴).
- Dropout: 의미 있는 사건 (효과 없음, 부작용, 사망, 호전).
- → Dropout 분석이 임상적으로 더 중요.
§ 14.5 의 모형들 (selection, pattern-mixture):
- 주로 dropout 처리 위주.
- Intermittent 는 별도 multiple imputation 권고.
2.3 Mixed-Effects 모형의 결측 처리 능력
저자 본문 인용:
“An attractive and important feature of many of the models considered in this book is their flexibility in handling missing data. For example, for both MRMs and GEE models, subjects are not assumed to be measured at the same number of timepoints, and in fact, can be measured at different timepoints.”
Mixed-effects 의 강점:
- Variable cluster size 자연 처리.
- 같은 환자의 시점 수 변동 OK (\(n_i\) 변동).
- Complete cases 만 사용 안 함 (모든 관측 활용).
ANOVA/Repeated Measures (전통적):
- “Wide format” 가정 — 모든 환자가 같은 시점 관측.
- 한 시점 결측 → 환자 전체 제외 (listwise deletion).
- 100 환자 중 10 환자만 incomplete → 10% 정보 손실.
Mixed-Effects (MRM/GEE):
- “Long format” — 각 환자의 관측 시점만 row.
- 결측 시점 = row 없음 → 자동 무시.
- 환자별 다른 시점 수 OK.
예시 — 100 환자, 5 시점 의도, 각 시점 80% retention:
- ANOVA: complete subjects = \(100 \times 0.8^5 = 33\).
- → 67 환자 정보 손실 (large sample 손실).
- MRM/GEE: 모든 관측 사용 = \(100 \times 5 \times 0.8 = 400\) obs.
- → 모든 정보 활용.
결정적 주의 — 유연성 ≠ 가정 자동 만족:
- MRM/GEE 가 모든 관측 활용한다고 결측이 ignorable 되는 것 아님.
- 각 모형의 결측 가정 (MAR or MCAR) 만족 여부는 별도 분석.
- → 다음 § 14.2 의 mechanism 분석 핵심.
2.4 핵심 References
저자 본문에서 명시:
| 저자 (연도) | 기여 |
|---|---|
| Rubin (1976) | Missing data typology 원전 (Biometrika) |
| Little (1988) | MCAR test |
| Little (1993, 1994) | Pattern-mixture models |
| Little (1995) | Longitudinal modeling 중요 overview |
| Diggle & Kenward (1994) | Selection model 표준 |
| Hogan & Laird (1997) | Reviews |
| Hogan, Roy & Korkontzelou (2004) | Tutorial |
| Demirtas (2004a, 2004b) | Methods reviews + WGEE |
| Schafer (1997) | Multiple imputation textbook |
| Schafer & Graham (2002) | Accessible review |
| Verbeke & Molenberghs (2000) | Linear mixed models textbook |
| Diggle, Heagerty, Liang, Zeger (2002) | Longitudinal data textbook |
| Little & Rubin (2002) | Missing data textbook |
| Robins, Rotnitzky, Zhao (1995) | WGEE |
| Rotnitzky & Robins (1999) | WGEE 확장 |
| Rubin (1987, 1996) | Multiple imputation 원전 |
| Fitzmaurice et al. (2004) | MAR default 권고 |
| Shih (1992) | Distinct parameters condition |
| Gornbein et al. (1992) | Reviews |
| Molenberghs et al. (2004) | Reviews |
본 chapter 가 다루는 것:
- Missing data mechanisms (Rubin typology).
- MRM 의 결측 유연성 + 가정.
- Selection model + Pattern-mixture model (MNAR 처리).
다루지 않는 것 (저자 명시):
- Multiple imputation: Rubin 표준 — Schafer 1997, Rubin 1987 참조.
- Weighting approaches (WGEE): Robins et al. 1995 참조.
왜 다루지 않는가:
- 본 책의 mixed-effects framework 와 직접 통합 어려움.
- 별도 textbook (Schafer 1997) 으로 충분.
- → 본 chapter 는 mixed-effects 위에서의 결측 처리 집중.
MI 와 본 chapter 의 관계:
- MI: 결측 값을 imputed → standard analysis.
- 본 chapter: 결측 메커니즘을 명시적 모형 → joint estimation.
- 둘 다 MAR 또는 MNAR 처리 가능, 접근 다름.
- 실무: 둘 다 사용 권고 (sensitivity 확인).
3 § 14.2 — Missing Data Mechanisms (Rubin Typology) Setup
3.1 “Why are the data missing?”
저자 본문 인용:
“The missing data mechanism is what characterizes the reasons for the missing data. In other words, the mechanism addresses the basic question of ‘why are the data missing?’”
핵심 질문:
- 왜 결측이 발생했는가?
- 결측이 dependent variable 과 어떻게 연관되는가?
- 결측 여부 자체가 random 인가, 또는 의미 있는 정보를 담고 있는가?
저자 본문 인용:
“the performance of longitudinal data analysis models can depend critically on the missing data mechanism.”
결측 메커니즘이 모형 결과에 영향:
- 같은 데이터, 같은 모형 → mechanism 다르면 추정량 다름.
- Bias, standard error, p-value 모두 변화.
예시 — 우울증 RCT:
- 시나리오 1 (MCAR): 환자가 우연히 못 옴 (날씨, 차량 고장).
- → 모든 분석 unbiased.
- 시나리오 2 (MAR): HAM-D ≥ 20 인 환자가 dropout.
- → MRM 은 unbiased, GEE 는 biased.
- 시나리오 3 (MNAR): 미관측 HAM-D 가 높을 때 dropout.
- → 모든 표준 분석 biased, sensitivity analysis 필요.
Mechanism 가정의 어려움:
- 자료에서 직접 검증 어려움.
- MCAR vs MAR: Little’s test 가능 (다음 sub-post).
- MAR vs MNAR: 검정 불가능 — 임상적 판단 + sensitivity.
Rubin (1976) 의 widely cited but less understood:
저자 본문 인용:
“while this typology is widely cited, it is less widely understood.”
→ 인용은 흔하지만 정확한 정의는 자주 혼동. → 다음 절의 정밀 표기 + 예시 학습 필수.
3.2 표기 — \(R_{ij}\), \(y_i^O\), \(y_i^M\), \(D_i\)
저자 본문 인용 (식 표기 정리):
환자 \(i\), 시점 \(j\) 의 indicator:
\[R_{ij} = \begin{cases} 1 & \text{if subject } i \text{ is observed at time } j \\ 0 & \text{if subject } i \text{ is missing at time } j \end{cases}\]
Complete dependent variable vector (\(n \times 1\)):
\[y_i^\top = (y_{i1}, y_{i2}, \ldots, y_{in})\]
Missing data indicator vector (\(n \times 1\)):
\[R_i^\top = (R_{i1}, R_{i2}, \ldots, R_{in})\]
→ 두 vector 모두 같은 길이 \(n\) (계획된 시점 수).
\(y_i\) 의 새로운 해석:
- 평소 \(y_i\): 실제 관측된 dependent variable.
- 본 chapter 의 \(y_i\): 계획되었던 (planned) potential dependent variable.
- → 측정했어야 했던 모든 값 (실제 관측 못 했어도).
왜 이렇게 정의하는가:
- 결측 분석의 본질 = 미관측 값과의 관계.
- 미관측 값이 “있었을 것” 으로 가정해야 mechanism 정의 가능.
- → Counterfactual / potential outcome framework.
예시 — 환자 \(i\), 5 시점 RCT:
- 계획: \(y_i = (12, 10, 8, ?, ?)\).
- \(R_i = (1, 1, 1, 0, 0)\) (3 시점 관측, 4·5 시점 결측).
- 실제 관측: \(y_i^O = (12, 10, 8)\).
- 미관측: \(y_i^M = (?, ?)\) — counterfactual.
\(y\) 의 분해:
\[y_i = \begin{pmatrix} y_i^O \\ y_i^M \end{pmatrix}, \quad |y_i^O| = \sum_j R_{ij}, \quad |y_i^M| = n - \sum_j R_{ij}\]
→ 두 partition 의 합이 complete vector.
Mechanism 의 정의는 \(R_i\) 의 분포:
- \(f(R_i \mid y_i^O, y_i^M, X_i)\) — 결측 indicator 의 조건부 분포.
- 이 분포가 \(y_i^O\) 에 의존 → MAR.
- 이 분포가 \(y_i^M\) 에 의존 → MNAR.
- 이 분포가 둘 다와 독립 → MCAR.
3.3 Dropout Time \(D_i\) 의 단순화
저자 본문 인용:
“If the missing data are only due to such dropout, then the missing data indicators can be summarized simply by the time of dropout variable \(D_i\), where \(D_i = j'\) if subject \(i\) drops out between the \((j' - 1)\)th and \(j'\)th timepoint.”
정의:
\[D_i = j' \iff y_{i1}, \ldots, y_{i, j'-1} \text{ observed AND } y_{i, j'}, \ldots, y_{in} \text{ missing}\]
Completers 처리 (저자 두 가지 옵션):
- \(D_i = 0\) (Little 1995): “dropout 안 함” 의미.
- \(D_i = n + 1\): “dropout time 이 마지막 시점 초과”.
- 분석 따라 선택.
Monotone Missing Pattern:
- \(R_{i, j-1} = 0 \Rightarrow R_{i, j} = 0\) for all \(j\).
- 즉 한 번 결측 → 이후 모두 결측.
- → \(R_i\) 전체가 단일 변수 \(D_i\) 로 표현 가능.
\(R_i\) vs \(D_i\) 표기 비교:
- \(R_i \in \{0, 1\}^n\): 임의 패턴, \(2^n\) 가지.
- \(D_i \in \{1, \ldots, n+1\}\) (또는 \(\{0, 1, \ldots, n\}\)): \(n+1\) 가지.
- → Dropout-only 가정 시 단일 정수로 충분.
예시 — 5 시점, 3 환자:
- 환자 1: \(R = (1,1,1,1,1)\), \(D = 6\) (또는 \(D = 0\)).
- 환자 2: \(R = (1,1,1,0,0)\), \(D = 4\).
- 환자 3: \(R = (1,1,0,0,0)\), \(D = 3\).
Intermittent vs Dropout 구분:
- 환자 4: \(R = (1,0,1,1,1)\) — intermittent, \(D_i\) 표현 불가능.
- → Intermittent 가 있으면 \(R_i\) 전체 사용 필요.
- 또는 dropout 부분만 분리 분석.
\(D_i\) 의 모형화:
- Discrete-time survival (§ 10.2.3 ordinal survival 참조).
- Logistic discrete-time hazard.
- → Selection model 의 자연스러운 framework.
\(D_i = 0\) vs \(n + 1\) 의 분석적 차이:
- \(D_i = 0\) (Little): “completers” 가 별도 카테고리.
- \(D_i = n + 1\): “\(n\) 시점에 dropout 안 한” 으로 시간순 자연.
- Pattern-mixture: \(D_i\) 에 따라 별도 모형 → 두 표기 모두 OK.
- Discrete-time survival: \(D_i = n + 1\) 가 자연스러움 (censored).
4 § 14.2.1 — MCAR (Missing Completely at Random)
4.1 MCAR 의 정의
저자 본문 인용:
“The most basic assumption about the missing data is to assume that they are missing completely at random… This implies that the missing data indicators \(R_i\) are independent of both \(y_i^O\) and \(y_i^M\).”
기본 정의 (식 14.1):
\[R_i \perp y_i^O, y_i^M\]
→ “결측 indicator 가 관측된 dependent variable + 미관측 dependent variable 모두와 독립”.
Covariate-dependent MCAR (Little 1995):
\[R_i \perp y_i^O, y_i^M \mid X_i\]
→ “관측된 covariate \(X_i\) 조건부 독립”.
MCAR 의 임상 해석:
- “결측 여부가 dependent variable 과 무관하게 결정”.
- “측정했더라도 결과가 같을 것” — 결측 환자와 관측 환자가 같은 분포.
MCAR 충족 예시:
- 환자가 우연히 차량 고장으로 못 옴.
- 측정 도구 random failure.
- 행정적 오류 (random).
MCAR 위반 예시:
- 우울증 환자가 너무 우울해서 안 옴 → 미관측 값이 더 높음 → MNAR.
- 호전된 환자가 더 이상 진료 필요 없어 안 옴 → 미관측 값이 더 낮음 → MNAR.
- HAM-D ≥ 20 인 환자만 dropout → MAR (관측된 점수 의존).
Covariate-dependent MCAR 의 가치:
저자 본문 인용:
“this is a very important special case, for example, because it allows missingness to increase across time (assuming that the variable time is included in \(X_i\)).”
→ “시간이 지남에 따라 결측이 증가하는” longitudinal study 의 자연 패턴 허용. → Time 을 \(X_i\) 에 포함 → MCAR 가정 만족 가능.
4.2 Conditional Independence 로서의 MCAR
저자 본문 인용:
“Under covariate-dependent missingness, MCAR can be thought of as an assumption of conditional independence. Namely, given the covariates \(X_i\), missingness \(R_i\) is independent of the observed \(y_i^O\) and unobserved dependent variable \(y_i^M\) vectors.”
조건부 독립 표기:
\[P(R_i \mid X_i, y_i^O, y_i^M) = P(R_i \mid X_i)\]
→ “\(X_i\) 조건부, \(R_i\) 가 \(y_i^O\) 와 \(y_i^M\) 모두에 독립”.
저자 본문 인용 (예시):
“suppose that both missingness and the dependent variable increase with time, but that conditional on time, missingness and the dependent variable are unrelated… if one did not include time as a covariate in the analysis, then the data analysis would no longer be consistent with MCAR.”
예시:
- 12 주 follow-up, 우울증 RCT.
- Time 1: 100% retention, mean HAM-D = 18.
- Time 12: 60% retention, mean HAM-D (관측) = 10.
관측만 보면:
- 시간 ↑ → mean ↓ + missingness ↑.
- → “결측이 dependent variable 과 연관” (apparent MAR).
Time 조건부:
- 같은 시간점 안에서: 결측 환자와 관측 환자의 HAM-D 분포 같음.
- → “Time 만 보정하면 결측이 random” — covariate-dependent MCAR.
모형 측면:
- Time 제외: GEE → biased (apparent MAR).
- Time 포함: GEE → unbiased (covariate-dependent MCAR 만족).
결정적 권고:
- Longitudinal model 에 time 포함 필수.
- Time 외에도 baseline severity, age, sex 등 missingness 예측 변수 포함 권고.
MCAR 의 강건성:
- 만족 시 — 모든 모형 (complete-case 포함) unbiased.
- 만족 시 — GEE, MRM, CPM, ANOVA 모두 valid.
- → 가장 강한 가정이지만 만족 시 가장 단순.
MCAR 의 약점:
- 가정 너무 강함 — 임상 현실에서 자주 깨짐.
- Dropout 이 outcome 의존이면 즉시 위반.
- → MAR 가 더 현실적 default (Fitzmaurice 2004).
4.3 Schafer-Graham 의 Attendance 권고
저자 본문 인용:
“Schafer and Graham [2002] and Demirtas and Schafer [2003] recommend including a question like ‘How likely is it that you will remain in this study through the next measurement period?’ in longitudinal questionnaires. To the extent that this question is related to subsequent missingness, including this variable as a covariate in analyses could convert a non-MCAR situation to one that is essentially MCAR.”
아이디어:
- 환자에게 “다음에도 올 것 같은가?” 자기 보고 → covariate 로 추가.
- 이 변수가 missingness 예측 → covariate-dependent MCAR 만족 가능성.
왜 자기 보고가 중요한가:
- 환자가 미래 attendance 에 대해 가장 정확한 예측자.
- 임상 의사 보다 자신의 사정 (이사, 부작용, 경제적 어려움) 더 잘 앎.
- → 결측 메커니즘의 핵심 변수.
활용 방법:
- Baseline + 각 visit 에서 1 문항 추가.
- Likert scale: “1 = 매우 가능, 5 = 매우 어려움”.
- 이 변수를 모형의 \(X_i\) 에 포함.
효과:
- Without attendance: \(R_i\) 가 \(y_i^M\) 에 의존 (MNAR).
- With attendance: \(R_i \perp y_i^M \mid X_i^{\text{ext}}\) (MCAR or MAR).
- → 더 강한 ignorability 가정 만족.
제한:
- 환자 self-report 의 정확성 제한.
- 응답 편향 (사회적 desirability).
- 그러나 “추가 정보의 가치 > 노이즈” 인 경우 권고.
실무:
- 정신과 RCT 에서 자주 사용.
- 만성 질환 추적 연구에서 권고.
- 한국 의료 연구에서는 아직 미흡 — 도입 가치 큼.
§ 14.4 의 연결:
- Schafer-Graham 권고를 따르면 Little’s MCAR test 통과 가능성 ↑.
- → 더 단순한 분석 (MCAR-based) 정당화.
5 § 14.2.2 — MAR (Missing at Random)
5.1 MAR 의 정의
저자 본문 인용:
“Missing at random (MAR) goes one important step further by allowing the missingness to depend on both fully observed model covariates \(X_i\) and the observed dependent variable vector \(y_i^O\). MAR assumes that conditional on these two, the missing data are not related to the unobserved dependent variable vector \(y_i^M\).”
정의 (식 14.2):
\[R_i \perp y_i^M \mid X_i, y_i^O\]
또는
\[P(R_i \mid X_i, y_i^O, y_i^M) = P(R_i \mid X_i, y_i^O)\]
→ “\(X_i\) + \(y_i^O\) 조건부, \(R_i\) 가 \(y_i^M\) 에 독립”.
MCAR vs MAR 의 1 줄 비교:
- MCAR: 결측이 \(y\) 와 무관 (관측된 + 미관측).
- MAR: 결측이 관측된 \(y_i^O\) 에는 의존 가능, 미관측 \(y_i^M\) 에는 독립.
예시 — 우울증 RCT (저자 제시):
저자 본문 인용:
“if subjects in a depression study who have Hamilton depression scores below 15 drop out of the study (i.e., they are measured at a particular timepoint with a score below 15, but then are not measured at any future timepoints).”
시나리오 분석:
- 환자 A: 8 주차 HAM-D = 12 → “호전” → dropout.
- 환자 B: 8 주차 HAM-D = 22 → “여전히 우울” → 계속 follow-up.
→ Dropout 결정이 관측된 8 주차 HAM-D 에 의존. → MAR 충족 (미관측 12·16 주 HAM-D 와는 직접 관계 없음).
왜 MAR 가 덜 restrictive 한가:
- MCAR 는 모든 \(y\) 와 독립 (강한 제약).
- MAR 는 관측된 \(y\) 와의 연관 허용 (약한 제약).
- → 더 많은 임상 시나리오에 적용 가능.
실무 default:
저자 본문 인용:
“many experts on missing data advocate use of MAR analysis as the default approach, unless there are strong reasons to support the MCAR assumption.”
→ Fitzmaurice et al. (2004) — MAR 가 default. → MCAR 는 통계적으로 강하지만 임상적으로 비현실적. → MAR 부터 시작, 필요 시 MNAR 검토.
MCAR vs MAR 검정 가능성:
저자 본문 인용:
“one can test whether MCAR is reasonable or not, relative to MAR, because the distinction involves the observed data vector \(y_i^O\).”
- 두 가정의 차이가 관측 가능한 부분 (\(y_i^O\)).
- → 자료로 검정 가능 (Little’s MCAR test, § 14.4).
- 검정 통과 → MCAR.
- 검정 실패 → MAR (또는 MNAR, 검정 불가능).
5.2 MAR 의 가정 검증의 어려움
저자 본문 인용:
“MAR posits that the missing data are related to the observed data (both \(X\) and \(y_i^O\)), but that the missingness is not additionally related to the unobserved data \(y_i^M\). As a result, for longitudinal models that assume MAR (e.g., MRMs and CPMs), it is vital that both the appropriate covariates are included in \(X_i\), and that the variance-covariance structure of \(y_i\) is correctly specified.”
MAR analysis 가 valid 하려면:
- 적절한 covariate 포함: missingness 예측 변수 모두 \(X_i\) 에 추가.
- 공분산 구조 정확: \(y_i\) 의 covariance 모형이 진짜와 일치.
→ 둘 중 하나라도 위반 → MAR 가정 깨짐 → biased.
MRM 의 가정 = MAR:
- MAR 는 관측된 \(y_i^O\) 가 미관측 \(y_i^M\) 에 대한 정보 충분히 담음.
- 그러나 이 정보가 모형에 정확히 활용되어야 valid.
- → 공분산 구조의 정확성이 결정적.
예시 — Compound Symmetry vs Unstructured:
- 진짜 공분산: AR(1) (시간 가까울수록 더 강한 상관).
- 가정: Compound Symmetry (모든 시점 같은 상관).
- → 인접 시점 정보를 과소 활용 + 먼 시점 정보 과대 활용.
- → 미관측 값 추정 부정확 → MAR 가정 효과적 위반.
§ 15.3.2 의 simulation 인용:
저자 본문 인용:
“Our simulation results in Section 15.3.2 will illustrate how misspecification of the variance-covariance structure of \(y_i\) can yield biased results under MAR missingness.”
→ MAR 데이터에 잘못된 공분산 구조 → biased 결과.
실무 권고:
- Random effects: 가능한 다양한 (intercept + slope, etc.).
- CPM: UN 부터 시작, 단순화 검정 (§ 6.3 의 LR test).
- → 공분산 구조의 정확성 = MAR analysis 의 핵심.
\(X_i\) 에 누락된 covariate 의 영향:
- Missingness 예측 변수 누락 → MAR 가정 위반.
- 예: Baseline severity 누락 → severe 환자가 dropout 많음 → biased.
- → 임상적으로 중요한 변수 모두 포함 권고.
5.3 Ignorability
저자 본문 인용:
“A missing data mechanism is ignorable if (1) the missing data are MAR and (2) the parameters of the data model (i.e., the longitudinal model for the dependent variable) and the parameters of the missingness mechanism are distinct.”
Ignorable 의 정의:
- MAR.
- Distinct parameters condition (Shih 1992): data model 모수 \(\theta\) 와 missingness model 모수 \(\phi\) 가 독립 (joint parameter space 가 곱집합).
Ignorable 의 의미:
- “결측 메커니즘을 무시하고 \(y\) 의 모형만 적합 가능”.
- 결측 메커니즘 별도 모형 안 함.
- → 단순한 분석으로 valid.
Distinct parameters condition 의 수학적 의미:
- \(f(y_i, R_i \mid X_i; \theta, \phi) = f(y_i \mid X_i; \theta) \cdot f(R_i \mid y_i, X_i; \phi)\).
- \(\theta\) (data model) 와 \(\phi\) (missingness) 가 별개 모수.
- 추정 시 두 부분 분리 가능.
Distinct parameters 가 깨지는 예:
- Joint model 에서 random effect 가 양쪽에 공유.
- 예: \(u_i\) 가 \(y\) 의 random intercept + dropout 의 frailty.
- → 두 모수 share → ignorable 아님.
일반적 longitudinal 분석:
- 보통 distinct parameters 가정 OK.
- 임상 분석에서 joint model 이 아니면 항상 만족.
Ignorability 의 결정적 implication:
저자 본문 인용:
“This is the case for full likelihood-based models (e.g., MRMs and CPMs) if the distinct parameters condition holds and the missing data are MAR, while for GEE1 models, the stronger assumption of MCAR is required.”
MRM/CPM (full likelihood) vs GEE1 의 차이:
- MRM/CPM: MAR + distinct parameters → ignorable. MAR 충분.
- GEE1: MAR 만으로 부족, MCAR 필요.
왜 차이가 발생하는가:
- MRM/CPM: \(y_i^O\) 의 결합 분포 모형 (full likelihood).
- \(y_i^O\) 의 joint information 활용 → MAR 정보 자동 처리.
- GEE1: marginal moments + working correlation.
- 결합 분포 모형 안 함 → MAR 의 추가 정보 활용 못함.
- → MCAR 가정 필요 (더 강한 가정).
실무 결론:
- 결측이 있는 종단 데이터 → MRM/CPM 권고.
- GEE 사용 시 MCAR 검정 필수 (Little’s test).
- WGEE (weighted GEE): MAR 처리 GEE 변형.
6 § 14.2.3 — MNAR (Missing Not at Random)
6.1 MNAR 의 정의
저자 본문 인용:
“Missing not at random (MNAR) is the situation where the missingness is related to the unobserved dependent variable vector \(y_i^M\) after taking observed variables (i.e., \(X_i\) and \(y_i^O\)) into account.”
정의 (식 14.3):
\[R_i \not\perp y_i^M \mid X_i, y_i^O\]
→ “관측된 모든 정보 (\(X_i\), \(y_i^O\)) 조건부에도 \(R_i\) 가 미관측 \(y_i^M\) 에 의존”.
MAR vs MNAR 의 본질적 차이:
- MAR: 결측이 관측된 \(y\) 의존 (보정 가능).
- MNAR: 결측이 미관측 \(y\) 의존 (보정 불가능 — 데이터 없음).
예시 1 (MAR): “Hamilton ≥ 15 면 dropout”
- 환자 A: 8 주차 측정 → HAM-D = 18 → dropout.
- 측정 후 dropout 결정 (관측된 값 기반).
- → 8 주 데이터 보존 + 이후 missing.
- → MAR (관측된 18 이 dropout 결정).
예시 2 (MNAR): “측정 시점에 ≥ 15 면 측정 안 함”
저자 본문 인용:
“MNAR can occur if subjects are not measured at a given timepoint because their value of the dependent variable falls (i.e., is too high or low).”
- 환자 B: 8 주차 진료 시 우울 심함 → 측정 자체 거부.
- 8 주차 데이터 자체가 missing.
- 미관측 값 (≥ 15 였을 것) 이 dropout 결정.
- → MNAR (미관측 값이 dropout 의 원인).
둘의 외관적 차이는 작지만 통계적 결과는 큼:
- MAR: MRM 으로 unbiased 추정 가능.
- MNAR: MRM 도 biased — selection or pattern-mixture 필요.
Smoking cessation 의 강한 MNAR:
- 흔한 가정: “Missing = smoking” (강한 MNAR).
- 환자가 흡연 재개해서 부끄러워 안 옴 → 미관측 값 (smoking) 이 missingness 결정.
- → 관측 환자만 분석 → cessation rate 과대 추정.
- → “Missing = smoking” 가정으로 보정 (conservative).
실제로는:
- 대부분 MAR 가 더 적절 (관측된 이전 흡연 이력으로 dropout 예측 가능).
- 그러나 conservative 정책 분석에서는 MNAR 가정 사용.
6.2 검정 불가능과 Sensitivity Analysis
저자 본문 인용 (§ 14.2 setup):
“the distinction involves the unobserved data \(y_i^M\), there is no way to confirm or reject MAR versus MNAR.”
검정 불가능의 이유:
- 두 가정의 차이가 미관측 \(y_i^M\) 와의 관계.
- 자료에 \(y_i^M\) 가 없음 (정의상).
- → 자료로 직접 검정 불가능.
MCAR vs MAR 검정 가능 (관측 가능):
- 두 가정의 차이가 \(y_i^O\) 와의 관계 — 관측 가능.
- Little’s MCAR test 로 검정 (§ 14.4).
- 검정 통과 → MCAR, 실패 → MAR (또는 MNAR).
MAR vs MNAR 검정 불가능:
- 두 가정의 차이가 \(y_i^M\) 와의 관계 — 관측 불가능.
- 자료에서 \(y_i^M\) 의 분포 추정 불가.
- → 가정에 직접 의존.
Sensitivity Analysis 의 필수성:
저자 본문 인용 (overview, § 14.5 도입):
- 다양한 MNAR 모형 적합 → 결과의 robustness 평가.
- 결과가 모형 따라 크게 변하면 → conclusion 신중.
Sensitivity 의 두 framework:
- Selection model (Diggle-Kenward 1994):
- \(f(R \mid y, X)\) 의 다양한 specification.
- 예: \(R\) 가 미관측 \(y_i^M\) 에 의존 정도 \(\delta\) 변화.
- Pattern-mixture (Little 1993, 1994):
- 미관측 분포에 대한 가정 (ACMV, NCMV) 변경.
- 각 가정 하 결과 비교.
의사결정 트리:
- MCAR 검정 통과 → 표준 분석.
- MCAR 검정 실패 → MAR 가정 (full likelihood 모형).
- 임상적으로 MNAR 의심 → sensitivity analysis (selection + PM).
- 결과 일관 → 강건한 conclusion.
- 결과 변동 → 임상적 판단 + 보수적 해석.
임상 시나리오의 MNAR 의심 신호:
- Outcome 이 dropout 의 직접적 원인 (HAM-D, smoking, BP).
- Dropout pattern 이 covariate 와 강한 연관.
- 임상의가 “건강한 환자가 안 온다” 또는 “심한 환자가 안 온다” 보고.
- → Sensitivity analysis 권고.
현실적 어려움:
- MNAR 모형이 strong assumptions.
- Identification 어려움 — 같은 데이터에 다른 결과.
- 임상적 판단의 역할 큼.
7 응용 분야
| 분야 | 결측 패턴 | 가능한 메커니즘 | 권고 분석 |
|---|---|---|---|
| 우울증 RCT | Dropout | MNAR (호전 또는 악화) | MRM + sensitivity (SEL/PM) |
| 항암제 RCT | Dropout | MAR (부작용 보고) 또는 MNAR | MRM + sensitivity |
| Smoking cessation | Dropout | MNAR (재흡연자 부끄러움) | “Missing = smoking” + sensitivity |
| 만성통증 추적 | Intermittent + Dropout | MAR (보통) | MRM + MI |
| 학교 종단 | Dropout (이사, 자퇴) | MAR (이사) 또는 MNAR (성적 낮은 자퇴) | MRM + sensitivity |
| 노인 종단 | Dropout (사망) | MNAR (frail subject) | Joint model |
| Survey panel | Item nonresponse | MAR (보통) | Multiple imputation |
| 비만 RCT | Dropout (감량 실패) | MNAR (실패자 부끄러움) | “Missing = baseline” + sensitivity |
8 코드 예시
8.1 Step 1: 결측 패턴 시각화
library(naniar)
library(dplyr)
library(ggplot2)
# 시뮬레이션 데이터 — 5 시점 RCT
set.seed(2026)
n_subjects <- 200
n_times <- 5
df <- expand.grid(subject = 1:n_subjects, time = 1:n_times)
df$x <- rep(rnorm(n_subjects), each = n_times)
upsilon <- rep(rnorm(n_subjects, 0, 1), each = n_times)
df$y <- 2 - 0.3 * df$time + 0.5 * df$x + upsilon + rnorm(nrow(df), 0, 1)
# Dropout 시나리오 — 직전 y 값에 따라 dropout (MAR)
df_long <- df %>%
group_by(subject) %>%
arrange(time) %>%
mutate(y_prev = lag(y),
dropout_prob = ifelse(is.na(y_prev), 0, plogis(0 + 0.7 * y_prev))) %>%
ungroup()
# Monotone dropout 적용
df_long <- df_long %>%
group_by(subject) %>%
mutate(dropout_event = rbinom(n(), 1, dropout_prob),
cum_dropout = cumsum(dropout_event),
observed = ifelse(cum_dropout > 0, 0, 1),
y_observed = ifelse(observed == 1, y, NA)) %>%
ungroup()
# 결측 indicator R
df_long$R <- ifelse(is.na(df_long$y_observed), 0, 1)
# 결측 pattern 시각화
df_wide <- df_long %>%
select(subject, time, R) %>%
tidyr::pivot_wider(names_from = time, values_from = R, names_prefix = "t")
gg_miss_upset(df_wide[, -1]) # missingness combinationsWide format 의 R 분포:
- 각 환자의 \(R_i\) 가 row.
- Pattern 종류 표 (e.g., (1,1,1,1,1), (1,1,1,1,0), (1,1,1,0,0), …).
Monotone vs Intermittent 확인:
- Monotone: \(R\) pattern 이 (1,1,…,0,…,0) 모양.
- Intermittent: (1,0,1,0,1) 등 random pattern.
- → Monotone 만 있으면 dropout-only 분석 가능 (\(D_i\) 표기).
Schafer-Graham 권고의 적용:
- 시각화로 dropout 시점별 covariate 분포 확인.
- 어느 covariate 가 missingness 예측?
- → \(X_i\) 에 추가할 후보 식별.
8.2 Step 2: \(D_i\) (Dropout Time) 계산
# Dropout time D_i
df_dropout_time <- df_long %>%
group_by(subject) %>%
summarise(D_i = ifelse(all(R == 1), n_times + 1,
which(R == 0)[1])) %>%
ungroup()
# Dropout time 분포
table(df_dropout_time$D_i)
# Pattern 표
cat("\nDropout time 분포:\n")
cat("D_i = 6 (completers):", sum(df_dropout_time$D_i == 6), "\n")
cat("D_i = 5:", sum(df_dropout_time$D_i == 5), "\n")
cat("D_i = 4:", sum(df_dropout_time$D_i == 4), "\n")
cat("D_i = 3:", sum(df_dropout_time$D_i == 3), "\n")
cat("D_i = 2:", sum(df_dropout_time$D_i == 2), "\n")
# Dropout time 별 baseline y (MAR check)
df_dropout_baseline <- df_long %>%
filter(time == 1) %>%
left_join(df_dropout_time, by = "subject")
df_dropout_baseline %>%
group_by(D_i) %>%
summarise(mean_baseline_y = mean(y, na.rm = TRUE),
sd_baseline_y = sd(y, na.rm = TRUE),
n = n())Dropout time 의 단일 변수화:
- \(R_i\) (\(n\) vector) 대신 \(D_i\) (단일 정수) 로 요약.
- Survival analysis framework 자연 적용 (discrete-time hazard).
Dropout time 별 baseline 비교:
- \(D_i = 6\) (completers) 의 baseline 분포.
- \(D_i = 3\) (early dropout) 의 baseline 분포.
- 두 분포가 다르면 → MAR 또는 MNAR 의심.
- 두 분포가 같으면 → MCAR 가능성 ↑.
§ 14.5 Pattern-Mixture 의 발상:
- \(D_i\) 별 별도 모형 적합.
- 각 pattern 의 outcome 분포 비교.
- Sensitivity analysis 의 토대.
8.3 Step 3: MCAR/MAR/MNAR 시뮬레이션
# 동일 underlying y 에 세 가지 결측 메커니즘 적용
set.seed(2026)
n_subjects <- 200
n_times <- 5
# Complete data
df_complete <- expand.grid(subject = 1:n_subjects, time = 1:n_times)
df_complete$x <- rep(rnorm(n_subjects), each = n_times)
upsilon <- rep(rnorm(n_subjects, 0, 1), each = n_times)
df_complete$y <- 2 - 0.3 * df_complete$time + 0.5 * df_complete$x +
upsilon + rnorm(nrow(df_complete), 0, 1)
# === MCAR ===
# 시간 따라 결측 증가 (covariate-dependent MCAR with time)
df_mcar <- df_complete
prob_obs_mcar <- 1 - 0.05 * df_mcar$time # time 1: 95%, time 5: 75%
df_mcar$y_mcar <- ifelse(rbinom(nrow(df_mcar), 1, prob_obs_mcar) == 1,
df_mcar$y, NA)
# === MAR ===
# 직전 y 가 dropout 결정 (관측된 y 기반)
df_mar <- df_complete %>%
group_by(subject) %>%
arrange(time) %>%
mutate(y_prev = lag(y),
dropout_prob = ifelse(is.na(y_prev), 0, plogis(-1 + 0.5 * y_prev)))
# Monotone dropout
df_mar <- df_mar %>%
group_by(subject) %>%
mutate(dropout_event = rbinom(n(), 1, dropout_prob),
cum_dropout = cumsum(dropout_event),
y_mar = ifelse(cum_dropout == 0, y, NA)) %>%
ungroup()
# === MNAR ===
# 현재 y 가 dropout 결정 (미관측 y 기반)
df_mnar <- df_complete %>%
mutate(dropout_prob_current = plogis(-1 + 0.5 * y))
df_mnar <- df_mnar %>%
group_by(subject) %>%
arrange(time) %>%
mutate(dropout_event = rbinom(n(), 1, dropout_prob_current),
cum_dropout = cumsum(dropout_event),
y_mnar = ifelse(cum_dropout == 0, y, NA)) %>%
ungroup()
# 결측률 비교
cat("\n결측률 비교:\n")
cat(" MCAR:", round(mean(is.na(df_mcar$y_mcar)), 3), "\n")
cat(" MAR:", round(mean(is.na(df_mar$y_mar)), 3), "\n")
cat(" MNAR:", round(mean(is.na(df_mnar$y_mnar)), 3), "\n")
# 관측 y 평균 비교 (편향 진단)
cat("\n관측 y 평균 비교 (진짜:", round(mean(df_complete$y), 3), "):\n")
cat(" MCAR observed:", round(mean(df_mcar$y_mcar, na.rm=TRUE), 3), "\n")
cat(" MAR observed:", round(mean(df_mar$y_mar, na.rm=TRUE), 3), "\n")
cat(" MNAR observed:", round(mean(df_mnar$y_mnar, na.rm=TRUE), 3), "\n")진짜 평균과 관측 평균 비교:
- MCAR: 관측 평균 ≈ 진짜 평균 (unbiased).
- MAR: 관측 평균 약간 biased (관측된 y 의존, 보정 가능).
- MNAR: 관측 평균 강하게 biased (미관측 y 의존, 보정 불가능).
왜 이 차이가 중요한가:
- Naive analysis (complete cases): MCAR 만 valid.
- MRM (full likelihood): MAR 까지 valid.
- Selection/PM: MNAR 까지 (가정 하).
실무 권고:
- 시뮬레이션으로 결측 메커니즘 효과 직접 확인.
- 본인 데이터의 결측 pattern 시각화.
- Sensitivity analysis: 다양한 메커니즘 가정 → 결과 비교.
9 관련 주제
선행 지식
- Ch.4 정규 종단 MRM — MRM 의 토대 (MAR 가정)
- Ch.6 CPM — Covariance 구조 (MAR 가정)
- Ch.8 GEE — Marginal model (MCAR 가정)
- Ch.14 Overview — Ch.14 전체 한눈
후속 주제 (Ch.14 sub-posts)
- § 14.3 ~ 14.3.2 — MRM/CPM/GEE 의 simulation 비교
- § 14.4 ~ 14.4.1 — Little’s MCAR test + 예시
- § 14.5.1 — Selection model (Diggle-Kenward 1994)
- § 14.5.2 — Pattern-mixture model (Little 1993, 1994)
관련 개념
- Rubin (1976) — Missing data typology 원전 (Biometrika)
- Little (1995) — Longitudinal modeling 중요 overview
- Little (1988) — MCAR test
- Little & Rubin (2002) — Missing data textbook
- Hogan, Roy & Korkontzelou (2004) — Tutorial
- Schafer & Graham (2002) — Accessible review
- Schafer (1997) — Multiple imputation textbook
- Diggle, Heagerty, Liang, Zeger (2002) — Longitudinal data textbook
- Verbeke & Molenberghs (2000) — Linear mixed models textbook
- Robins, Rotnitzky & Zhao (1995) — WGEE
- Demirtas (2004a, 2004b) — Methods reviews
- Fitzmaurice et al. (2004) — MAR default 권고
- Shih (1992) — Distinct parameters condition
- Demirtas & Schafer (2003) — Attendance question 권고
- Gornbein, Lazaro & Little (1992) — Reviews
- Molenberghs et al. (2004) — Reviews