§ 6.4~6.7 — 그래픽 점검·8 학교 적용·문헌 노트·연습문제 심화

Gelman BDA Ch.6 후반 — 시각적 비교의 세 유형, SAT 코칭 전면 점검, 사전 vs 사후 예측 대립

§ 6.1~6.3 이 모델 점검의 철학과 수식 기초를 세웠다면, § 6.4~6.7 은 이를 실제 시각화·사례·이론사·연습으로 확장한다. 그래픽 점검의 세 유형 (직접 표시·요약·잔차)과 순서 정렬의 결정적 역할, 8 학교 SAT 코칭 모형의 네 가정을 네 검정량으로 전면 점검한 결과 해석, Box 의 사전 예측 접근과 Rubin 의 사후 예측 접근이 갈라지는 지점, 그리고 대표 연습문제 3 개 (SAT 동일효과 반증·사전 vs 사후 예측 대립·점수차이 분산 이질성)의 상세 풀이를 담았다. 수식·그래픽 원리마다 “왜 그 배치가 효과적인가” 를 덧붙였다.

Statistics
Bayesian
저자

Kwangmin Kim

공개

2026년 04월 22일

1 개요 — § 6.4~6.7 을 한 덩어리로 묶는 이유

Ch.6 의 후반 네 절은 “도구 적용 → 실제 사례 → 이론 계보 → 연습” 의 완결 흐름을 이룬다.

역할 한 줄 요약
6.4 도구 확장 그래픽 점검의 세 유형과 정렬 원리
6.5 전면 사례 8 학교 SAT 코칭 모형의 가정·검정량·감도 분석
6.6 이론 계보 사후 예측 vs 사전 예측 접근의 역사적 대립
6.7 연습 대표 문제 풀이로 점검 직관 굳히기

앞 두 편이 개념이었다면, 이 편은 실행과 맥락이다. § 6.4 의 그래픽 원리는 코드에서 즉시 쓰이고, § 6.5 의 8 학교 점검은 § 5.4~5.6 포스트 에서 적합한 계층 모형이 “관심 추론에 영향을 주는 부적합이 없다”는 결론을 얻는 과정을 보여 준다. § 6.6 은 “왜 사후가 표준이고 사전은 표준이 아닌가”를 한 번에 정리해 주며, § 6.7 은 이 모든 도구가 실제 문제에서 어떻게 적용되는지를 손으로 풀게 한다.

앞 편 (§ 6.1~6.3 심화) 의 검정량 언어와 \(p_B\) 계산 절차를 이 포스트 전체에서 반복 사용한다. 아직 읽지 않았다면 먼저 참고하는 편이 좋다.

2 § 6.4 — 그래픽 사후 예측 점검

2.1 기본 아이디어

관측 데이터 \(y\) 와 적합된 모형에서 생성된 복제 데이터 \(y^{rep}\)나란히 시각화하고, 체계적 불일치를 찾는다 (Gelman et al., 2013, § 6.4).

그래픽 점검은 \(p_B\) 스칼라 요약의 보완이다. 스칼라는 “얼마나 어긋났는가”의 크기를 주지만, 어느 방향·어디 위치에서 어긋났는지는 시각화가 훨씬 잘 드러낸다. Gelman 은 그래픽 점검의 세 유형을 제시한다.

2.2 유형 1 — 데이터 전체 직접 표시

첫 번째 유형은 \(y\) 의 전체 모양을 복제 \(y^{rep,(s)}\) 여러 개와 동시에 보여주는 것이다. Newcomb 광속 예시의 Figure 6.2 (20 개 복제 히스토그램) 가 대표적이다. 독자는 각 복제 패널이 서로 어떻게 유사한지, 그리고 관측 데이터가 그 그룹 안에 자연스럽게 끼어 들어가는지를 눈으로 판별한다.

Gelman BDA § 6.4 의 Figure 6.7 은 이 유형의 강력한 예시다. 6 명 × 15 반응 × 23 상황의 3 차원 2진 응답 배열을 로지스틱 회귀로 적합한 뒤, 관측 데이터(왼쪽)와 복제 7 개(오른쪽)를 나란히 비교한다. 관측 데이터는 행·열 패턴이 뚜렷한데, 복제는 패턴이 흐리고 랜덤해 보인다. 이 한 장의 비교로 “로지스틱 회귀 모형이 데이터의 구조적 패턴을 포착하지 못한다”는 결론이 직관적으로 드러난다.

순서 정렬의 결정적 역할 — Figure 6.7 vs 6.8

같은 데이터를 같은 모형 복제와 비교해도, 축 정렬(ordering)이 없으면 불일치가 거의 보이지 않는다. Figure 6.8 은 행·열·피험자를 평균 응답 순으로 정렬하지 않은 상태의 Figure 6.7 인데, 여기서는 관측과 복제가 구분되지 않는다. 같은 정보인데 배치에 따라 진단 능력이 달라진다.

원리: 시각화는 구조를 드러내는 작업이다. 모형이 놓친 구조가 축 위에 있다면, 축을 그 구조로 정렬해야 보인다. 무작위 배치는 구조를 가린다. 이 원리는 Tukey (1977) 의 탐색적 데이터 분석과 같은 뿌리다.

2.3 유형 2 — 요약 통계량 또는 모수 추론 표시

두 번째 유형은 대규모 데이터나 계층 모형에서, 데이터 전체 대신 요약을 시각화한다. Figure 6.9 가 대표 예시다.

맥락: 심리학 데이터에 계층 모형을 적합한 상황. 환자 파라미터 \(\phi_1, \ldots, \phi_{90}\) 과 증상 파라미터 \(\psi_1, \ldots, \psi_{69}\) 가 각각 \(\text{Beta}(2,2)\) 사전에서 독립적으로 뽑힌다고 가정했다.

점검 아이디어: 사후 분포에서 뽑은 한 draw 의 \(\phi, \psi\) 벡터가 \(\text{Beta}(2,2)\) 의 독립 표본처럼 보여야 한다. Figure 6.9 의 히스토그램은 이를 검사한다. 결과는 분명한 이봉(bimodal) 패턴 — \(\text{Beta}(2,2)\) 의 단봉 종 모양과 현저히 다르다. 이것이 “환자·증상 파라미터가 혼합 분포를 따라야 함” 이라는 모형 확장의 동기가 되었다.

직관 — “배치의 참조 분포”

계층 모형의 파라미터 batch 는 모형이 상정한 분포에서 뽑힌 표본처럼 행동해야 한다. 사후에서 한 draw 를 뽑아 그 batch 의 히스토그램이 참조 분포와 비슷한지 보는 것은, 미시 관측 \(y_i\) 가 아닌 중간 수준의 모수에서 점검을 수행하는 방식이다.

수학적 배경: 모형이 참이라면 \((y, \theta)\) 는 결합분포 \(p(y, \theta)\) 에서 뽑힌다. \(y\) 는 prior predictive \(p(y)\) 에서 온 marginal 이고, 사후에서 뽑은 \(\theta^{(s)} \sim p(\theta \mid y)\) 는 이 \(y\) 와 함께 원래의 결합분포를 재현한다. 따라서 \(\theta^{(s)}\) 자체는 marginal prior \(p(\theta)\) 의 표본처럼 분포해야 한다 — 이것이 Figure 6.9 의 비교 근거다.

2.4 유형 3 — 잔차·불일치 그래프

세 번째 유형은 잔차 그림·불일치 측도의 체계적 패턴 을 본다. 고전 회귀 진단의 잔차 vs 적합값 플롯이 베이즈 맥락에서는 다음과 같이 변형된다.

  • 잔차 \(r_i = y_i - \mathbb{E}[y_i \mid \theta^{(s)}]\) 을 각 사후 draw 에서 계산.
  • \(\theta\) 불확실성을 반영한 사후 평균 잔차 또는 각 draw 의 잔차 scatter 로 시각화.
  • 가로축에 적합값·공변량·시점·공간 좌표 등을 두고 체계적 추세·이산 패턴·분산 이질성 을 찾는다.

잔차 플롯은 모든 유형의 부적합에 민감하다. 예: 선형 가정 위반(잔차의 곡선 패턴), 등분산 위반(잔차 산포의 깔때기 모양), 독립성 위반(잔차의 자기상관).

2.5 세 유형의 선택 지침

데이터 규모 관심사 권장 유형
소규모, 구조화 모양 재현 유형 1 (전체 표시)
대규모, 복잡 구조 계층 모수의 분포 유형 2 (요약)
회귀·시계열·공간 체계적 편향 유형 3 (잔차)

실전에서는 세 유형을 조합한다. 스칼라 \(p_B\) 가 정량 근거를 주고, 그래픽 점검이 방향을 드러낸다. 둘이 합쳐져야 진단이 견고해진다.

3 § 6.5 — 8 학교 SAT 코칭 예시의 전면 점검

3.1 모형의 네 가정

§ 5.4~5.6 에서 유도한 계층 모형은 네 가정 위에 서 있다.

# 가정 수식
1 표집 정규성 \(y_j \mid \theta_j \sim \mathcal{N}(\theta_j, \sigma_j^2)\), \(\sigma_j\) 알려짐
2 교환 가능성 \(\theta_j\) 들이 exchangeable
3 사전 정규성 \(\theta_j \mid \mu, \tau \sim \mathcal{N}(\mu, \tau^2)\)
4 균등 hyperprior \(p(\mu, \tau) \propto 1\) (positive \(\tau\))

가정 1 정당화: 각 \(y_j\) 는 학교 내에서 무작위화·충분한 표본 크기·공변량 조정을 거친 추정치의 표준오차다. 중심극한 정리가 정규 가정을 받쳐 준다.

가정 2 정당화: “실험 전에 학교 간 차이에 대한 체계적 지식이 없다” 는 전제. A가 B보다 클 것이라거나, A·B가 A·C보다 비슷할 것이라는 사전 지식이 없다면 교환 가능성이 자연스럽다.

가정 3, 4: 수학적 편의성이 핵심 이유. 정규 대신 Cauchy·비대칭 분포 가능성은 감도 분석으로 점검한다.

3.2 사후 추론과 실무 지식의 대조

Ch.6 § 6.5 가 첫 번째로 하는 점검은 § 6.2 의 “추론이 말이 되는가” 식 외부 대조다.

항목 추정치 실무 판단
처치 효과 범위(모든 학교) 5~10점 SAT 점수(200~800)에서 합리적
School A 95% 구간 -2 ~ 31점 두 극단 모두 실현 가능한 범위
\(y^{rep}\) 값 범위 (200 회 시뮬레이션) -48 ~ 63점 코칭 효과로서 plausible

결론: 사후 추론이 코칭 연구의 일반 지식과 모순되지 않는다. 다음 단계는 내부 자기 일관성 검사 — 사후 예측 점검.

3.3 네 검정량의 사후 예측 점검

\[ T_1(y) = \max_j y_j, \quad T_2(y) = \min_j y_j, \quad T_3(y) = \text{mean}(y_j), \quad T_4(y) = \text{sd}(y_j) . \]

200 개 사후 draw 에서 각 draw 마다 \(y^{rep}\) 를 뽑고, 각 검정량의 분포를 관측값과 비교한다. Gelman BDA Figure 6.12 의 결과:

검정량 \(p_B\) 해석
\(\max_j y_j\) (관측 \(=28\)) \(0.54\) 모형이 잘 재현
\(\min_j y_j\) \(0.19\) 허용 범위
\(\text{mean}(y_j)\) \(0.50\) 정확히 중심
\(\text{sd}(y_j)\) \(0.78\) 허용 범위 (약간 큰 쪽)

네 p-값 모두 극단이 아니다. 모형이 네 축 모두에서 관측 데이터를 충분히 재현한다는 뜻이다.

직관 — \(p_B = 0.50\) 은 왜 의미 있는 “양호” 신호인가

앞 편에서 충족 통계량을 검정량으로 쓰면 자동으로 \(p_B \approx 0.5\) 가 나온다고 경고했다. 그러나 여기서 \(\text{mean}(y_j)\)\(p_B = 0.50\) 은 충족 통계량 함정과는 다른 의미다.

  • 함정 상황: 무정보 사전에서 사후 분포가 관측 \(\bar{y}\) 에 정확히 중심을 잡아서, \(y^{rep}\) 의 평균이 자동으로 \(\bar{y}\) 근처에 분포함.
  • 여기 상황: 계층 모형은 shrinkage 때문에 관측 \(\bar{y}\) 를 정확히 따르지 않고, \(\mu\)\(\tau\) 의 불확실성을 통해 \(y^{rep}\) 의 중심이 넓게 분포함. 그럼에도 관측 평균이 그 분포의 중앙에 놓였다면, 모형이 현실을 잘 맞추는 것이다.

구분의 요령: 모형의 shrinkage 나 계층 구조가 관측 통계량을 “자동으로 맞추는가” 를 묻는다. 자동이면 함정, 그렇지 않고 중심을 잡았으면 진짜 적합 신호.

3.4 감도 분석

사후 예측 점검이 모형을 지지했어도, Ch.6 는 감도 분석으로 대안 모형 하의 결론을 확인 한다.

대안 1 — \(\tau\) 의 사전 — 기본은 균등 \(p(\tau) \propto 1\). 감도 분석은 “사전 밀도가 \(\tau > 10\) 에 큰 질량을 두지 않는 한, 사후 추론은 거의 변하지 않는다”는 결론. 즉 사전의 형태가 극단적으로 정보가 실리지 않는 한 결론은 안정적.

대안 2 — 정규 대신 t-분포 사전 — 학교 효과에 긴 꼬리를 허용. Ch.17 robust inference 에서 상세 전개. 주의점: 대안 모형도 실무적으로 허용 가능한 SAT 개선 범위를 벗어나면 안 된다. 자유롭게 퍼지는 Cauchy 는 비현실적.

대안 3 — 정규 likelihood — 원자료(개별 시험 점수)가 없어 정면 점검 어려움. 중심극한 정리와 실험 설계로 간접 방어.

3.5 8 학교 사례의 전체 메시지

점검의 목적은 “모형이 인가”가 아니라 “관심 추론을 왜곡할 결함이 있는가”이다.

층위 결론
외부 대조 추정치가 코칭 연구의 상식적 범위에 있다
내부 자기 일관성 네 검정량에서 관측이 복제 분포의 중심에 있다
감도 분석 합리적 대안 사전 하에서 결론이 크게 바뀌지 않는다

세 층위가 함께 지지하므로, § 5.5 의 shrinkage 추정치를 그대로 쓸 수 있다.

4 § 6.6 — 문헌 노트와 이론 계보

4.1 사후 vs 사전 예측 접근의 분기

Ch.6 의 방법은 Rubin (1981a, 1984) 의 사후 예측 접근 을 따른다. 대안은 Box (1980, 1983) 의 사전 예측 접근 이다. 두 접근의 수식 차이는 다음과 같다.

접근 복제 분포 성격
사후 예측 (Rubin) \(p(y^{rep} \mid y) = \int p(y^{rep} \mid \theta) p(\theta \mid y) \, d\theta\) 데이터를 학습한 후의 복제
사전 예측 (Box) \(p(y^{rep}) = \int p(y^{rep} \mid \theta) p(\theta) \, d\theta\) 데이터 보기 전의 복제
Improper prior 하에서 사전 예측 접근이 붕괴하는 이유

\(p(\theta)\) 가 improper (예: \(p(\theta) \propto 1\)) 이면 사전 예측 \(p(y^{rep})\) 역시 improper 가 된다. 반면 사후 \(p(\theta \mid y)\) 는 데이터 우도로 정규화되어 proper 이므로 사후 예측은 잘 정의된다.

실무 의미: 약정보 사전·참조 사전을 즐겨 쓰는 현대 베이즈 분석에서 Box 의 접근은 일반적으로 작동하지 않는다. Rubin 의 접근이 표준이 된 한 가지 이유다.

(이 주제는 § 6.7 Exercise 7 에서 구체적 수치 예시로 다시 다룬다.)

4.2 기타 주요 기여

  • Gelman, Meng, Stern (1996) — 파라미터 의존 검정량 \(T(y, \theta)\) (불일치 측도)의 베이즈적 정당화. 현재 표준 기법.
  • Johnson (2004) — 베이즈 카이제곱 검정, 점검을 “디버깅 도구” 로 제시.
  • Meulders et al. (1998), Gelman (2003) — § 6.4 의 그래픽 점검 예시 출처.
  • Berkhof, Van Mechelen, Gelman (2003) — 반대칭 불일치 측도의 수학적 특성.
  • Gelfand, Dey, Chang (1992) — 교차 검증 기반 예측 점검.
  • Bernardo & Smith (1994) — 예측 오차 기반 모형 비교.
  • Box & Tiao (1962, 1973) — 정규 모형의 감도 분석·robustness 이론 선구.
  • Tukey (1977) — 탐색적 데이터 분석의 많은 기법이 사실상 사후 예측 점검과 같은 구조.

4.3 “고전 진단과 베이즈 점검은 같은 뿌리”

Gelman 의 핵심 통찰 중 하나: 회귀 진단의 잔차 플롯, 정규 Q-Q 플롯, 이상치 검정 등 기존 그래픽 진단 기법의 대부분이 사실상 사후 예측 점검으로 재해석 가능하다. “모형이 가정한 분포 하에서의 예상 모양”과 “관측된 모양”의 비교가 공통 골격이다. 베이즈 점검은 이 골격을 사후 불확실성까지 반영한 일반화된 형태로 확장한 것이다.

5 § 6.7 — 대표 연습문제 심화 풀이

Ch.6 § 6.7 은 10 개 문제를 제시한다. 그중 세 문제를 선별해 상세 풀이한다 — 각각 “반증적 점검”, “사전 vs 사후 접근의 극명한 차이”, “분산 이질성의 그래픽 진단” 을 대표한다.

5.1 Exercise 1 — SAT 8 학교의 동일효과 모형 점검

문제 — 8 학교의 효과가 동일하다 고 가정한 단순 모형을 생각한다. 이 모형 하에서 효과 크기의 기대 순서 통계량\((26, 19, 14, 10, 6, 2, -3, -9)\). 관측된 순서 통계량은 \((28, 18, 12, 8, 7, 1, -1, -3)\).

(a) 사후 예측 점검으로 수식화

검정량을 순서 통계량 벡터 자체로 정의하는 대신, 그 거리를 스칼라로 쓴다.

\[ T(y, \theta) = \sum_{k=1}^{8} \left( y_{(k)} - \mathbb{E}[y_{(k)} \mid \theta] \right)^2 . \]

동일효과 모형이 참이면 \(T\) 는 작을 것이다. 관측값의 \(T\)\(S\) 개 사후 draw 마다 계산한 \(T(y^{rep,(s)}, \theta^{(s)})\) 분포와 비교하여 \(p_B\) 를 구한다.

결과 — 관측된 순서 통계량과 모형의 기대값이 매우 비슷하다. \(p_B \approx\) 중간 값 (양호). 이 검정량 기준 으로 동일효과 모형은 데이터와 충돌하지 않는다.

(b) 그럼에도 동일효과 모형이 부적절한 이유

층위 문제
과학적 의미 서로 다른 학교·프로그램의 효과가 정확히 같다는 가정은 실무적으로 매우 강한 주장
점검의 한계 순서 통계량 적합도 하나로 모든 측면을 커버할 수 없음
감도 분석 학교 간 이질성을 허용하는 대안 모형 하에서 사후 추론이 크게 달라짐

교훈: 점검 통과 \(\neq\) 모형이 옳음. 점검은 “이 검정량 축에서 데이터와 맞다” 만 말해 준다. 모형의 구조적 타당성·감도 분석·과학적 정합성이 모두 확인돼야 사용 판단이 선다.

5.2 Exercise 7 — 사전 vs 사후 예측의 극명한 대립

문제\(y_1, \ldots, y_{100} \sim \mathcal{N}(\theta, 1)\) 이고 사전은 \(p(\theta) = \frac{1}{2A}\), \(\theta \in [-A, A]\), \(A = 10^5\) 의 극단적으로 분산된 사전. 관측 요약: \(\bar{y} = 5.1\), \(T(y) = \max_i \lvert y_i \rvert = 8.1\).

(a) 사후 예측 접근

사후 분포는 큰 \(A\) 하에서 근사적으로 \(\theta \mid y \sim \mathcal{N}(\bar{y}, 1/n) = \mathcal{N}(5.1, 0.01)\). \(y^{rep}\) 은 각 \(\theta^{(s)}\) 에서 \(\mathcal{N}(\theta^{(s)}, 1)\) 의 100 개 관측으로 생성된다.

\(T(y^{rep}) = \max \lvert y^{rep}_i \rvert\) 의 분포는 근사적으로 \(\mathcal{N}(5.1, 1)\) 의 100 개 표본의 최대 절댓값이다. 극값 분포에서 기대값은 약 \(5.1 + \Phi^{-1}(1 - 1/200) \cdot 1 \approx 5.1 + 2.58 = 7.68\) 근처, 관측 \(8.1\) 은 합리적 범위. \(p_B^{post} \approx 0.3\) 수준 (구체값은 시뮬레이션).

결론: 사후 예측 관점에서 관측 \(T(y) = 8.1\) 은 모형과 일관적.

(b) 사전 예측 접근

사전 예측 분포 \(p(y^{rep}) = \int p(y^{rep} \mid \theta) p(\theta) \, d\theta\)\(\theta\)\([-A, A]\) 에서 균등하게 뽑은 뒤 \(\mathcal{N}(\theta, 1)\)\(y^{rep}\) 를 생성. \(A = 10^5\) 이면 \(\theta\) 는 엄청난 범위에서 뽑히고, \(\max \lvert y^{rep}_i \rvert\)거의 항상 \(\bar{\theta}^{rep}\) 근처에서 \(10^5\) 수준.

관측 \(T(y) = 8.1\)\(10^5\) 규모와 비교하면 극도로 작은 값. \(p_B^{prior} \approx 1\) (사전 예측에서 \(T(y^{rep})\) 의 거의 100% 가 \(8.1\) 보다 큼).

결론: 사전 예측 관점에서는 관측이 사전 예측 분포와 “극도로 불일치”.

(c) 두 결과가 다른 이유

  • 사후 예측은 데이터가 \(\theta\) 를 학습한 후를 본다. \(\theta\)\(\bar{y} = 5.1\) 근처로 좁혀졌으므로, \(y^{rep}\) 의 최대 절댓값도 \(5.1\) 근처에서 몇 표준편차 이내로 분포한다.
  • 사전 예측은 데이터를 보지 않은 사전에서 \(\theta\) 를 뽑는다. \(A = 10^5\) 은 거의 uniform 에 가까우므로 \(\theta\) 가 실제로 어디에 있는지 무지한 상태. 모형이 상정한 “어떤 \(\theta\) 든 가능”한 사전 세계에서는 \(T\) 가 큰 값을 가지는 것이 정상.
직관 — “어느 분포를 기준으로 점검하는가”

사전 예측 점검은 “모형의 사전 상정 이 데이터를 허용하는가”를 묻는다. 사후 예측 점검은 “모형의 사후 적합 이 데이터를 재현하는가”를 묻는다. 현대 베이즈 분석에서 약정보 사전·improper prior 가 표준이 된 상황에서는 사전 예측은 거의 자동으로 데이터를 거부한다. 사후 예측이 현실적으로 유일하게 작동하는 접근이 되는 이유다.

5.3 Exercise 10 — 미식축구 점수차이 모형의 분산 이질성

문제 — 점수 spread \(x\) 와 실제 점수차이 \(y\) 의 관계를 \(y \sim \mathcal{N}(x, 14^2)\) 로 적합. Figure 1.2a 가 \(y - x\)분산이 \(x\) 증가에 따라 감소하는 패턴을 보임.

(a) 그래픽 점검

  1. 사후 draw \(s = 1, \ldots, S\) 마다 \(y^{rep}_i \sim \mathcal{N}(x_i, 14^2)\) 를 생성.
  2. 각 복제 데이터에서 Figure 1.2 스타일의 \(y^{rep} - x\) vs \(x\) 산점도를 그린다.
  3. 관측 산점도와 여러 복제 산점도를 같은 축에서 나란히 표시.

관측: 실제 데이터는 \(x\) 가 클수록 \(y - x\) 의 산포가 좁아지는 깔때기 모양. 복제들은 \(14^2\) 의 등분산 가정을 따르므로 산포가 \(x\) 와 무관하게 일정. 시각적으로 즉시 대조된다.

(b) 수치적 요약 검정량

분산 이질성을 포착하는 단일 스칼라 \(T(x, y)\) 를 구성한다.

\[ T(x, y) = \text{Var}\left( y_i - x_i \mid x_i > \text{median}(x) \right) - \text{Var}\left( y_i - x_i \mid x_i \leq \text{median}(x) \right) . \]

등분산 가정 하에서는 \(T\) 의 기댓값이 0. 관측 데이터에서는 \(T(x, y) < 0\) (위쪽 절반의 분산이 작음).

\(y^{rep}\) 에서 계산한 \(T(x, y^{rep,(s)})\) 의 분포와 비교하여 \(p_B\) 를 구한다. 관측된 음수 \(T\) 가 복제 분포의 좌측 극단에 있다면 \(p_B \approx 0\).

교훈: 그래픽 점검과 스칼라 \(p_B\)같은 방향으로 일치하면 진단이 견고하다. 모형 확장: \(y_i \sim \mathcal{N}(x_i, \sigma^2(x_i))\) 처럼 분산을 공변량의 함수로 만드는 것이 자연스러운 다음 단계.

6 실전 체크리스트 — 그래픽 점검 중심

사후 예측 점검 워크플로에 그래픽을 통합하기 위한 6 단계.

  1. 복제 수 설정 — 정량 \(p_B\) 용은 \(S \geq 1000\). 시각적 비교용은 \(8\sim 20\) 개면 충분.
  2. 축 정렬 원칙 — 모형이 놓칠 가능성 있는 구조(시간·공간·계층)를 축에 배치. 무작위 배치는 구조를 가린다.
  3. 같은 스케일·같은 축 — 관측과 복제를 나란히 놓을 때 축 범위·해상도·스타일을 통일. 서로 다른 스케일로 표시하면 비교가 왜곡된다.
  4. 유형 조합 — 전체 표시 + 요약 + 잔차의 세 유형을 조합한다. 한 유형만으로는 특정 방향 부적합을 놓친다.
  5. 스칼라와 일치 확인\(p_B\) 와 그래픽이 같은 방향 으로 결론을 가리키는지 점검. 엇갈리면 검정량 설계를 재검토.
  6. 확장 후 재점검 — 진단에 따라 모형을 확장한 뒤, 같은 그래픽·같은 검정량으로 반복 점검. 한 번의 통과로 끝나지 않는다.

7 관련 주제

선행 지식

후속 주제

  • Ch.7 Evaluating, Comparing, and Expanding Models — 예측 정확도, WAIC, LOO-CV, 모형 비교 (후속 작성)
  • Ch.17 Models for Robust Inference — t-분포·혼합 모형에 의한 robustness (후속 작성)

관련 개념

  • Tukey (1977) 탐색적 데이터 분석 — 그래픽 점검의 사실상 조상
  • Box (1980, 1983) 사전 예측 접근 — 사후 예측의 역사적 대안, improper prior 에서 붕괴
  • arviz.plot_ppc, arviz.plot_bpv — 그래픽 사후 예측 점검의 표준 도구 (Python)
  • bayesplot 패키지 (R) — Gelman 그룹의 그래픽 점검 패키지

Subscribe

Enjoy this blog? Get notified of new posts by email: