§ 9.4 — Threshold Concept: 잠재 변수로 본 이항 데이터

Bock (1975) 의 통합 framework · Logit vs Probit 의 잠재 변수 해석 · 식별 불가능성 · § 9.5 mixed-effects 로의 다리

Hedeker & Gibbons (2006) Ch.9 §9.4 의 자세한 풀이. Bock (1975) 의 threshold concept — 이항 \(Y\) 가 연속 잠재 변수 \(y\) 로부터 결정된다는 통합 framework. 식 (9.11) 의 잠재 변수 회귀 \(y = x^\top\beta + \epsilon\), \(\epsilon\) 의 분포 (정규 → probit, 로지스틱 → logit), threshold \(\gamma\) 의 식별 불가능성 (보통 0 으로 고정), 잠재 변수 분산의 식별 불가능성 (1 또는 \(\pi^2/3\) 으로 고정), 식 (9.12) 의 \(\beta_L \approx 1.81 \beta_P\) scaling 의 잠재 변수 분산 차이로의 자연 도출. Tobit (검열) · Heckman selection · Albert-Chib 베이지안 data augmentation · 순서형/명목 GLMM (Ch.10-11) 로의 확장 시각, 그리고 § 9.5 mixed-effects logistic 로의 자연스러운 다리까지 정리한다.

Statistics
저자

Kwangmin Kim

공개

2026년 04월 30일

1 들어가며 — 이항을 정규/로지스틱으로 보는 시각

Ch.9 Overview§ 9.2-9.3 sub-post 에서 단일 수준 로지스틱·probit 회귀를 다뤘다. 두 모형이 표면상 다른 cdf 를 사용하지만 결과가 비슷한 이유 — threshold concept 의 잠재 변수 framework 가 통합 시각.

§ 9.4 는 Hedeker 책의 짧은 절 (1 페이지) 이지만 GLMM 이항·순서형·명목 의 통합 토대. Ch.9~11 의 모든 GLMM 이 이 framework 위에서 자연 도출.

한 줄 요약

“이항 \(Y\) 는 보이지 않는 연속 잠재 변수 \(y\) 가 임계값 (\(\gamma\)) 을 넘는지 여부. \(y\) 의 분포 (정규 vs 로지스틱) 가 모형 (probit vs logit) 을 결정. 이 framework 가 GLMM 이항의 본질적 토대 + Ch.10-11 순서형·명목으로 자연 확장.”

2 § 9.4 — Threshold Concept

2.1 Bock (1975) 의 통합 framework

잠재 변수 모형 정의

관찰 가능 변수 — 이항 \(Y\):

\[ Y = \begin{cases} 1 & \text{if } y > \gamma \\ 0 & \text{if } y \leq \gamma \end{cases} \]

잠재 (보이지 않는) 변수 — 연속 \(y\):

\[ y_i = x_i^\top \beta + \epsilon_i \tag{9.11} \]

  • \(y\): 연속 잠재 변수 (latent variable). 직접 관찰 불가.
  • \(\gamma\): threshold (임계값). 보통 0 으로 고정.
  • \(\epsilon_i\): 잠재 잡음. 분포에 따라 모형 결정.
직관 — “보이지 않는 의향” 모형화

임상 시나리오 — 환자의 흡연 절제:

  • \(y\) = 환자의 잠재 절제 의향 (강함 → 양수, 약함 → 음수). 직접 측정 불가.
  • \(x\) = 처치 (group), 인구학적 변수 등.
  • \(\beta\) = 의향에 미치는 효과.
  • \(\epsilon\) = 측정 못한 개인차 + 환경 잡음.
  • \(\gamma = 0\): 의향이 0 을 넘으면 실제 절제 (\(Y = 1\)), 못 넘으면 흡연 (\(Y = 0\)).

이항 결과를 연속 의향의 임계값 결과로 해석. 통계적으로 같은 모형이지만 인과 메커니즘이 명확 — 처치가 의향을 통해 행동에 영향.

이 비유는 다양한 분야에서 자연:

분야 잠재 변수 \(y\) 이항 결과 \(Y\)
임상 회복 의향 회복 여부
마케팅 구매 효용 구매 여부
심리 잠재 능력 시험 통과
경제 효용 차이 선택 여부
유전 잠재 형질 발현 여부

2.2 McCullagh-Nelder 의 입장 — “유용한 동기 개념”

잠재 변수의 모형론적 위치

McCullagh & Nelder (1989) 의 통찰:

“연속 잠재 분포 가정은 유용한 동기 개념 을 제공하지만 모형의 엄격한 요구사항은 아니다.”

→ 잠재 변수 framework 는 수학적 도구 + 인과 해석 도구, 물리적 실재 가정 아님.

의미:

  1. 수학적 동등성: 식 (9.11) 의 잠재 변수 모형 = 직접 logit/probit 모형 (식 9.3, 9.10) 과 결과 동일.
  2. 계산적 도구: Albert-Chib (1993) 의 데이터 증강 베이지안 추정에 활용.
  3. 확장 가능성: 순서형 (Ch.10), 명목 (Ch.11), 검열 (Tobit), 선택 모형 (Heckman) 의 통합 framework.
  4. GLMM 자연 도출: § 9.5 의 랜덤 효과 추가 시 잠재 변수에 직접 추가 → 식 (9.15).

→ 잠재 변수가 “있다고 가정” 한다고 해서 모형이 맞다는 뜻 아님. 모형의 결과 (이항 확률) 만이 검증 대상.

2.3 분포 선택 — Probit vs Logit

\(\epsilon\) 분포에 따른 모형 결정

식 (9.11) 에서 \(\epsilon\) 의 분포 가정:

Probit (정규):

\[ \epsilon_i \sim \mathcal{N}(0, 1) \]

이로부터:

\[ P(Y_i = 1) = P(y_i > 0) = P(\epsilon_i > -x_i^\top\beta) = \Phi(x_i^\top\beta) \tag{9.10} \]

Logit (로지스틱):

\[ \epsilon_i \sim \text{Logistic}(0, \pi^2/3) \]

이로부터:

\[ P(Y_i = 1) = P(y_i > 0) = P(\epsilon_i > -x_i^\top\beta) = \Psi(x_i^\top\beta) \tag{9.2} \]

§ 9.2-9.3 의 두 모형이 § 9.4 잠재 변수 framework 의 두 분포 선택.

두 분포 선택의 의미
선택 \(\epsilon\) 분포 분야
Probit 정규 유전학, 경제학 (이산 선택), 베이지안
Logit 로지스틱 의학, 사회과학 (OR 해석)

Probit 의 자연성:

  • 잠재 변수가 여러 정규 변수의 합 (CLT 결과) 이라면 정규 가정이 자연.
  • 다변량 정규 → 다변량 probit 가능 (multivariate Bernoulli 의 표준).
  • 베이지안 데이터 증강 (Albert-Chib 1993) 의 토대.

Logit 의 자연성:

  • OR 의 직접 해석.
  • 헤비 테일이 일부 데이터에 더 적합 (이상치 robust).
  • 통계적 추정 알고리즘이 단순 (canonical link).

3 식별 불가능성 — Threshold 와 분산의 고정

3.1 \(\gamma = 0\) 고정의 이유

Threshold 와 절편의 식별 불가능성 (identifiability)

식 (9.11) 의 일반 형태:

\[ y_i = x_i^\top \beta + \epsilon_i, \quad Y_i = I(y_i > \gamma) \]

만약 \(\gamma\) 와 절편 \(\beta_0\) (in \(x_i^\top\beta = \beta_0 + \beta_1 x_{i1} + \cdots\)) 가 모두 자유 모수면 — 두 모수가 식별 불가능.

이유: \(\gamma\)\(c\) 만큼 옮기고 \(\beta_0\)\(c\) 만큼 줄이면 같은 모형:

\[ P(Y = 1) = P(y > \gamma) = P(\beta_0 + x'\beta + \epsilon > \gamma) \]

\[ = P((\beta_0 - c) + x'\beta + \epsilon > (\gamma - c)) \]

→ 데이터 (이항 확률) 는 두 모수의 절대값을 식별 불가, 차이 (\(\beta_0 - \gamma\)) 만 식별.

관행: \(\gamma = 0\) 으로 고정 → \(\beta_0\) 가 식별 가능.

3.2 잠재 변수 분산의 고정 — 1 또는 \(\pi^2/3\)

\(V(\epsilon)\) 의 식별 불가능성

같은 논리 — 잠재 변수 \(y\) 의 scale 도 식별 불가능.

\(y\)\(c \cdot y\) (\(c > 0\)) 는 같은 이항 확률 을 만든다 (둘 다 0 을 넘는지 여부만 결정):

\[ P(y > 0) = P(c \cdot y > 0) \]

→ 회귀 계수와 분산이 함께 scale: \(\beta \to c\beta\), \(V(\epsilon) \to c^2 V(\epsilon)\).

관행:

  • Probit: \(V(\epsilon) = 1\) 고정 (표준 정규).
  • Logit: \(V(\epsilon) = \pi^2/3\) 고정 (표준 로지스틱).

식 (9.11) 의 형태가 “일반 다중 회귀 같지만 오차 분산이 추정 안 됨” 인 이유 — 식별 가능성 제약.

\(\beta_L \approx 1.81 \beta_P\) 의 잠재 변수 기반 설명 (식 9.12)

§ 9.3 의 식 (9.12) 가 자연스럽게 도출됨:

같은 효과 크기를 표현하려면 회귀 계수가 잠재 변수 분산과 함께 scale:

\[ \frac{\beta_L}{\sigma_L} = \frac{\beta_P}{\sigma_P} \]

여기서 \(\sigma_L = \sqrt{\pi^2/3}\), \(\sigma_P = 1\):

\[ \beta_L = \beta_P \cdot \sqrt{\pi^2/3} \approx 1.81 \cdot \beta_P \tag{9.12} \]

잠재 변수 framework 가 두 모형의 scale 차이를 자연스럽게 설명.

Z-statistic 동등성: 회귀 계수와 SE 가 같은 비율로 scale → \(Z = \beta / \text{SE}\) 가 두 모형에서 같음. 결론 (유의성, 방향) 동일.

4 잠재 변수 framework 의 응용

4.1 Tobit 모형 — 검열 회귀 일반화

Tobin (1958) 의 검열 회귀

Tobit 은 잠재 변수 framework 의 다른 응용:

\[ y_i = x_i^\top \beta + \epsilon_i, \quad \epsilon_i \sim \mathcal{N}(0, \sigma^2) \]

관찰 가능:

  • \(y > 0\): 정확한 값 관측.
  • \(y \leq 0\): 0 으로 검열 (실제 값 모름).

이항 모형과의 차이:

모형 \(y \leq 0\) \(y > 0\)
이항 (Probit) \(Y = 0\) \(Y = 1\)
Tobit \(Y = 0\) \(Y = y\) (정확)

→ Tobit 은 이항 + 양수 부분 연속 의 결합. 잠재 변수 framework 의 일반화.

의료비 연구: 의료 이용 여부 (이항) + 의료비 (양수). Tobit 적합.

4.2 Heckman Selection Model — 자기 선택 보정

Heckman (1979) 의 두 단계 모형

선택 단계 (probit): 누가 데이터에 포함되는가.

\[ y_{1i}^* = z_i^\top \gamma + u_i, \quad \text{관측 } S_i = I(y_{1i}^* > 0) \]

결과 단계: 선택된 사람의 결과.

\[ y_{2i} = x_i^\top \beta + \epsilon_i, \quad \text{관측 } y_{2i} \mid S_i = 1 \]

\(u_i\)\(\epsilon_i\) 가 상관 → 자기 선택 편향 (self-selection bias).

→ Heckman 의 보정: 두 단계의 잠재 변수 결합 분포 (다변량 정규) 모형화.

: 직업 훈련 효과. 자발적으로 훈련받은 사람의 임금 효과를 추정할 때 자기 선택 편향 주의 필요.

→ 잠재 변수 framework 가 선택 편향 분석의 토대.

4.3 Albert-Chib (1993) 데이터 증강 베이지안

베이지안 Probit 의 우아한 알고리즘

문제: 베이지안 logistic/probit 의 사후 분포는 복잡 (정규-비정규 결합).

해결 — 잠재 변수 데이터 증강:

  1. 관측: \(Y_i \in \{0, 1\}\).
  2. 잠재 변수 도입: \(y_i = x_i^\top\beta + \epsilon_i\), \(\epsilon \sim \mathcal{N}(0, 1)\).
  3. Gibbs sampler:
    1. \(\beta \mid y\) 추출: 정규 \(y\) 의 회귀 → 정규 사후.
    2. \(y \mid \beta, Y\) 추출: 절단 정규 (truncated normal) — \(Y = 1\) 이면 \(y > 0\), \(Y = 0\) 이면 \(y \leq 0\).

이항 데이터를 잠재 정규로 다루는 trick 으로 베이지안 추정 단순화.

확장:

  • Multinomial probit (Albert-Chib 1993).
  • Ordinal probit (Albert-Chib 1993).
  • 다변량 probit (Chib & Greenberg 1998).

베이지안 categorical data 분석의 표준 도구. 잠재 변수 framework 없이는 어렵다.

5 순서형·명목으로의 자연 확장

5.1 순서형 (Ch.10) — 다중 임계값

누적 logit/probit (Cumulative Model)

순서형 반응 \(Y \in \{1, 2, \ldots, K\}\) 도 같은 잠재 변수 framework:

\[ y_i = x_i^\top \beta + \epsilon_i \]

\[ Y_i = k \iff \gamma_{k-1} < y_i \leq \gamma_k \]

여기서 \(\gamma_0 = -\infty < \gamma_1 < \gamma_2 < \cdots < \gamma_{K-1} < \gamma_K = \infty\)\(K-1\) 개 임계값.

누적 확률:

\[ P(Y_i \leq k) = P(y_i \leq \gamma_k) = \Psi(\gamma_k - x_i^\top\beta) \]

→ 이항의 단일 임계값 → 순서형의 다중 임계값 으로 자연 확장. 비례 오즈 (proportional odds) 모형 의 토대.

식별 가능성: \(\gamma_1\) 또는 절편 중 하나만 식별 — 보통 \(\beta_0 = 0\) 또는 \(\gamma_1 = 0\) 고정.

5.2 명목 (Ch.11) — 다중 잠재 변수

다항 logit (Multinomial)

명목 반응 \(Y \in \{1, 2, \ldots, K\}\) — 순서 없음.

\(K\) 개 잠재 효용 (utility):

\[ y_{ik} = x_i^\top \beta_k + \epsilon_{ik}, \quad k = 1, \ldots, K \]

선택 규칙:

\[ Y_i = k \iff y_{ik} > y_{ij} \text{ for all } j \neq k \]

→ “최대 잠재 효용을 가진 선택지 선택” — 경제학의 random utility model (McFadden 1974).

\(\epsilon_{ik}\) 가 i.i.d. extreme value (Gumbel) 면 → multinomial logit. \(\epsilon_{ik}\) 가 다변량 정규면 → multinomial probit.

이산 선택 분석 (discrete choice analysis) 의 토대.

6 잠재 변수 + 랜덤 효과 — § 9.5 의 다리

6.1 식 (9.15) 로의 자연 확장

Mixed-Effects Threshold Model

§ 9.4 의 잠재 변수 모형에 랜덤 효과 추가 → § 9.5 의 GLMM 이항.

식 (9.11) 단일 수준:

\[ y_i = x_i^\top \beta + \epsilon_i \]

식 (9.15) 다수준:

\[ y_{ij} = x_{ij}^\top \beta + \sigma_\upsilon \theta_i + \epsilon_{ij} \]

여기서 \(\theta_i \sim \mathcal{N}(0, 1)\) — 환자별 랜덤 효과 (잠재 변수 척도).

총 잠재 분산:

\[ V(y_{ij}) = \sigma_\upsilon^2 + \sigma_\epsilon^2 \]

(피험자 간 + 피험자 내.)

threshold concept 가 GLMM 이항 의 본질. 랜덤 효과를 잠재 변수에 직접 추가하는 framework.

비축소성의 잠재 변수 기반 설명

식 (9.16) 의 \(\beta_M \approx \beta_F \sqrt{(\sigma_\upsilon^2 + \sigma_\epsilon^2) / \sigma_\epsilon^2}\) 의 도출:

  • Mixed model: 잠재 변수 분산 = \(\sigma_\upsilon^2 + \sigma_\epsilon^2\).
  • Fixed/GEE: 잠재 변수 분산 = \(\sigma_\epsilon^2\).

같은 효과 크기를 표현하려면 회귀 계수가 잠재 변수 분산과 함께 scale:

\[ \frac{\beta_M}{\sqrt{\sigma_\upsilon^2 + \sigma_\epsilon^2}} = \frac{\beta_F}{\sqrt{\sigma_\epsilon^2}} \]

\(\beta_M = \beta_F \cdot \sqrt{(\sigma_\upsilon^2 + \sigma_\epsilon^2) / \sigma_\epsilon^2}\) — 식 (9.16) 도출.

핵심 통찰: GLMM 과 GEE 의 회귀 계수 차이가 잠재 변수 분산 차이의 직접 결과. 잠재 변수 framework 가 비축소성의 가장 직관적 설명.

7 코드 예시

7.1 Step 1: 잠재 변수 시뮬레이션

import numpy as np
from scipy.stats import norm, logistic


def simulate_latent_binary(n: int, beta: np.ndarray, dist: str = "normal",
                           seed: int = 2026) -> dict:
    """잠재 변수 framework 으로 이항 데이터 생성

    dist:
        "normal"   → probit
        "logistic" → logit
    """
    rng = np.random.default_rng(seed)
    p = len(beta)

    # 공변량
    X = np.column_stack([np.ones(n), rng.normal(size=(n, p - 1))])

    # 잠재 변수 잡음
    if dist == "normal":
        epsilon = rng.normal(0, 1, size=n)  # V = 1
    elif dist == "logistic":
        epsilon = logistic.rvs(loc=0, scale=1, size=n, random_state=rng)
        # 표준 logistic V = π²/3
    else:
        raise ValueError(f"Unknown distribution: {dist}")

    # 잠재 변수 (식 9.11)
    y_latent = X @ beta + epsilon

    # 이항 결과 — threshold = 0
    Y = (y_latent > 0).astype(int)

    return {"X": X, "Y": Y, "y_latent": y_latent, "epsilon": epsilon}


# 같은 β 로 두 분포 생성
np.random.seed(2026)
beta_true = np.array([0.5, 1.0, -0.5])

probit_data = simulate_latent_binary(n=1000, beta=beta_true, dist="normal")
logit_data = simulate_latent_binary(n=1000, beta=beta_true, dist="logistic")

print(f"Probit 절제율: {probit_data['Y'].mean():.3f}")
print(f"Logit 절제율:  {logit_data['Y'].mean():.3f}")

# 잠재 변수 분산
print(f"\n잠재 변수 분산:")
print(f"  Probit ε:  {np.var(probit_data['epsilon']):.3f} (예상 1.0)")
print(f"  Logit ε:   {np.var(logit_data['epsilon']):.3f} (예상 π²/3 ≈ {np.pi**2/3:.3f})")

7.2 Step 2: Logit ↔︎ Probit 변환 검증

import statsmodels.api as sm


# Probit 데이터에 두 모형 적합
X_pb, Y_pb = probit_data["X"], probit_data["Y"]
fit_pb_probit = sm.Probit(Y_pb, X_pb).fit(disp=False)
fit_pb_logit = sm.Logit(Y_pb, X_pb).fit(disp=False)

print("Probit 데이터 (실제 잠재 변수 분산 = 1):")
print(f"  Probit β: {fit_pb_probit.params.round(3)} (예상 {beta_true})")
print(f"  Logit β:  {fit_pb_logit.params.round(3)}")
print(f"  비율 β_L/β_P: {(fit_pb_logit.params / fit_pb_probit.params).round(2)}")
print(f"  예상 비율: 1.81 (식 9.12)")
검증 포인트
  • Probit 추정값이 진짜 \(\beta\) 에 가까움 (잠재 변수 분산 1 가정 일치).
  • Logit 추정값이 약 1.8 배.
  • 비율 = \(\sqrt{\pi^2/3} \approx 1.81\).

결론: 잠재 변수 framework 가 두 모형의 scale 차이를 정확히 예측.

7.3 Step 3: 잠재 변수 분산 식별 불가능성 검증

import numpy as np
from scipy.special import expit


def simulate_with_scaling(n: int, beta: np.ndarray, c: float, seed: int = 2026):
    """β 와 V(ε) 를 c 배 scale → 같은 이항 확률"""
    rng = np.random.default_rng(seed)
    p = len(beta)
    X = np.column_stack([np.ones(n), rng.normal(size=(n, p - 1))])

    # Original
    eps_orig = rng.normal(0, 1, size=n)
    Y_orig = (X @ beta + eps_orig > 0).astype(int)

    # Scaled β (c배), 분산 c²
    eps_scaled = rng.normal(0, c, size=n)
    Y_scaled = (X @ (c * beta) + eps_scaled > 0).astype(int)

    # 두 데이터의 절제율과 회귀 적합 비교
    return {
        "rate_orig": Y_orig.mean(),
        "rate_scaled": Y_scaled.mean(),
    }


# c = 1, 2, 5 로 변환 — 같은 절제율 예상
for c in [1.0, 2.0, 5.0, 10.0]:
    result = simulate_with_scaling(10000, np.array([0.5, 1.0, -0.5]), c)
    print(f"c = {c}: orig rate = {result['rate_orig']:.3f}, "
          f"scaled rate = {result['rate_scaled']:.3f}")
결과 해석

모든 \(c\) 에서 절제율이 거의 같음 — 잠재 변수의 scale 이 식별 불가능 직접 검증.

→ Probit 의 \(V(\epsilon) = 1\), Logit 의 \(V(\epsilon) = \pi^2/3\) 고정이 임의 선택 (식별 가능성 제약 만족) 이라는 사실 확인.

7.4 Step 4: Albert-Chib 데이터 증강 (베이지안 Probit)

import numpy as np
from scipy.stats import truncnorm, multivariate_normal


def albert_chib_probit(X: np.ndarray, Y: np.ndarray,
                        n_iter: int = 5000, burn_in: int = 1000) -> np.ndarray:
    """Albert-Chib (1993) 베이지안 probit Gibbs sampler"""
    n, p = X.shape
    beta_samples = np.zeros((n_iter, p))
    beta = np.zeros(p)

    # Sufficient quantities
    XtX_inv = np.linalg.inv(X.T @ X)

    for it in range(n_iter):
        # Step 1: 잠재 변수 y 추출 — truncated normal
        eta = X @ beta
        y_latent = np.zeros(n)
        for i in range(n):
            if Y[i] == 1:
                # y > 0 (right-truncated at 0)
                a, b = -eta[i], np.inf
            else:
                # y ≤ 0 (left-truncated at 0)
                a, b = -np.inf, -eta[i]
            y_latent[i] = truncnorm.rvs(a, b, loc=eta[i], scale=1.0)

        # Step 2: β 추출 — 정규 회귀
        beta_mean = XtX_inv @ X.T @ y_latent
        beta = multivariate_normal.rvs(mean=beta_mean, cov=XtX_inv)
        beta_samples[it] = beta

    return beta_samples[burn_in:]


# 시뮬레이션 데이터로 검증 (위 simulate_latent_binary 결과 사용)
data = simulate_latent_binary(n=500, beta=np.array([0.5, 1.0, -0.5]),
                               dist="normal", seed=2026)

# Bayesian probit
samples = albert_chib_probit(data["X"], data["Y"], n_iter=2000, burn_in=500)

print("Albert-Chib 베이지안 Probit 사후 평균:")
print(f"  β = {samples.mean(axis=0).round(3)}")
print(f"  SE = {samples.std(axis=0).round(3)}")
print(f"  진짜 β = {np.array([0.5, 1.0, -0.5])}")
데이터 증강의 가치
  • Step 1 (잠재 변수 추출): 절단 정규 — 표준 정규 + interval.
  • Step 2 (\(\beta\) 추출): 정규 회귀 사후 — 정규 prior + 정규 likelihood = 정규 사후 (conjugate).

두 단계 모두 표준 정규 분포만 사용. 비표준 우도 (Bernoulli) 가 정규 우도로 변환.

이 trick 덕분에 베이지안 probit/logit/순서형/다항 추정이 매우 단순. 잠재 변수 framework 의 가장 매력적 응용.

8 핵심 정리

한 페이지 요약
  1. Threshold concept (Bock 1975): 이항 \(Y\) 가 잠재 변수 \(y\) 의 임계값 결과.
  2. 모형 정의 (식 9.11): \(y_i = x_i^\top\beta + \epsilon_i\), \(Y_i = I(y_i > 0)\).
  3. 분포 선택: \(\epsilon\) 정규 → probit, 로지스틱 → logit. 두 모형이 같은 framework 의 두 분포 선택.
  4. Threshold 식별 불가능성: \(\gamma\)\(\beta_0\) 동시 식별 불가 → \(\gamma = 0\) 고정.
  5. 잠재 변수 분산 식별 불가능성: \(\beta\)\(V(\epsilon)\) 동시 식별 불가 → \(V = 1\) (probit) 또는 \(\pi^2/3\) (logit) 고정.
  6. 식 (9.12) 의 자연 도출: \(\beta_L \approx 1.81 \beta_P\) — 잠재 변수 분산 차이 (\(\sqrt{\pi^2/3} \approx 1.81\)) 로부터.
  7. McCullagh-Nelder 입장: 잠재 변수는 “유용한 동기 개념”, 물리적 실재 가정 아님.
  8. Tobit 모형: 검열 회귀 — 잠재 변수 framework 의 다른 응용.
  9. Heckman 선택: 자기 선택 편향 보정 — 두 잠재 변수 결합 분포.
  10. Albert-Chib 데이터 증강: 베이지안 추정 단순화. 표준 정규로 변환.
  11. 순서형 (Ch.10): 다중 임계값 — 누적 logit/probit.
  12. 명목 (Ch.11): 다중 잠재 효용 — random utility model.
  13. § 9.5 mixed-effects 로의 다리: 식 (9.11) → (9.15), 잠재 변수에 랜덤 효과 추가.
  14. 비축소성의 잠재 변수 기반 설명: 식 (9.16) 이 잠재 변수 분산 차이로 자연 도출.

§ 9.4 threshold concept 는 GLMM 이항 의 통합 framework. 짧은 절이지만 § 9.5 의 mixed-effects, Ch.10-11 의 순서형·명목, Tobit, Heckman, 베이지안 등 광범위한 응용의 토대.

9 다음 단계

주제 내용 위치
§ 9.5 Mixed-Effects Logistic 잠재 변수 + 랜덤 효과 → GLMM 이항 작성 예정 (09-3-mrm-glmm-binary-mixed.qmd)
§ 9.6-10 Estimation Marginal MLE + Quadrature 작성 예정
§ 9.12 NIMH 사례 정신과 종단 데이터 GLMM 적용 작성 예정
Ch.10 GLMM 순서형 다중 임계값 누적 logit 미작성
Ch.11 GLMM 명목 다중 잠재 효용 미작성

10 관련 주제

선행 지식

관련

후속 주제

  • § 9.5 Mixed-effects logistic — 잠재 변수 + 랜덤 효과
  • § 9.6-10 Estimation
  • Ch.10 순서형 GLMM — 다중 임계값
  • Ch.11 명목 GLMM — 다중 잠재 효용
  • Tobit, Heckman selection — 잠재 변수 framework 의 다른 응용

교재

  • Hedeker, D. & Gibbons, R. D. (2006). Longitudinal Data Analysis, Wiley, Ch.9 §9.4 (pp. 154-155)
  • Bock, R. D. (1975). Multivariate Statistical Methods in Behavioral Research, McGraw-Hill — Threshold concept 원전
  • McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2nd ed.), Chapman & Hall — 잠재 변수의 모형론적 위치
  • Long, J. S. (1997). Regression Models for Categorical and Limited Dependent Variables, Sage — 잠재 변수 모형 종합
  • Tobin, J. (1958). “Estimation of relationships for limited dependent variables”, Econometrica 26, 24-36 — Tobit 원전
  • Heckman, J. J. (1979). “Sample selection bias as a specification error”, Econometrica 47, 153-161 — 선택 모형
  • Albert, J. H. & Chib, S. (1993). “Bayesian analysis of binary and polychotomous response data”, JASA 88, 669-679 — 데이터 증강
  • Chib, S. & Greenberg, E. (1998). “Analysis of multivariate probit models”, Biometrika 85, 347-361 — 다변량 probit
  • McFadden, D. (1974). “Conditional logit analysis of qualitative choice behavior”, Frontiers in Econometrics — 이산 선택, random utility

Subscribe

Enjoy this blog? Get notified of new posts by email: