FDA 6.0 — 함수 일반화 선형 모형 개관

비정규 함수 데이터 (이진·카운트·양수) 를 다루는 GLM 의 함수 일반화: 지수족·링크 함수·추정 방정식·refund pfr/pffr·DTI MS 분류

Kokoszka & Reimherr (2017) Ch.6 의 핵심을 개관한다. 비정규 반응 (이진·카운트·양수) 에 대한 GLM 의 함수 데이터 일반화 — 지수족 밀도와 링크 함수의 표준 framework (6.1), 스칼라-on-함수 GLM η_n = α + ∫X_n(t)β(t)dt (6.2), 함수 반응 GLM (시점별 점별 GLM) η_n(t) = α(t) + x_n β(t) 와 함수-on-함수 일반화 (6.3), refund 의 pfr/pffr 구현과 잠재변수 시뮬레이션 (6.4), DTI 다발성 경화증 분류 (6.5), 무한차원 밀도의 본질적 어려움 (6.6) — 을 통합 정리한다.

Statistics
Functional Data Analysis
저자

Kwangmin Kim

공개

2026년 05월 07일

1 이 장의 위치와 목적

Chapter 4, 5 는 모두 반응이 정규 분포 라는 암묵적 가정 하에 전개되었다. 스칼라-on-함수 회귀의 LS 추정량, 함수-on-함수 회귀의 핵 추정, 효과 없음 검정의 카이제곱 분포 — 모두 가우스 framework 의 자연스러운 일반화.

그러나 실제 데이터의 반응이 항상 정규 분포는 아니다.

  • 이진 반응 — 환자의 질병 유무, 거래의 fraud 여부.
  • 카운트 반응 — 시간당 방문자 수, 사고 발생 횟수.
  • 양수·치우친 반응 — 보험 청구액, 실패까지 시간.

이런 데이터에 정규 모형을 적용하면 (1) 분포 가정 위배, (2) 평균이 자연스럽지 않은 영역(음수, 1 초과 확률 등) 으로 외삽됨, (3) 분산이 평균에 의존한다는 사실을 무시 — 의 세 문제가 발생한다.

1.1 GLM 의 핵심 아이디어

표준 GLM 은 두 가지 일반화로 이를 해결한다.

  1. 분포 일반화 — 반응이 가우스가 아닌 지수족(exponential family) 분포 를 따름.
  2. 링크 함수 — 평균을 직접 선형 결합하지 않고, 적절한 변환 후에 선형성 가정.

\[ \eta = g(\mu) = \mathbf{X}^T \boldsymbol{\beta}. \]

함수 GLM 은 이 framework 를 함수 회귀자/반응으로 확장 — 회귀자나 반응이 함수일 때 같은 두 일반화를 적용한다.

1.2 직관: 왜 링크 함수가 필요한가

이진 반응을 예로 들면, 평균은 성공 확률 \(p \in [0, 1]\). 만약 \(p = \beta_0 + \beta_1 x\) 로 직접 선형 회귀하면 큰 \(x\) 에 대해 \(p > 1\) 이나 \(p < 0\) 이 나올 수 있다 — 확률의 정의 위배.

로지스틱 회귀는 \(\text{logit}(p) = \log(p/(1-p))\) 를 선형 결합 — logit 의 범위가 \((-\infty, \infty)\) 이므로 외삽 문제 없음. 역변환 \(p = \exp(\eta)/(1+\exp(\eta))\) 가 자동으로 \([0, 1]\) 에 매핑.

링크 함수는 “평균의 자연 영역”“선형 예측 영역” 사이의 다리이다.

1.3 비유: 변환 후 직선 맞추기

비선형 곡선을 표준 선형 회귀로 맞추기 어려울 때, 변수 변환(\(\log y\), \(\sqrt{y}\) 등) 으로 직선화 후 회귀하는 표준 기법. GLM 은 같은 아이디어이지만 — 반응 변수 자체를 변환하는 것이 아니라 평균만 변환 — 그래서 분포의 형태(이진·카운트) 가 보존된다.

1.4 이 포스트의 흐름

6.1 GLM 배경 — 지수족, 링크 함수, MLE 추정 방정식
    ↓
6.2 스칼라-on-함수 GLM — η_n = α + ∫X_n(t)β(t)dt
    ↓
6.3 함수 반응 GLM — 시점별 점별 GLM η_n(t) = α(t) + x_n β(t)
    │       └ 함수-on-함수 GLM η_n(t) = α(t) + ∫X_n(s)β(t,s)ds
    ↓
6.4 refund 구현 — pfr (스칼라 반응), pffr (함수 반응)
    ↓
6.5 DTI 응용 — 다발성 경화증 분류 (probit GLM)
    ↓
6.6 무한차원에서 밀도의 본질적 한계 — 측도의 직교성

5 장의 LS / 점수 공분산 framework 가 추정 방정식 / 추정 함수로 대체되는 것이 핵심 변화이며, 모형 설계의 직관(기저 전개, 벌점) 은 동일 하다. 진짜 어려움은 6.6 에서 다루는 무한차원 밀도의 부재 — 이는 함수 GLM 의 적합 알고리즘이 가능도가 아닌 추정 방정식 에 기반해야 하는 이유이다.


2 표준 GLM 의 배경

2.1 지수족 (Exponential Family)

Lebesgue (연속) 또는 counting (이산) 측도 \(\mu\) 에 대한 기본 밀도 \(f_0(y)\) 와 적률 생성 함수

\[ M(\theta) = \int e^{\theta x} f_0(x) \, d\mu(x) \]

가 원점을 포함한 구간 \(\Theta\) 에서 유한이라 가정. 지수 기울이기 (exponential tilting) 로 새 밀도 가족을 생성:

\[ f(y \mid \theta) = f_0(y) \exp\{\theta y - b(\theta)\}, \tag{6.1} \]

여기서 \(b(\theta) = \log M(\theta)\)누적률 생성 함수 (cumulant generating function).

2.2 분산 모수까지 포함한 일반 형태

\[ f(y \mid \theta, \phi) = \exp\left\{ \frac{\theta y - b(\theta)}{a(\phi)} + c(y, \phi) \right\}. \tag{6.2} \]

모수 역할
\(\theta\) 자연 모수 (canonical parameter) — 모형의 핵심
\(\phi\) 분산 모수 (dispersion) — 정규의 \(\sigma^2\) 같은 척도
\(a, b, c\) 가족별 정해지는 함수

2.3 직관: 지수 기울이기의 의미

\(f_0\) 가 한 “기준 분포” 이면, \(\exp\{\theta y\}\) 로 기울인 분포는 \(y\) 의 확률을 (양 \(\theta\) 면) 증폭, 작은 \(y\) 의 확률을 감소 시킨다. 정규화 상수 \(b(\theta) = \log \int e^{\theta y} f_0(y) \, d\mu\) 가 전체 적분을 1 로 유지.

이 단순 기법으로 모든 지수족 분포(정규·이항·포아송·감마 등) 가 유도된다 — 한 가지 “기울이기” 작업의 다양한 결과.

2.4 비유: 카지노의 룰렛 가중치 변경

표준 룰렛(기준 밀도 \(f_0\)) 의 결과 분포에 가중치를 곱해 다른 분포를 만든다. 가중치가 \(e^{\theta y}\) 형태이면 — 결과 값에 지수적으로 비례하는 가중 — 그 결과가 지수족의 한 멤버. 다양한 \(\theta\) 가 다양한 카지노 (다양한 분포) 를 만든다.

2.5 평균과 분산

지수족 분포의 표준 결과:

\[ E[Y] = \mu = b'(\theta), \quad \text{Var}[Y] = a(\phi) b''(\theta). \tag{6.3} \]

이 두 식이 GLM 의 모수화의 토대 — 평균과 분산이 모두 자연 모수 \(\theta\)\(b\) 로 결정 됨.

2.6 예시 1: 정규 분포

\(f_0(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}\), \(b(\theta) = \theta^2/2\). 지수 기울이기:

\[ f(x \mid \theta) = \frac{1}{\sqrt{2\pi}} \exp\left\{-\frac{(x-\theta)^2}{2}\right\} = N(\theta, 1). \]

분산 모수 \(\phi = \sigma^2\) 추가:

\[ b(\theta) = \theta^2/2, \quad a(\phi) = \phi. \]

평균 \(\mu = b'(\theta) = \theta\), 분산 \(a(\phi) b''(\theta) = \phi \cdot 1 = \sigma^2\) — 정규 분포의 표준 매개변수.

2.7 예시 2: 이항 분포

\(X \sim \text{Bin}(n, p)\). 자연 모수 \(\theta = \text{logit}(p) = \log(p/(1-p))\):

\[ f(x \mid \theta) = \exp\{x\theta - n \log(1 + e^\theta)\} \binom{n}{x}, \]

\(b(\theta) = n \log(1 + e^\theta)\). 평균 \(b'(\theta) = n e^\theta / (1 + e^\theta) = np\). 분산 \(b''(\theta) = np(1-p)\) — 표준 이항 평균/분산.

2.8 직관: logit 가 자연 모수인 이유

\(\text{logit}(p) = \log(p/(1-p))\) 는 확률 \(p \in (0, 1)\) 을 실수 전체로 펼친다. 자연 모수 \(\theta\) 는 항상 실수 영역, \(b'(\theta)\) 가 자연스럽게 평균의 영역(이항의 경우 \([0, n]\)) 으로 매핑.

이는 GLM 의 일관된 구조 — 자연 모수는 자유도 무한, 평균은 분포의 자연 영역, 둘은 \(b'\) 로 연결.


3 링크 함수와 GLM

3.1 모수의 세 층위

GLM 은 세 종류의 모수가 변환으로 연결된 구조:

\[ \eta = g(\mu) \quad \text{and} \quad \mu = b'(\theta) \quad \implies \quad \eta = g(b'(\theta)). \]

모수 의미 영역
\(\theta\) 자연 모수 \(\mathbb{R}\)
\(\mu\) 평균 분포의 자연 범위 (예: \([0, 1]\), \([0, \infty)\))
\(\eta\) 선형 예측자 \(\mathbb{R}\), 회귀자의 선형 결합

GLM 의 핵심 가정: \(\eta\) 가 회귀자에 선형:

\[ \eta = \sum_{i=1}^p x_i \beta_i = \mathbf{X}^T \boldsymbol{\beta}. \tag{6.4} \]

3.2 정규(canonical) 링크

\(g = (b')^{-1}\) 을 선택하면 \(\eta = \theta\) — 자연 모수와 선형 예측자가 일치. 이를 정규 링크 (canonical link) 라 한다.

분포 정규 링크 \(g\) 자연스러움
정규 identity 평균이 이미 \(\mathbb{R}\)
이항 logit 확률을 실수로
포아송 log 양수를 실수로
감마 inverse 양수를 실수로

3.3 직관: 정규 링크가 자연스러운 이유

정규 링크를 쓰면 추정 방정식이 가장 단순한 형태 — \(\sum (Y_n - \mu_n) X_n = 0\) — 가 된다. 이는 표준 OLS 의 정규 방정식과 같은 형태이며, 수치적 안정성이 좋다.

다른 링크(예: probit) 도 가능하지만 추정 방정식이 더 복잡 — 실무에서는 이항: logit, 포아송: log, 정규: identity 가 사실상의 표준.


4 MLE 추정 방정식 (6.5)~(6.6)

4.1 로그 우도

iid 표본 \(\{(X_n, Y_n)\}\) 에서 우도:

\[ \prod_{n=1}^N f(Y_n \mid \theta_n) = \exp\left\{ \sum_n \frac{\theta_n Y_n - b(\theta_n)}{a(\phi)} + \sum_n c(Y_n, \phi) \right\}. \]

\(\boldsymbol{\beta}\) 에 대한 로그 우도의 미분:

\[ \frac{\partial \ell}{\partial \boldsymbol{\beta}} = \sum_n \frac{\partial \theta_n}{\partial \boldsymbol{\beta}} \cdot \frac{Y_n - b'(\theta_n)}{a(\phi)} = \sum_n \frac{\partial \theta_n}{\partial \boldsymbol{\beta}} \cdot \frac{Y_n - \mu_n}{a(\phi)}. \]

4.2 평균-분산 함수

표기 단순화:

\[ \mu(\eta) = g^{-1}(\eta), \quad V(\mu) = \text{Var}(Y) = a(\phi) b''(b'^{-1}(\mu)). \]

연쇄 법칙으로:

\[ \frac{\partial \theta_n}{\partial \boldsymbol{\beta}} = \frac{\mu'(\mathbf{X}_n^T \boldsymbol{\beta})}{V(\mu(\mathbf{X}_n^T \boldsymbol{\beta}))} \mathbf{X}_n. \tag{6.5} \]

4.3 추정 방정식

MLE 는 다음 방정식의 해:

\[ S(\boldsymbol{\beta}) := \sum_{n=1}^N \frac{\mu'(\mathbf{X}_n^T \boldsymbol{\beta})}{V(\mu(\mathbf{X}_n^T \boldsymbol{\beta}))} \mathbf{X}_n (Y_n - \mu(\mathbf{X}_n^T \boldsymbol{\beta})) = \mathbf{0}. \tag{6.6} \]

Newton-Raphson (또는 IRLS) 으로 수치 해.

4.4 직관: 두 가지 비표준 요소

추정 방정식 (6.6) 은 OLS 정규 방정식에 두 가지 추가 가중치를 곱한 형태.

  1. 링크의 비선형성 \(\mu'(\eta)\)\(g = \text{identity}\)\(\mu'(\eta) = 1\) 이 되어 OLS 와 같아짐.
  2. 평균-의존 분산 \(1/V(\mu)\) — 정규 분포 (\(V(\mu) = \sigma^2\) 상수) 면 사라짐.

따라서 OLS 는 (정규 링크 + 정규 분포) 의 특수 경우 — GLM 의 가장 단순한 멤버이다.

4.5 비유: 가중 최소제곱

OLS 는 모든 관측에 같은 가중치. GLM 은 각 관측에 평균-의존 가중치 \(\mu'/V\) 를 부여 — 큰 평균에서 분산이 더 큰 분포 (포아송·감마) 에서 자동으로 그 관측의 영향력을 조정.


5 스칼라-on-함수 GLM

5.1 모형 정의

정의: 스칼라-on-함수 GLM

스칼라 반응 \(Y_n\), 함수 회귀자 \(X_n: \mathcal{T} \to \mathbb{R}\) 에 대해:

\[ \eta_n := g(\mu_n) = \alpha + \int X_n(t) \beta(t) \, dt = \alpha + \langle X_n, \beta \rangle. \]

여기서 \(g\) 는 알려진 링크 함수, \(\beta: \mathcal{T} \to \mathbb{R}\) 은 추정 대상인 회귀 함수.

5.2 Ch.4 와의 비교

측면 Ch.4 (스칼라-on-함수 LS) Ch.6 (스칼라-on-함수 GLM)
모형 \(Y_n = \alpha + \int X_n \beta + \varepsilon_n\) \(g(\mu_n) = \alpha + \int X_n \beta\)
분포 정규 가정 임의 지수족
링크 identity (암묵적) 임의 (logit, log, probit 등)
추정 LS / 거칠기 벌점 MLE / 추정 방정식
다공선성 식별 문제 (Ch.4.3) 동일 — 정칙화 필요

핵심 변화: 반응의 분포와 링크 함수만 일반화, 함수 모수의 식별 문제는 동일.

5.3 직관: 모형 구조의 분해

스칼라-on-함수 GLM 을 두 단계로 분해.

  1. 선형 예측자 계산\(\eta_n = \alpha + \int X_n(t) \beta(t) \, dt\). Ch.4 의 적분과 동일.
  2. 링크 역변환\(\mu_n = g^{-1}(\eta_n)\). 표준 GLM.

따라서 스칼라-on-함수 GLM = (Ch.4 의 적분 변환) + (표준 GLM 의 링크 함수). 두 framework 의 자연스러운 결합.

5.4 추정 전략

식별성 문제 해결을 위해 두 표준 접근 중 하나 사용.

(A) FPC 회귀\(X_n\) 의 첫 몇 EFPC 점수를 회귀자로 사용 후 표준 glm 함수.

(B) 기저 전개 + 벌점\(\beta(t) = \sum_k \beta_k B_k(t)\) 로 전개:

\[ \langle X_n, \beta \rangle = \sum_{k=1}^K \beta_k X_{nk}, \quad X_{nk} = \langle X_n, B_k \rangle. \]

따라서

\[ \eta_n \approx \alpha + \sum_{k=1}^K x_{nk} \beta_k, \]

표준 다변량 GLM 형태. \(K\) 가 크면 거칠기 벌점 추가 → refund::pfr 의 자동 처리.

5.5 비유: 파이프라인의 두 단계

함수 회귀자가 적분이라는 “필터” 를 통과해 스칼라가 되고, 그 후 표준 GLM 의 “링크 변환기” 를 통과. 두 단계가 직렬로 연결된 파이프라인 — 각 단계가 표준 도구의 결합.


6 함수 반응 GLM

6.1 동기와 도전

함수 반응 GLM 은 개념적으로 더 어렵다. 이유: 비정규 함수 분포의 정의 자체가 미해결 문제.

이항 분포의 함수 버전은 무엇인가? 포아송 함수의 분포는?

이런 질문에 명확한 답이 없으므로, 함수 반응 GLM 은 함수 밀도를 회피하고 추정 방정식 (식 6.6 의 함수 버전) 에 직접 의존 한다.

6.2 함수-on-스칼라 GLM 의 정의

각 시점 \(t\) 에서 \(Y_n(t)\) 가 같은 형태의 GLM 을 따른다고 가정:

\[ \eta_n(t) := g(E[Y_n(t)]) = \alpha(t) + x_n \beta(t). \]

링크 함수 \(g\) 는 시간 무관, 효과 함수 \(\alpha(t), \beta(t)\) 만 시점 의존.

6.3 직관: “각 시점에 작은 GLM”

5.1 의 함수-on-스칼라 회귀 = “각 시점에 표준 다중 회귀” 였다. 함수-on-스칼라 GLM = “각 시점에 표준 GLM”. 같은 framework 의 자연스러운 일반화.

차이는 시점 사이의 결합. LS 의 경우 점별 추정이 완전히 분리되지만, GLM 의 경우 벌점 추정이 시점들을 매끄러움으로 묶는다 (\(\beta(t)\)\(t\) 에 매끄럽다는 가정).

6.4 함수-on-함수 GLM

함수 회귀자가 추가되면:

\[ \eta_n(t) = \alpha(t) + \int X_n(s) \beta(t, s) \, ds. \tag{6.7} \]

이변량 핵 \(\beta(t, s)\) 가 모수. 5.3 의 함수-on-함수 회귀에 링크 함수 한 겹 추가된 형태.

6.5 추정: 기저 전개

\(\beta(t, s)\) 를 한 시점 기저로 전개:

\[ \beta(t, s) \approx \sum_{k=1}^K \beta_k(t) B_k(s). \]

대입:

\[ \eta_n(t) \approx \alpha(t) + \sum_{k=1}^K \beta_k(t) X_{nk}, \]

이는 함수-on-스칼라 GLM 의 형태 — 회귀자가 \(X_{nk} = \langle X_n, B_k \rangle\) (스칼라). 따라서 함수-on-함수 GLM 의 추정이 함수-on-스칼라 GLM 으로 환원.

6.6 직관: 일관된 환원 패턴

모형 환원 경로
함수-on-함수 GLM → 함수-on-스칼라 GLM (기저 전개)
함수-on-스칼라 GLM → 시점별 표준 GLM (점별)
스칼라-on-함수 GLM → 다변량 GLM (기저 전개 또는 FPC)

모든 함수 GLM 이 결국 표준 GLM 의 적용으로 환원 — refund 의 pffr 가 이 모든 환원을 자동 처리.


7 refund 패키지 구현

7.1 두 핵심 함수

함수 반응 회귀자
pfr 스칼라 스칼라 + 함수 (lf() 헬퍼)
pffr 함수 스칼라 + 함수 (lf(), ff(), af() 헬퍼)

5.4 의 pfrpffr 가 GLM family 인자(예: binomial, poisson)를 받으면 자동으로 함수 GLM 으로 적합.

7.2 함수-on-스칼라 probit GLM 시뮬레이션

잠재 변수 접근법

함수 GLM 데이터 생성이 까다로우므로, 잠재 가우스 과정 으로 생성한 후 임계화하는 표준 기법:

\[ Z_n(t) = \alpha(t) + x_n \beta(t) + \varepsilon_n(t), \quad Y_n(t) = \mathbb{1}_{Z_n(t) > 0}. \]

\(\varepsilon_n(t)\) 가 점별 분산 1 의 Matérn 가우스 과정이면 결과는 probit GLM — 링크 함수가 표준 정규 cdf \(\Phi\):

\[ E[Y_n(t)] = \Phi(\alpha(t) + x_n \beta(t)). \]

7.3 R 코드 (regular design)

library(refund); library(MASS)

N <- 200; M <- 50
time <- seq(0, 1, length = M)

# 진짜 효과 함수
mu_f <- function(t) cos(pi * t + pi)
beta_f <- function(t) 2 * t

# Matern 공분산
C_f <- function(t, s) {
  sig2 <- 1; rho <- 0.5
  d <- abs(outer(t, s, "-"))
  sig2 * (1 + sqrt(3) * d / rho) * exp(-sqrt(3) * d / rho)
}

# 잠재 변수 생성
set.seed(2000)
Sigma <- C_f(time, time)
mu <- mu_f(time)
X <- rnorm(N, mean = 0)
beta <- beta_f(time)
Z <- mvrnorm(N, mu, Sigma) + X %*% t(beta)
Y <- matrix(Z > 0, nrow = N)

# pffr 로 함수-on-스칼라 probit GLM 적합
Xdata <- data.frame(X = X)
pffr_fit <- pffr(Y ~ X, family = binomial(link = "probit"),
                 yind = time, data = Xdata)

# 추정 효과 함수 시각화 (Figure 6.1 재현)
par(mfrow = c(1, 2))
plot(pffr_fit, select = 1, xlab = "", ylab = "Intercept",
     ylim = c(-1.25, 1.5), cex.lab = 1.25)
points(time, mu_f(time), typ = "l", lty = 4, lwd = 4)
plot(pffr_fit, select = 2, xlab = "t", ylab = "Slope",
     ylim = c(-0.25, 2.75), cex.lab = 1.25)
points(time, beta_f(time), typ = "l", lty = 4, lwd = 4)

7.4 직관: family 인자가 모든 일을 한다

pffr 호출에서 단 하나의 변경 — family = binomial(link = "probit") — 으로 함수 GLM 이 활성화. 적합 알고리즘은 5.3 의 함수-on-스칼라 회귀와 같은 mgcv framework 위에서 작동, 단지 가우스 우도 대신 이항 우도와 probit 링크를 사용.

이 단순성이 pffr 의 큰 장점 — 사용자는 모형 변경만 하면 되고 알고리즘은 패키지가 처리.

7.5 함수-on-함수 GLM

이변량 핵 \(\beta(t, s)\) 추정. ff() 헬퍼로 함수 회귀자 표시 + 텐서 곱 기저 옵션:

# 함수 회귀자 + probit 링크
beta_f <- function(t, s) 4 * abs(outer(t, s, "*"))

# (X, Y, Sigma 등 5.4 와 비슷하게 생성, 단 N = 1000 으로 증가)

pffr_fit <- pffr(Y ~ ff(X, basistype = "te", xind = time),
                 family = binomial(link = "probit"),
                 yind = time, data = Xdata)

par(mfrow = c(1, 3), mar = c(4, 4, 0, 0))
plot(pffr_fit, select = 1, xlab = "", ylab = "intercept", cex.lab = 1.5)
points(time, mu_f(time), typ = "l", lty = 4, lwd = 4)
plot(pffr_fit, select = 2, pers = TRUE, xlab = " ", ylab = " ",
     main = "Estimated Slope")
persp(time, time, beta_f(time, time),
      xlab = " ", ylab = "", zlab = "True Slope",
      theta = 30, phi = 30)

함수-on-함수 GLM 은 표본 크기가 클 필요 (\(N \geq 1000\)) — 이변량 핵의 추정이 잡음에 매우 민감.

7.6 비정규 격자 데이터

각 단위가 다른 시점에서 관측되는 불규칙 격자(irregular grid) 의 경우:

# Y 를 long format data frame 으로 정리
Y_all <- data.frame(.obs = rep(1:N, each = M),    # 단위 인덱스
                    .index = time_all,             # 관측 시점
                    .value = Y)                    # 반응 값

# pffr 호출 — ydata 인자로 long format 전달
pffr_fit <- pffr(Ydummy ~ X,
                 family = binomial(link = "probit"),
                 data = Xdata, ydata = Y_all)

이 인터페이스는 종단 데이터와 같은 자연스러운 형식으로, 실무 데이터에 직접 적용 가능.


8 DTI 응용: 다발성 경화증 분류

8.1 문제 설정

refund::DTI 데이터셋. 다발성 경화증(MS) 환자와 건강한 대조군의 뇌 영상.

  • \(X_n(t)\)\(n\) 번째 환자의 corpus callosum (뇌량) 트랙트의 부분 비등방성(FA) 프로파일.
  • \(Y_n \in \{0, 1\}\) — MS 여부 (1 = 환자, 0 = 대조군).

스칼라-on-함수 probit GLM:

\[ \Phi^{-1}(E[Y_n]) = \alpha + \int X_n(t) \beta(t) \, dt = \alpha + \langle X_n, \beta \rangle. \]

8.2 R 코드

library(refund)

Y <- DTI$case      # 0/1 binary
X <- DTI$cca       # corpus callosum FA 프로파일
N <- dim(X)[1]
M <- dim(X)[2]
time <- seq(0, 1, length = M)

Xdata <- data.frame(X = X)

# pfr 로 스칼라-on-함수 probit GLM
dti_fit <- pfr(Y ~ lf(X, argvals = time),
               family = binomial(link = "probit"),
               data = Xdata)

# beta(t) 시각화
plot(dti_fit, xlab = "t", ylab = expression(beta(t)))

8.3 β̂(t) 의 해석

전형적 결과 (Figure 6.4):

  • 대부분의 \(t\) 에서 \(\widehat{\beta}(t) < 0\) — FA 가 크면 (트랙트가 두꺼우면) MS 확률이 낮음. 즉 얇은 corpus callosum 이 MS 와 연관.
  • 트랙트 끝부분에서 음의 dip — 끝 직전의 두께가 특히 중요한 진단 지표.
  • 트랙트 양 끝에서 약간 양의 값 — 양 끝이 두꺼우면 MS 확률 약간 증가.

8.4 해석의 함정

\(\widehat{\beta}(t)\) 가 한 점에서 양의 값이라고 “그 시점이 두꺼우면 MS 확률 증가” 로 해석하는 것은 부정확 하다.

\(\eta = \alpha + \int X(t) \beta(t) \, dt\)모든 \(t\) 의 기여의 적분 — 한 시점의 값을 분리해 해석할 수 없다. 양 끝이 양, 중간이 음이라는 것은 본질적으로 “양 끝과 중간의 두께 대비” 가 MS 와 연관됨을 의미.

8.5 직관: 함수 회귀의 해석은 항상 결합적

스칼라 회귀에서 \(\beta_k\) 는 변수 \(x_k\) 의 단독 효과. 함수 회귀에서 \(\beta(t)\)시점들의 결합 효과 — 한 점만 분리하는 것은 무의미.

이는 함수 회귀의 해석이 어려운 핵심 이유이다. 시각화를 위해 PC 점수 등 대안적 표현(5.5) 이 자주 함께 제시된다.

8.6 비유: 음악의 멜로디 vs 한 음

한 곡의 인상은 멜로디 전체 — 한 음만 떼어서는 의미가 없다. \(\beta(t)\) 의 형태도 마찬가지로 “전체 곡선 패턴” 이 중요하지 한 시점의 값은 아니다.


9 무한차원 밀도의 본질적 한계 (6.6)

9.1 가능도 부재의 문제

표준 GLM 의 모든 이론은 가능도 함수 를 중심으로 전개된다 — MLE, Fisher 정보, Wald 검정, AIC, 베이지안 사후분포 등.

함수 GLM 에서는 이 가능도가 본질적으로 정의되지 않는다. 이유: 무한차원 공간의 두 확률 측도는 일반적으로 직교(orthogonal) — 한 측도가 0 이 아닌 곳에서 다른 측도가 0.

9.2 측도 직교성의 의미

두 확률 측도 \(P_1, P_2\)직교 이면 \(P_1(A) = 1, P_2(A) = 0\) 인 사건 \(A\) 가 존재. 이는 두 측도가 본질적으로 다른 sample paths 를 거의 확실히 생성한다는 의미.

예시: 표준 브라운 운동 \(W(t)\) 와 표준 브라운 다리 \(B(t)\). 정의상 \(B(1) = 0\) a.s., \(W(1) \neq 0\) a.s. — 두 측도가 \(\{f(1) = 0\}\) 사건에서 완전히 분리.

9.3 직관: 무한차원에서는 분포가 “너무 다르다”

다변량(유한차원) 에서는 가우스 분포 \(N(\boldsymbol{\mu}_1, \boldsymbol{\Sigma}_1)\)\(N(\boldsymbol{\mu}_2, \boldsymbol{\Sigma}_2)\) 가 같은 영역(전체 \(\mathbb{R}^d\)) 에 양의 밀도를 가진다 — 한 측도에 대한 다른 측도의 밀도(라돈-니코딤 도함수) 가 잘 정의된다.

무한차원에서는 “양의 밀도의 영역” 자체가 분포마다 다르다 — 가우스 과정의 sample path 가 어떤 매끄러움 클래스에 속하는지가 공분산 함수에 따라 결정. 다른 공분산을 가진 두 가우스 과정은 본질적으로 다른 sample path 의 클래스를 생성하므로, 한 측도가 양의 확률을 주는 곳에서 다른 측도는 확률 0.

9.4 비유: 두 화가의 화풍

피카소와 모네는 같은 캔버스 위에 그림을 그리지만, 그들의 작품 분포는 완전히 분리된 세계 — 피카소가 그린 그림과 모네가 그린 그림은 한 눈에 구별 가능. 두 화풍의 “확률 분포” 가 직교 — 한 화가의 그림이 다른 화가의 분포에서 나올 확률이 0.

함수의 무한차원 분포도 마찬가지로, 다른 공분산 구조를 가진 가우스 과정들은 본질적으로 다른 “함수 화풍” — 한 화풍의 함수가 다른 화풍의 분포에서 나올 확률이 0. 따라서 한 측도에 대한 다른 측도의 밀도(우도) 를 정의할 수 없다.

9.5 결과: 추정 방정식 기반 접근

함수 GLM 의 적합은 가능도 최대화 대신 (6.6) 형태의 추정 방정식 을 직접 푼다 — 적률(평균-분산) 만으로 모형을 정의하므로 무한차원 밀도가 필요 없다.

이는 GMM(generalized method of moments) 과 비슷한 사고 — 분포 가정 없이 적률 조건만으로 추정. refund 의 알고리즘이 이 접근을 자동 처리.

9.6 추가 참고문헌

  • Ibragimov & Rozanov (1978) — 가우스 과정의 측도 등가성·직교성 이론.
  • Stein (1999) — 공간 통계에서 같은 문제.
  • Li & Linde (1999), Delaigle & Hall (2010), Dai et al. (2016) — “small ball probabilities” 관점, 무한차원 밀도의 정의 어려움.

10 Chapter 6 의 통합 시각

10.1 한 줄 요약

함수 GLM 은 비정규 함수 데이터 (이진·카운트·양수) 에 표준 GLM 의 두 가지 일반화 — 지수족 분포와 링크 함수 — 를 적용한 framework 이다. 스칼라-on-함수 GLM 은 Ch.4 의 적분 변환 + 링크 함수, 함수-on-스칼라 GLM 은 시점별 점별 GLM, 함수-on-함수 GLM 은 이변량 핵 + 링크 — 모두 refund 의 pfr/pffr 로 family 인자만으로 적합 가능. 이론적 토대는 가능도가 아닌 추정 방정식 (식 6.6) — 무한차원에서는 측도의 직교성으로 우도 자체가 정의되지 않기 때문이다.

10.2 Ch.4·Ch.5 와의 비교

측면 Ch.4 (스칼라 반응) Ch.5 (함수 반응) Ch.6 (함수 GLM)
분포 정규 정규 임의 지수족
링크 identity identity logit·log·probit·…
추정 LS LS / FPCA MLE / 추정 방정식
검정 F·t \(\chi^2_{pq}\) 우도비·Wald·Score
진단 잔차 EFPC 점수 산점도 잔차 deviance·Pearson
R 함수 pfr (lf) fosr, pffr (ff) pfr, pffr + family

핵심 변화: 분포와 링크의 일반화 + 추정 알고리즘이 LS → MLE 로 변경. 모형 설계의 모든 직관(기저 전개, 거칠기 벌점, FPC) 은 동일.

10.3 후속 챕터와의 연결

챕터 Ch.6 의 도구를 어떻게 확장하는가
Ch.7 희소 FDA 희소 함수 회귀자에 대한 GLM — PACE + GLM 결합
Ch.8 함수 시계열 정상 함수 GLM, 점근 분포
Ch.9 공간 함수 공간 GLM (geofd 패키지 + family)
Ch.12 추론 GLM 모수의 점근 정규성, Wald·우도비 검정

함수 GLM 은 FDA 의 표준 도구 — pffr + family 인자가 사실상 모든 비정규 함수 회귀의 default 시작점.


11 관련 주제

선행 지식

후속 주제

관련 개념

Subscribe

Enjoy this blog? Get notified of new posts by email: