Kwangmin Kim - FDA 6.1~6.2 — GLM 배경과 스칼라-on-함수 GLM

1 두 절의 역할

이 포스트의 범위

절	주제	핵심 도구
6.1	표준 GLM 의 배경	지수족·링크 함수·추정 방정식
6.2	스칼라-on-함수 GLM	적분 변환 + GLM 결합, FPC 또는 기저 전개 추정

6.1 은 함수 GLM 으로 가기 전 표준 다변량 GLM 의 핵심 framework 를 압축 정리. 지수족 밀도의 일반 형태, 평균-분산 관계, 링크 함수의 역할, MLE 의 추정 방정식 — 모두 후속 절에서 함수 일반화의 토대가 된다.

6.2 는 스칼라 반응 + 함수 회귀자의 결합 — Ch.4 의 적분 변환에 6.1 의 링크 함수를 한 겹 추가한 형태. 다공선성 문제(Ch.4.3)는 동일 하므로 같은 정칙화 도구(FPC, 기저 전개 + 벌점) 를 재사용한다. 차이는 추정이 LS 가 아닌 MLE.

두 절을 합치면 “가장 단순한 함수 GLM = 표준 GLM 의 적분 변환 일반화” 의 그림이 완성된다.

2 지수족 (Exponential Family)

2.1 지수 기울이기 (Exponential Tilting) 로의 정의

기본 측도 \(\mu\) (Lebesgue 또는 counting) 위의 기준 밀도 \(f_0(y)\) 와 그 적률 생성 함수

\[ M(\theta) = \int e^{\theta x} f_0(x) \, d\mu(x) \]

가 원점을 포함한 구간 \(\Theta\) 에서 유한이라 가정. 새 밀도 가족 을 다음과 같이 정의:

\[ f(y \mid \theta) = f_0(y) \exp\{\theta y - b(\theta)\}, \tag{6.1} \]

여기서 \(b(\theta) = \log M(\theta)\) — 누적률 생성 함수 (cumulant generating function).

2.2 직관: 지수 기울이기의 의미

\(f_0(y)\) 가 한 “기준 분포” 라면, 가중치 \(e^{\theta y}\) 는 큰 \(y\) 에 더 큰 확률, 작은 \(y\) 에 작은 확률 을 부여한다 (양 \(\theta\) 일 때). 음 \(\theta\) 면 반대.

정규화 상수 \(b(\theta) = \log M(\theta)\) 가 전체 적분을 1 로 유지 — \(\int f(y|\theta) \, d\mu = M(\theta) / M(\theta) = 1\).

이 단순 기법으로 모든 지수족 멤버 (정규, 이항, 포아송, 감마, 음이항 등) 가 한 가지 기준에서 파생된다 — 기울이기 모수 \(\theta\) 가 분포 가족 내의 한 멤버를 결정.

2.3 비유: 같은 음악의 다른 EQ 설정

기준 음악 \(f_0\) 가 같지만, EQ(이퀄라이저) 의 슬라이더 \(\theta\) 를 조절하면 베이스 강조(\(\theta < 0\)) 또는 고음 강조(\(\theta > 0\)) 의 다른 사운드. 지수족도 같은 구조 — 한 기준 분포에서 한 모수(\(\theta\)) 만으로 가족 전체 를 생성.

2.4 분산 모수까지 포함한 일반 형태

분산 모수 \(\phi\) 를 추가하면 지수족의 표준 형태:

\[ f(y \mid \theta, \phi) = \exp\left\{ \frac{\theta y - b(\theta)}{a(\phi)} + c(y, \phi) \right\}. \tag{6.2} \]

모수	역할	통상적 의미
\(\theta\)	자연 모수 (canonical parameter)	분포 가족 내 위치
\(\phi\)	분산 모수 (dispersion)	잡음 척도
\(b(\theta)\)	누적률 생성 함수	평균·분산 결정
\(a(\phi)\)	분산 척도 함수	보통 \(a(\phi) = \phi\)
\(c(y, \phi)\)	정규화 (분포 모양)	\(\theta\) 무관

2.5 정규 분포 예시 (Example 6.1.1)

기준 밀도 \(f_0(x) = (2\pi)^{-1/2} e^{-x^2/2}\) (표준 정규). 적률 생성 함수 \(M(\theta) = e^{\theta^2/2}\), 따라서 \(b(\theta) = \theta^2/2\).

지수 기울이기:

\[ f(x \mid \theta) = \frac{1}{\sqrt{2\pi}} \exp\left\{-\frac{x^2}{2} + \theta x - \frac{\theta^2}{2}\right\} = \frac{1}{\sqrt{2\pi}} \exp\left\{-\frac{(x-\theta)^2}{2}\right\} = N(\theta, 1). \]

분산 모수 \(\phi = \sigma^2\) 를 추가하여 일반 정규 분포 \(N(\mu, \sigma^2)\):

\[ f(x \mid \theta, \phi) = \exp\left\{ \frac{\theta x - \theta^2/2}{\phi} - \frac{x^2}{2\phi} - \frac{1}{2}\log(2\pi\phi) \right\}. \]

식 (6.2) 와 비교:

\[ b(\theta) = \theta^2/2, \quad a(\phi) = \phi, \quad c(x, \phi) = -\frac{x^2}{2\phi} - \frac{1}{2}\log(2\pi\phi). \]

2.6 직관: 정규 분포가 가장 단순한 GLM 멤버

\(b(\theta) = \theta^2/2\) — 2 차 다항식. 이의 미분 \(b'(\theta) = \theta\) — 자연 모수와 평균이 일치. 2 차 미분 \(b''(\theta) = 1\) — 분산이 모든 \(\theta\) 에서 같음.

이 단순한 \(b\) 형태가 정규 분포의 모든 좋은 성질(가장 단순한 추정 방정식, identity 정규 링크 등) 의 원인이다.

2.7 이항 분포 예시 (Example 6.1.2)

\(X \sim \text{Bin}(n, p)\) 의 밀도:

\[ f(x \mid p) = \binom{n}{x} p^x (1-p)^{n-x}. \]

\(\theta = \text{logit}(p) = \log(p/(1-p))\) 로 변환하면 \(p = e^\theta/(1+e^\theta)\), \(1-p = 1/(1+e^\theta)\):

\[ f(x \mid \theta) = \exp\{x \theta - n \log(1 + e^\theta)\} \binom{n}{x}. \]

식 (6.2) 와 비교:

\[ b(\theta) = n \log(1 + e^\theta), \quad c(x) = \log \binom{n}{x}. \]

2.8 직관: logit 가 자연 모수인 이유

확률 \(p \in (0, 1)\) 은 제한된 영역. \(\text{logit}(p) = \log(p/(1-p))\) 가 이를 \(\mathbb{R}\) 전체로 펼친다 — 자연 모수 \(\theta\) 의 영역이 항상 \(\mathbb{R}\) (또는 그 부분 구간) 인 것이 GLM 의 일관된 패턴.

자연 모수가 \(\mathbb{R}\) 에 있다는 사실이 회귀 분석의 자연스러운 출발점 — 회귀자의 선형 결합이 자동으로 \(\theta\) 의 영역에 머문다.

3 평균과 분산: 식 (6.3)

3.1 핵심 관계식

지수족 (6.2) 의 \(Y\) 에 대해:

\[ E[Y] = \mu = b'(\theta), \quad \text{Var}[Y] = a(\phi) b''(\theta). \tag{6.3} \]

3.2 유도 스케치

\(f(y|\theta,\phi)\) 를 \(y\) 로 미분 후 적분 (모수 미분과 적분 교환):

\[ 0 = \frac{d}{d\theta} \int f(y|\theta,\phi) \, dy = \int \frac{y - b'(\theta)}{a(\phi)} f(y|\theta,\phi) \, dy = \frac{E[Y] - b'(\theta)}{a(\phi)}, \]

따라서 \(E[Y] = b'(\theta)\).

분산은 비슷한 방식으로 — \(\frac{d^2}{d\theta^2}\) 적용 + Cauchy-Schwarz.

3.3 정규·이항·포아송 검증

분포	\(b(\theta)\)	\(b'(\theta)\) = \(\mu\)	\(b''(\theta)\)
정규	\(\theta^2/2\)	\(\theta = \mu\)	\(1\) → Var = \(\sigma^2\)
이항 (n 시행)	\(n \log(1+e^\theta)\)	\(np\)	\(np(1-p)\)
포아송	\(e^\theta\)	\(e^\theta = \lambda\)	\(e^\theta = \lambda\) → Var = \(\lambda\)

3.4 직관: \(b\) 가 모든 정보를 담는다

식 (6.3) 의 가장 강력한 메시지:

누적률 생성 함수 \(b(\theta)\) 의 1·2 차 미분만으로 평균과 분산이 결정.

이 일관된 구조 덕에 GLM 의 모든 추정·검정 절차가 분포에 무관하게 동일한 형태로 표현 가능. 단지 \(b\) 의 형태만 분포마다 다를 뿐.

이는 통계학 이론의 가장 우아한 결과 중 하나 — 하나의 framework 가 정규·이항·포아송·감마 등 모든 흔한 분포를 통합 한다.

3.5 비유: 자동차의 변속기

다른 종류의 자동차(분포) 도 같은 변속기(추정 방정식 framework) 를 사용. 차이는 엔진의 사양(\(b\) 함수) 뿐 — 변속 메커니즘은 동일.

4 링크 함수와 GLM

4.1 모수의 세 층위

GLM 은 세 종류의 모수가 변환으로 연결된 구조:

\[ \eta = g(\mu), \quad \mu = b'(\theta), \quad \implies \quad \eta = g(b'(\theta)). \]

모수	의미	영역	회귀
\(\theta\)	자연 모수	\(\Theta \subseteq \mathbb{R}\)	추정 대상
\(\mu\)	평균	분포의 자연 영역	예측 대상
\(\eta\)	선형 예측자 (linear predictor)	\(\mathbb{R}\)	회귀자의 선형 결합

4.2 GLM 의 핵심 가정 (식 6.4)

\[ \eta = \sum_{i=1}^p x_i \beta_i = \mathbf{X}^T \boldsymbol{\beta}. \]

\(\eta\) 가 회귀자에 선형 — 단, 평균 \(\mu\) 자체가 아니라 변환된 \(\eta\).

4.3 직관: 왜 \(\eta\) 만 선형 가정?

이항 회귀 예: 확률 \(p \in [0, 1]\). \(p = \beta_0 + \beta_1 x\) 로 직접 선형 회귀하면 큰 \(|x|\) 에 대해 \(p > 1\) 또는 \(p < 0\) — 확률 정의 위배.

logit 변환 후 \(\eta = \text{logit}(p) = \beta_0 + \beta_1 x\) — 이는 \(\mathbb{R}\) 전체에서 자연스럽고, 역변환 \(p = e^\eta/(1+e^\eta)\) 가 자동으로 \([0, 1]\) 에 매핑.

링크 함수는 “평균의 자연 영역” 과 “선형 회귀의 무한 영역” 사이의 다리.

4.4 정규(canonical) 링크

\(g = (b')^{-1}\) 을 선택하면 \(\eta = \theta\) — 자연 모수와 선형 예측자가 일치. 이를 정규 링크 라 한다.

분포	\(b(\theta)\)	\(b'(\theta) = \mu\)	정규 링크 \(g\)
정규	\(\theta^2/2\)	\(\theta\)	identity
이항	\(n \log(1+e^\theta)\)	\(\frac{n e^\theta}{1+e^\theta} = np\)	logit
포아송	\(e^\theta\)	\(e^\theta = \lambda\)	log
감마	\(-\log(-\theta)\)	\(-1/\theta\)	inverse

4.5 직관: 정규 링크가 자연스러운 이유

정규 링크 사용 시 추정 방정식이 가장 단순한 형태 — \(\sum (Y_n - \mu_n) X_n = \mathbf{0}\) — 가 된다. 표준 OLS 정규 방정식과 같은 형태.

다른 링크(예: probit) 도 가능하지만 추정 방정식이 더 복잡 (식 6.6 의 \(\mu'/V\) 항이 1 이 아님). 실무에서는 이항: logit, 포아송: log, 정규: identity, 감마: log 또는 inverse 가 사실상 표준.

4.6 비교: probit vs logit (이항)

이항 회귀의 두 흔한 링크:

링크	정의	정규?
logit	\(g(p) = \log(p/(1-p))\)	정규 (canonical)
probit	\(g(p) = \Phi^{-1}(p)\)	비정규

logit: 해석적 우아함 (오즈비 해석), 계산 용이. probit: 잠재 변수 해석 — \(Y = \mathbb{1}\{Z > 0\}\) where \(Z \sim N(\mathbf{X}^T\boldsymbol{\beta}, 1)\). 6.4 절의 시뮬레이션이 이 잠재 변수 접근 사용.

두 링크의 점추정 결과는 매우 비슷하지만 (확률적으로 거의 동일한 모형), 해석과 시뮬레이션 편의성에서 차이.

5 MLE 추정 방정식

5.1 로그 우도

iid 표본 \(\{(X_n, Y_n)\}\) 에서 우도:

\[ L(\boldsymbol{\beta}) = \prod_{n=1}^N f(Y_n \mid \theta_n, \phi) = \exp\left\{ \sum_n \frac{\theta_n Y_n - b(\theta_n)}{a(\phi)} + \sum_n c(Y_n, \phi) \right\}, \]

여기서 \(\theta_n = \theta_n(\boldsymbol{\beta})\) 는 회귀자에 의존.

5.2 점수 방정식

\(\boldsymbol{\beta}\) 에 대한 로그 우도의 미분 (점수 함수, score function):

\[ \frac{\partial \ell}{\partial \boldsymbol{\beta}} = \sum_n \frac{\partial \theta_n}{\partial \boldsymbol{\beta}} \cdot \frac{Y_n - b'(\theta_n)}{a(\phi)} = \sum_n \frac{\partial \theta_n}{\partial \boldsymbol{\beta}} \cdot \frac{Y_n - \mu_n}{a(\phi)}. \]

5.3 \(\partial \theta_n / \partial \boldsymbol{\beta}\) 의 계산

\(\theta_n = (b')^{-1}(g^{-1}(\mathbf{X}_n^T \boldsymbol{\beta}))\). 연쇄 법칙:

\[ \frac{\partial \theta_n}{\partial \boldsymbol{\beta}} = [(b')^{-1}]'(g^{-1}(\mathbf{X}_n^T \boldsymbol{\beta})) \cdot [g^{-1}]'(\mathbf{X}_n^T \boldsymbol{\beta}) \cdot \mathbf{X}_n. \]

평균/분산 함수 \(\mu(\eta) = g^{-1}(\eta)\), \(V(\mu) = a(\phi) b''(b'^{-1}(\mu))\) 도입하면 (몇 단계 정리):

\[ \frac{\partial \theta_n}{\partial \boldsymbol{\beta}} = \frac{\mu'(\mathbf{X}_n^T \boldsymbol{\beta})}{V(\mu(\mathbf{X}_n^T \boldsymbol{\beta}))} \mathbf{X}_n. \tag{6.5} \]

5.4 추정 방정식 (식 6.6)

점수 방정식 = 0 (MLE 의 1 차 조건):

\[ \boxed{ S(\boldsymbol{\beta}) := \sum_{n=1}^N \frac{\mu'(\mathbf{X}_n^T \boldsymbol{\beta})}{V(\mu(\mathbf{X}_n^T \boldsymbol{\beta}))} \mathbf{X}_n (Y_n - \mu(\mathbf{X}_n^T \boldsymbol{\beta})) = \mathbf{0}. } \]

이를 Newton-Raphson 또는 IRLS(iteratively reweighted least squares) 로 수치 해.

5.5 직관: 두 가지 비표준 요소

표준 OLS 정규 방정식 \(\sum (Y_n - \mathbf{X}_n^T \boldsymbol{\beta}) \mathbf{X}_n = \mathbf{0}\) 와 비교하면 GLM 추정 방정식은 두 추가 요소.

요소	의미	정규 분포에서?
\(\mu'(\mathbf{X}_n^T \boldsymbol{\beta})\)	링크의 비선형성 보정	identity 링크면 1
\(1/V(\mu)\)	분산이 평균에 의존함을 반영	정규면 \(1/\sigma^2\) (상수)

따라서 OLS = (정규 분포 + identity 링크 + 동분산) 의 특수 경우 이며, GLM 의 가장 단순한 멤버.

5.6 비유: 가중 최소제곱 + 비선형 변환

표준 OLS 가 모든 관측에 같은 가중치를 주고 평균을 직접 모델링한다면, GLM 추정 방정식은:

각 관측에 평균-의존 가중치 \(\mu'/V\) — 큰 평균에서 분산이 큰 분포(포아송·감마)에서 자동으로 그 관측의 영향력 조정.
비선형 변환 후 잔차 — \(Y_n - \mu(\mathbf{X}_n^T\boldsymbol{\beta})\) 가 변환된 평균과의 차.

같은 OLS 의 방정식 형태이지만, 두 추가 요소로 분포의 비정규성과 링크의 비선형성을 처리.

5.7 IRLS 알고리즘

Newton-Raphson 의 GLM 특수 형태:

IRLS 절차

초기값 \(\boldsymbol{\beta}^{(0)}\) 설정 (보통 LS 추정값).
반복 \(t = 0, 1, 2, \ldots\):
- 작업 가중치 \(w_n^{(t)} = \mu'(\mathbf{X}_n^T \boldsymbol{\beta}^{(t)})^2 / V(\mu(\mathbf{X}_n^T \boldsymbol{\beta}^{(t)}))\).
- 작업 반응 \(z_n^{(t)} = \mathbf{X}_n^T \boldsymbol{\beta}^{(t)} + (Y_n - \mu_n^{(t)})/\mu'(\mathbf{X}_n^T \boldsymbol{\beta}^{(t)})\).
- 가중 LS: \(\boldsymbol{\beta}^{(t+1)} = (\mathbf{X}^T \mathbf{W}^{(t)} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W}^{(t)} \mathbf{z}^{(t)}\).
수렴 시 정지 (보통 \(\|\boldsymbol{\beta}^{(t+1)} - \boldsymbol{\beta}^{(t)}\| < \epsilon\)).

R 의 glm 함수가 이 알고리즘을 자동 실행. 사용자는 family 인자로 분포와 링크만 지정하면 된다.

5.8 직관: IRLS = “가중 OLS 의 반복”

GLM 의 어려움 — 비선형성과 평균-의존 분산 — 을 각 단계에서 가중 OLS 로 환원. 가중치가 추정값에 의존하므로 반복적으로 갱신.

이는 EM 알고리즘과 비슷한 사고 — 어려운 최적화를 일련의 쉬운 (closed-form 또는 LS) 단계로 분해.

6 스칼라-on-함수 GLM 의 정의

6.1 모형 식

정의: 스칼라-on-함수 GLM

스칼라 반응 \(Y_n\), 함수 회귀자 \(X_n: \mathcal{T} \to \mathbb{R}\) 에 대해:

\[ \eta_n := g(\mu_n) = \alpha + \int X_n(t) \beta(t) \, dt = \alpha + \langle X_n, \beta \rangle. \]

여기서:

\(g\) — 알려진 링크 함수 (사용자 선택).
\(\alpha \in \mathbb{R}\) — 절편.
\(\beta: \mathcal{T} \to \mathbb{R}\) — 회귀 함수, 추정 대상인 함수 모수.
\(\mu_n = E[Y_n]\) — 평균 (분포에 따라 다른 영역).

6.2 표준 GLM 과의 차이

식 (6.4) \(\eta = \mathbf{X}^T \boldsymbol{\beta}\) 에서 유한 차원 내적 \(\mathbf{X}^T \boldsymbol{\beta}\) 가 함수 내적 \(\langle X, \beta \rangle = \int X(t) \beta(t) \, dt\) 로 대체 된 것.

다른 모든 구조는 동일.

6.3 Ch.4 와의 비교

측면	Ch.4 (스칼라-on-함수 LS)	Ch.6 (스칼라-on-함수 GLM)
모형	\(Y_n = \alpha + \int X_n \beta + \varepsilon_n\)	\(g(\mu_n) = \alpha + \int X_n \beta\)
분포	정규 가정	임의 지수족
링크	identity (암묵적)	logit·log·probit·…
추정	LS 정칙화	MLE 추정 방정식
다공선성	식별 문제 (Ch.4.3)	동일 — 정칙화 필요
R 함수	`pfr` (가우스 family)	`pfr` + family 인자

핵심 변화: 반응의 분포와 링크 함수만 일반화, 함수 모수의 식별 문제와 정칙화 도구는 동일.

6.4 직관: 모형 구조의 분해

스칼라-on-함수 GLM 을 두 단계로 분해.

선형 예측자 계산 — \(\eta_n = \alpha + \int X_n(t) \beta(t) \, dt\). Ch.4 의 적분과 동일.
링크 역변환 — \(\mu_n = g^{-1}(\eta_n)\). 표준 GLM.

따라서 스칼라-on-함수 GLM = (Ch.4 의 적분 변환) + (표준 GLM 의 링크 함수). 두 framework 의 직렬 결합.

6.5 비유: 두 단계 파이프라인

1 단계 (적분 필터): 함수 회귀자가 회귀 함수와의 적분으로 한 스칼라 \(\eta\) 가 됨.
2 단계 (링크 역변환): \(\eta\) 가 링크 역변환으로 평균 \(\mu\) 가 됨.

각 단계가 표준 도구 — Ch.4 의 적분과 GLM 의 링크 — 로 구성된 파이프라인.

7 다공선성과 식별 문제

7.1 식별 문제의 재등장

Ch.4.3 에서 본 무한차원 다공선성 문제가 GLM 에서도 동일하게 나타난다. \(\beta(t)\) 가 무한차원이므로 정칙화 없이는 추정 불가.

해결책도 같다 — \(\beta(t)\) 의 자유도를 유한으로 제한:

접근	방법	Ch.4 대응
(A) FPC	\(X_n\) 의 첫 몇 EFPC 점수를 회귀자로	§4.6
(B) 기저 전개 + 벌점	\(\beta(t) = \sum_k \beta_k B_k(t)\) + 거칠기 벌점	§4.4, §4.5

7.2 접근 (A): FPC + 표준 glm

X_n 의 EFPC 추정 후 점수 \(\xi_{nj} = \langle X_n, \widehat{v}_j \rangle\) 를 회귀자로 사용:

\[ \eta_n \approx \alpha + \sum_{j=1}^p \xi_{nj} \widetilde{\beta}_j, \]

여기서 \(\widetilde{\beta}_j = \langle \beta, \widehat{v}_j \rangle\) — \(\beta\) 의 PC 방향 사영. 표준 다변량 GLM.

R 코드:

library(fda)

# 1. X_fd: 함수 회귀자의 fd 객체 (이미 평활됨)
# 2. EFPC 추정
X_pca <- pca.fd(X_fd, nharm = 5)
xi_scores <- X_pca$scores      # N x 5

# 3. 표준 GLM 적용 (이항 반응 Y)
fit_pcr_glm <- glm(Y ~ xi_scores, family = binomial(link = "logit"))
summary(fit_pcr_glm)

# 4. 회귀 함수 재구성
beta_coefs <- coef(fit_pcr_glm)[-1]   # 절편 제외
beta_recon <- t(beta_coefs) %*% t(eval.fd(seq(0, 1, length = 100),
                                          X_pca$harmonics))
plot(seq(0, 1, length = 100), beta_recon, type = "l",
     xlab = "t", ylab = expression(hat(beta)(t)),
     main = "FPC-based GLM estimate of beta(t)")

7.3 직관: FPC + GLM 의 단순함

이 접근은 함수 차원을 유한 차원으로 환원 후 표준 도구(glm) 를 그대로 사용 — 가장 단순하고 빠르다. EFPC 점수가 비상관이므로 다공선성도 자동 해결.

단점: \(\widehat{v}_j\) 가 \(X\) 의 변동만 반영, \(Y\) 와의 연관은 무시 — 가장 큰 분산을 가진 PC 가 \(Y\) 예측에 가장 유용하지 않을 수 있다 (“inverse problem in PCR”, Ch.4.6).

7.4 접근 (B): 기저 전개 + 벌점

\(\beta(t)\) 를 \(K\) 개 기저로 전개:

\[ \beta(t) \approx \sum_{k=1}^K \langle \beta, B_k \rangle B_k(t) = \sum_{k=1}^K \beta_k B_k(t). \]

함수 내적이 표준 다변량 내적으로 환원:

\[ \langle X_n, \beta \rangle = \int X_n(t) \beta(t) \, dt = \sum_{k=1}^K \beta_k X_{nk}, \]

여기서 \(X_{nk} = \langle X_n, B_k \rangle = \int X_n(t) B_k(t) \, dt\) — 데이터 의존 스칼라.

따라서 모형:

\[ \eta_n \approx \alpha + \sum_{k=1}^K x_{nk} \beta_k. \]

이는 표준 다변량 GLM 형태. \(K\) 가 작으면 (BIC, AIC, CV 로 선택) glm 직접 적용. \(K\) 가 크면 (예: 30~50) 거칠기 벌점 추가.

7.5 벌점 우도

벌점화된 로그 우도:

\[ \ell_\lambda(\boldsymbol{\beta}) = \ell(\boldsymbol{\beta}) - \frac{\lambda}{2} \int [(L\beta)(t)]^2 \, dt, \]

여기서 \(L\) 은 미분 연산자 (보통 \(L\beta = \beta''\)), \(\lambda\) 는 매끄러움 모수.

기저 전개 대입 후:

\[ \int [(L\beta)(t)]^2 \, dt = \boldsymbol{\beta}^T \mathbf{R} \boldsymbol{\beta}, \]

\(\mathbf{R}\) 은 거칠기 행렬 (5.2 와 동일).

7.6 직관: GLM 의 ridge 일반화

표준 GLM 에 ridge 페널티 \(\lambda \|\boldsymbol{\beta}\|^2\) 를 추가하는 것 — glmnet 의 표준 기능. 함수 GLM 의 거칠기 벌점은 같은 ridge 의 변형 — 항등 행렬 대신 거칠기 행렬 \(\mathbf{R}\) 을 사용.

이는 5.2 에서 본 함수-on-스칼라 회귀의 정칙화와 같은 구조이며, GLM 으로 자연스럽게 확장된다.

7.7 추정 알고리즘

벌점 IRLS (penalized IRLS) — 표준 IRLS 의 각 단계에서 가중 LS 대신 가중 ridge LS:

\[ \boldsymbol{\beta}^{(t+1)} = (\mathbf{X}^T \mathbf{W}^{(t)} \mathbf{X} + \lambda \mathbf{R})^{-1} \mathbf{X}^T \mathbf{W}^{(t)} \mathbf{z}^{(t)}. \]

refund::pfr 가 이를 자동 처리. 매끄러움 모수 \(\lambda\) 는 REML 또는 GCV 로 자동 선택.

7.8 R 코드: refund::pfr

library(refund)

# 1. DTI 데이터: corpus callosum FA 프로파일 → MS 분류
data(DTI)
Y <- DTI$case      # 0/1 binary
X <- DTI$cca       # corpus callosum (n x M 행렬)
N <- dim(X)[1]; M <- dim(X)[2]
time <- seq(0, 1, length = M)

# 2. pfr 으로 스칼라-on-함수 GLM
Xdata <- data.frame(X = X)
fit_glm <- pfr(Y ~ lf(X, argvals = time, k = 30, bs = "ps"),
               family = binomial(link = "logit"),
               data = Xdata)

# lf(): linear function — 함수 회귀자 표시
# k = 30: 기저 함수 수
# bs = "ps": P-spline (벌점 B-spline)

# 3. 결과 시각화
plot(fit_glm, xlab = "t", ylab = expression(hat(beta)(t)),
     main = "MS prediction from CCA FA profile")
summary(fit_glm)

7.9 직관: family 인자 한 줄로 GLM 활성화

pfr 호출에서 단 하나의 변경 — family = binomial(link = "logit") — 으로 함수 GLM 이 활성화. 적합 알고리즘은 mgcv 위에 구축되어 자동 처리.

이 단순성이 refund 의 큰 장점 — 사용자는 분포와 링크만 지정하면 모든 추정 세부사항이 자동.

8 두 추정 접근의 비교

8.1 표 정리

측면	접근 (A) FPC + glm	접근 (B) 기저 + 벌점 (pfr)
기저	EFPC (데이터 기반)	결정적 (B-spline 등)
모수 수	작음 (\(p \sim 5\))	큼 (\(K \sim 30\))
정칙화	절단 (PC 수 선택)	벌점 (연속 수축)
모수 선택	\(p\) — BIC/AIC/CV	\(\lambda\) — REML/GCV
다공선성	자동 분해 (PC 비상관)	벌점이 흡수
해석	\(\beta\) 가 PC 의 합	\(\beta\) 가 매끄러운 함수
계산	매우 빠름	빠름 (mgcv)
R 도구	`pca.fd` + `glm`	`refund::pfr` + `lf()`

8.2 어떤 접근을 쓰는가

접근 선택 가이드

상황	권장 접근
데이터에 강한 주성분 구조	(A) FPC — 적은 PC 로 효율
회귀 함수 \(\beta(t)\) 가 매끄러운 형태	(B) 벌점 — 매끄러움 자동 강제
빠른 baseline 필요	(A) FPC — 표준 `glm`
추론 (신뢰 구간·검정) 강조	(B) 벌점 — REML 의 mixed model 활용
작은 표본 (\(N < 50\))	(A) FPC — 모수 적게

실무에서는 두 접근을 모두 시도하고 결과를 비교 — 일치하면 견고함의 증거. 결과가 크게 다르면 어느 접근이 데이터의 신호를 잘 잡는지 더 깊이 검토.

8.3 직관: 두 접근의 본질적 동일성

두 접근 모두 무한차원 모수 \(\beta\) 를 유한 차원으로 정칙화 — Ch.4 에서 본 framework 와 같다. 차이는 정칙화 양식 (절단 vs 수축) 과 기저 선택 (데이터 기반 vs 결정적) 만.

이 일관성이 함수 회귀 framework 의 우아함이며, GLM 으로의 확장에서도 유지된다.

9 두 절의 통합 시각

9.1 한 줄 요약

표준 GLM 은 지수 기울이기로 정의된 지수족 분포에 링크 함수 \(\eta = g(\mu) = \mathbf{X}^T\boldsymbol{\beta}\) 를 결합한 framework 이며, MLE 는 추정 방정식 (식 6.6) 을 IRLS 로 푼다. 스칼라-on-함수 GLM 은 이 framework 에 함수 적분 변환을 결합한 것 (\(\eta_n = \alpha + \int X_n \beta\)) 으로, Ch.4 의 다공선성 문제가 동일하게 등장한다. FPC 점수 + 표준 glm 또는 기저 전개 + 거칠기 벌점 (refund::pfr) 의 두 접근으로 추정한다.

9.2 Ch.4·Ch.5 와의 비교

측면	Ch.4 (스칼라-on-함수 LS)	Ch.5 (함수 반응 LS)	Ch.6.1~6.2 (스칼라-on-함수 GLM)
반응 분포	정규	정규	임의 지수족
링크	identity	identity	logit·log·probit·…
추정	LS / 거칠기 벌점 / FPC	LS / 거칠기 벌점 / FPC	MLE / 추정 방정식
식별	다공선성 + 정칙화	양방향 + 정칙화	다공선성 + 정칙화
R 함수	`pfr` (가우스)	`fosr`, `pffr`	`pfr` + family

핵심 변화: 분포와 링크의 일반화 + 추정이 LS → MLE 로 전환. 모형 설계의 직관(기저 전개·벌점·FPC) 은 동일.

9.3 Chapter 6 후속 절과의 연결

후속 절	6.1~6.2 의 도구를 어떻게 확장하는가
6.3 함수 반응 GLM	시점별 점별 GLM — 6.1 의 GLM 을 모든 \(t\) 에서 반복
6.4 refund pffr 구현	6.2 의 `pfr` 를 함수 반응으로 확장한 `pffr`
6.5 DTI 응용	6.2 의 스칼라-on-함수 probit GLM 을 MS 분류에 적용
6.6 무한차원 밀도 한계	6.1 의 가능도 framework 가 함수 차원에서 깨짐

6.1~6.2 의 framework 가 Ch.6 전체의 토대 — 후속 절은 모두 이 위에서 함수 반응으로의 확장과 실무 적용을 다룬다.

10 관련 주제

선행 지식

후속 주제

관련 개념

로지스틱 회귀 — 이항 GLM 의 표준 사례
포아송 회귀 — 카운트 GLM
Probit 모형 — 잠재 가우스 변수
IRLS 알고리즘 — GLM 추정의 표준 알고리즘
Ridge 회귀 — 거칠기 벌점의 다변량 원조
PCA 회귀 (PCR) — FPC 회귀의 다변량 원조