1 두 절의 역할
| 절 | 주제 | 핵심 도구 |
|---|---|---|
| 6.1 | 표준 GLM 의 배경 | 지수족·링크 함수·추정 방정식 |
| 6.2 | 스칼라-on-함수 GLM | 적분 변환 + GLM 결합, FPC 또는 기저 전개 추정 |
6.1 은 함수 GLM 으로 가기 전 표준 다변량 GLM 의 핵심 framework 를 압축 정리. 지수족 밀도의 일반 형태, 평균-분산 관계, 링크 함수의 역할, MLE 의 추정 방정식 — 모두 후속 절에서 함수 일반화의 토대가 된다.
6.2 는 스칼라 반응 + 함수 회귀자의 결합 — Ch.4 의 적분 변환에 6.1 의 링크 함수를 한 겹 추가한 형태. 다공선성 문제(Ch.4.3)는 동일 하므로 같은 정칙화 도구(FPC, 기저 전개 + 벌점) 를 재사용한다. 차이는 추정이 LS 가 아닌 MLE.
두 절을 합치면 “가장 단순한 함수 GLM = 표준 GLM 의 적분 변환 일반화” 의 그림이 완성된다.
2 지수족 (Exponential Family)
2.1 지수 기울이기 (Exponential Tilting) 로의 정의
기본 측도 \(\mu\) (Lebesgue 또는 counting) 위의 기준 밀도 \(f_0(y)\) 와 그 적률 생성 함수
\[ M(\theta) = \int e^{\theta x} f_0(x) \, d\mu(x) \]
가 원점을 포함한 구간 \(\Theta\) 에서 유한이라 가정. 새 밀도 가족 을 다음과 같이 정의:
\[ f(y \mid \theta) = f_0(y) \exp\{\theta y - b(\theta)\}, \tag{6.1} \]
여기서 \(b(\theta) = \log M(\theta)\) — 누적률 생성 함수 (cumulant generating function).
2.2 직관: 지수 기울이기의 의미
\(f_0(y)\) 가 한 “기준 분포” 라면, 가중치 \(e^{\theta y}\) 는 큰 \(y\) 에 더 큰 확률, 작은 \(y\) 에 작은 확률 을 부여한다 (양 \(\theta\) 일 때). 음 \(\theta\) 면 반대.
정규화 상수 \(b(\theta) = \log M(\theta)\) 가 전체 적분을 1 로 유지 — \(\int f(y|\theta) \, d\mu = M(\theta) / M(\theta) = 1\).
이 단순 기법으로 모든 지수족 멤버 (정규, 이항, 포아송, 감마, 음이항 등) 가 한 가지 기준에서 파생된다 — 기울이기 모수 \(\theta\) 가 분포 가족 내의 한 멤버를 결정.
2.3 비유: 같은 음악의 다른 EQ 설정
기준 음악 \(f_0\) 가 같지만, EQ(이퀄라이저) 의 슬라이더 \(\theta\) 를 조절하면 베이스 강조(\(\theta < 0\)) 또는 고음 강조(\(\theta > 0\)) 의 다른 사운드. 지수족도 같은 구조 — 한 기준 분포에서 한 모수(\(\theta\)) 만으로 가족 전체 를 생성.
2.4 분산 모수까지 포함한 일반 형태
분산 모수 \(\phi\) 를 추가하면 지수족의 표준 형태:
\[ f(y \mid \theta, \phi) = \exp\left\{ \frac{\theta y - b(\theta)}{a(\phi)} + c(y, \phi) \right\}. \tag{6.2} \]
| 모수 | 역할 | 통상적 의미 |
|---|---|---|
| \(\theta\) | 자연 모수 (canonical parameter) | 분포 가족 내 위치 |
| \(\phi\) | 분산 모수 (dispersion) | 잡음 척도 |
| \(b(\theta)\) | 누적률 생성 함수 | 평균·분산 결정 |
| \(a(\phi)\) | 분산 척도 함수 | 보통 \(a(\phi) = \phi\) |
| \(c(y, \phi)\) | 정규화 (분포 모양) | \(\theta\) 무관 |
2.5 정규 분포 예시 (Example 6.1.1)
기준 밀도 \(f_0(x) = (2\pi)^{-1/2} e^{-x^2/2}\) (표준 정규). 적률 생성 함수 \(M(\theta) = e^{\theta^2/2}\), 따라서 \(b(\theta) = \theta^2/2\).
지수 기울이기:
\[ f(x \mid \theta) = \frac{1}{\sqrt{2\pi}} \exp\left\{-\frac{x^2}{2} + \theta x - \frac{\theta^2}{2}\right\} = \frac{1}{\sqrt{2\pi}} \exp\left\{-\frac{(x-\theta)^2}{2}\right\} = N(\theta, 1). \]
분산 모수 \(\phi = \sigma^2\) 를 추가하여 일반 정규 분포 \(N(\mu, \sigma^2)\):
\[ f(x \mid \theta, \phi) = \exp\left\{ \frac{\theta x - \theta^2/2}{\phi} - \frac{x^2}{2\phi} - \frac{1}{2}\log(2\pi\phi) \right\}. \]
식 (6.2) 와 비교:
\[ b(\theta) = \theta^2/2, \quad a(\phi) = \phi, \quad c(x, \phi) = -\frac{x^2}{2\phi} - \frac{1}{2}\log(2\pi\phi). \]
2.6 직관: 정규 분포가 가장 단순한 GLM 멤버
\(b(\theta) = \theta^2/2\) — 2 차 다항식. 이의 미분 \(b'(\theta) = \theta\) — 자연 모수와 평균이 일치. 2 차 미분 \(b''(\theta) = 1\) — 분산이 모든 \(\theta\) 에서 같음.
이 단순한 \(b\) 형태가 정규 분포의 모든 좋은 성질(가장 단순한 추정 방정식, identity 정규 링크 등) 의 원인이다.
2.7 이항 분포 예시 (Example 6.1.2)
\(X \sim \text{Bin}(n, p)\) 의 밀도:
\[ f(x \mid p) = \binom{n}{x} p^x (1-p)^{n-x}. \]
\(\theta = \text{logit}(p) = \log(p/(1-p))\) 로 변환하면 \(p = e^\theta/(1+e^\theta)\), \(1-p = 1/(1+e^\theta)\):
\[ f(x \mid \theta) = \exp\{x \theta - n \log(1 + e^\theta)\} \binom{n}{x}. \]
식 (6.2) 와 비교:
\[ b(\theta) = n \log(1 + e^\theta), \quad c(x) = \log \binom{n}{x}. \]
2.8 직관: logit 가 자연 모수인 이유
확률 \(p \in (0, 1)\) 은 제한된 영역. \(\text{logit}(p) = \log(p/(1-p))\) 가 이를 \(\mathbb{R}\) 전체로 펼친다 — 자연 모수 \(\theta\) 의 영역이 항상 \(\mathbb{R}\) (또는 그 부분 구간) 인 것이 GLM 의 일관된 패턴.
자연 모수가 \(\mathbb{R}\) 에 있다는 사실이 회귀 분석의 자연스러운 출발점 — 회귀자의 선형 결합이 자동으로 \(\theta\) 의 영역에 머문다.
3 평균과 분산: 식 (6.3)
3.1 핵심 관계식
지수족 (6.2) 의 \(Y\) 에 대해:
\[ E[Y] = \mu = b'(\theta), \quad \text{Var}[Y] = a(\phi) b''(\theta). \tag{6.3} \]
3.2 유도 스케치
\(f(y|\theta,\phi)\) 를 \(y\) 로 미분 후 적분 (모수 미분과 적분 교환):
\[ 0 = \frac{d}{d\theta} \int f(y|\theta,\phi) \, dy = \int \frac{y - b'(\theta)}{a(\phi)} f(y|\theta,\phi) \, dy = \frac{E[Y] - b'(\theta)}{a(\phi)}, \]
따라서 \(E[Y] = b'(\theta)\).
분산은 비슷한 방식으로 — \(\frac{d^2}{d\theta^2}\) 적용 + Cauchy-Schwarz.
3.3 정규·이항·포아송 검증
| 분포 | \(b(\theta)\) | \(b'(\theta)\) = \(\mu\) | \(b''(\theta)\) |
|---|---|---|---|
| 정규 | \(\theta^2/2\) | \(\theta = \mu\) | \(1\) → Var = \(\sigma^2\) |
| 이항 (n 시행) | \(n \log(1+e^\theta)\) | \(np\) | \(np(1-p)\) |
| 포아송 | \(e^\theta\) | \(e^\theta = \lambda\) | \(e^\theta = \lambda\) → Var = \(\lambda\) |
3.4 직관: \(b\) 가 모든 정보를 담는다
식 (6.3) 의 가장 강력한 메시지:
누적률 생성 함수 \(b(\theta)\) 의 1·2 차 미분만으로 평균과 분산이 결정.
이 일관된 구조 덕에 GLM 의 모든 추정·검정 절차가 분포에 무관하게 동일한 형태로 표현 가능. 단지 \(b\) 의 형태만 분포마다 다를 뿐.
이는 통계학 이론의 가장 우아한 결과 중 하나 — 하나의 framework 가 정규·이항·포아송·감마 등 모든 흔한 분포를 통합 한다.
3.5 비유: 자동차의 변속기
다른 종류의 자동차(분포) 도 같은 변속기(추정 방정식 framework) 를 사용. 차이는 엔진의 사양(\(b\) 함수) 뿐 — 변속 메커니즘은 동일.
4 링크 함수와 GLM
4.1 모수의 세 층위
GLM 은 세 종류의 모수가 변환으로 연결된 구조:
\[ \eta = g(\mu), \quad \mu = b'(\theta), \quad \implies \quad \eta = g(b'(\theta)). \]
| 모수 | 의미 | 영역 | 회귀 |
|---|---|---|---|
| \(\theta\) | 자연 모수 | \(\Theta \subseteq \mathbb{R}\) | 추정 대상 |
| \(\mu\) | 평균 | 분포의 자연 영역 | 예측 대상 |
| \(\eta\) | 선형 예측자 (linear predictor) | \(\mathbb{R}\) | 회귀자의 선형 결합 |
4.2 GLM 의 핵심 가정 (식 6.4)
\[ \eta = \sum_{i=1}^p x_i \beta_i = \mathbf{X}^T \boldsymbol{\beta}. \]
\(\eta\) 가 회귀자에 선형 — 단, 평균 \(\mu\) 자체가 아니라 변환된 \(\eta\).
4.3 직관: 왜 \(\eta\) 만 선형 가정?
이항 회귀 예: 확률 \(p \in [0, 1]\). \(p = \beta_0 + \beta_1 x\) 로 직접 선형 회귀하면 큰 \(|x|\) 에 대해 \(p > 1\) 또는 \(p < 0\) — 확률 정의 위배.
logit 변환 후 \(\eta = \text{logit}(p) = \beta_0 + \beta_1 x\) — 이는 \(\mathbb{R}\) 전체에서 자연스럽고, 역변환 \(p = e^\eta/(1+e^\eta)\) 가 자동으로 \([0, 1]\) 에 매핑.
링크 함수는 “평균의 자연 영역” 과 “선형 회귀의 무한 영역” 사이의 다리.
4.4 정규(canonical) 링크
\(g = (b')^{-1}\) 을 선택하면 \(\eta = \theta\) — 자연 모수와 선형 예측자가 일치. 이를 정규 링크 라 한다.
| 분포 | \(b(\theta)\) | \(b'(\theta) = \mu\) | 정규 링크 \(g\) |
|---|---|---|---|
| 정규 | \(\theta^2/2\) | \(\theta\) | identity |
| 이항 | \(n \log(1+e^\theta)\) | \(\frac{n e^\theta}{1+e^\theta} = np\) | logit |
| 포아송 | \(e^\theta\) | \(e^\theta = \lambda\) | log |
| 감마 | \(-\log(-\theta)\) | \(-1/\theta\) | inverse |
4.5 직관: 정규 링크가 자연스러운 이유
정규 링크 사용 시 추정 방정식이 가장 단순한 형태 — \(\sum (Y_n - \mu_n) X_n = \mathbf{0}\) — 가 된다. 표준 OLS 정규 방정식과 같은 형태.
다른 링크(예: probit) 도 가능하지만 추정 방정식이 더 복잡 (식 6.6 의 \(\mu'/V\) 항이 1 이 아님). 실무에서는 이항: logit, 포아송: log, 정규: identity, 감마: log 또는 inverse 가 사실상 표준.
4.6 비교: probit vs logit (이항)
이항 회귀의 두 흔한 링크:
| 링크 | 정의 | 정규? |
|---|---|---|
| logit | \(g(p) = \log(p/(1-p))\) | 정규 (canonical) |
| probit | \(g(p) = \Phi^{-1}(p)\) | 비정규 |
logit: 해석적 우아함 (오즈비 해석), 계산 용이. probit: 잠재 변수 해석 — \(Y = \mathbb{1}\{Z > 0\}\) where \(Z \sim N(\mathbf{X}^T\boldsymbol{\beta}, 1)\). 6.4 절의 시뮬레이션이 이 잠재 변수 접근 사용.
두 링크의 점추정 결과는 매우 비슷하지만 (확률적으로 거의 동일한 모형), 해석과 시뮬레이션 편의성에서 차이.
5 MLE 추정 방정식
5.1 로그 우도
iid 표본 \(\{(X_n, Y_n)\}\) 에서 우도:
\[ L(\boldsymbol{\beta}) = \prod_{n=1}^N f(Y_n \mid \theta_n, \phi) = \exp\left\{ \sum_n \frac{\theta_n Y_n - b(\theta_n)}{a(\phi)} + \sum_n c(Y_n, \phi) \right\}, \]
여기서 \(\theta_n = \theta_n(\boldsymbol{\beta})\) 는 회귀자에 의존.
5.2 점수 방정식
\(\boldsymbol{\beta}\) 에 대한 로그 우도의 미분 (점수 함수, score function):
\[ \frac{\partial \ell}{\partial \boldsymbol{\beta}} = \sum_n \frac{\partial \theta_n}{\partial \boldsymbol{\beta}} \cdot \frac{Y_n - b'(\theta_n)}{a(\phi)} = \sum_n \frac{\partial \theta_n}{\partial \boldsymbol{\beta}} \cdot \frac{Y_n - \mu_n}{a(\phi)}. \]
5.3 \(\partial \theta_n / \partial \boldsymbol{\beta}\) 의 계산
\(\theta_n = (b')^{-1}(g^{-1}(\mathbf{X}_n^T \boldsymbol{\beta}))\). 연쇄 법칙:
\[ \frac{\partial \theta_n}{\partial \boldsymbol{\beta}} = [(b')^{-1}]'(g^{-1}(\mathbf{X}_n^T \boldsymbol{\beta})) \cdot [g^{-1}]'(\mathbf{X}_n^T \boldsymbol{\beta}) \cdot \mathbf{X}_n. \]
평균/분산 함수 \(\mu(\eta) = g^{-1}(\eta)\), \(V(\mu) = a(\phi) b''(b'^{-1}(\mu))\) 도입하면 (몇 단계 정리):
\[ \frac{\partial \theta_n}{\partial \boldsymbol{\beta}} = \frac{\mu'(\mathbf{X}_n^T \boldsymbol{\beta})}{V(\mu(\mathbf{X}_n^T \boldsymbol{\beta}))} \mathbf{X}_n. \tag{6.5} \]
5.4 추정 방정식 (식 6.6)
점수 방정식 = 0 (MLE 의 1 차 조건):
\[ \boxed{ S(\boldsymbol{\beta}) := \sum_{n=1}^N \frac{\mu'(\mathbf{X}_n^T \boldsymbol{\beta})}{V(\mu(\mathbf{X}_n^T \boldsymbol{\beta}))} \mathbf{X}_n (Y_n - \mu(\mathbf{X}_n^T \boldsymbol{\beta})) = \mathbf{0}. } \]
이를 Newton-Raphson 또는 IRLS(iteratively reweighted least squares) 로 수치 해.
5.5 직관: 두 가지 비표준 요소
표준 OLS 정규 방정식 \(\sum (Y_n - \mathbf{X}_n^T \boldsymbol{\beta}) \mathbf{X}_n = \mathbf{0}\) 와 비교하면 GLM 추정 방정식은 두 추가 요소.
| 요소 | 의미 | 정규 분포에서? |
|---|---|---|
| \(\mu'(\mathbf{X}_n^T \boldsymbol{\beta})\) | 링크의 비선형성 보정 | identity 링크면 1 |
| \(1/V(\mu)\) | 분산이 평균에 의존함을 반영 | 정규면 \(1/\sigma^2\) (상수) |
따라서 OLS = (정규 분포 + identity 링크 + 동분산) 의 특수 경우 이며, GLM 의 가장 단순한 멤버.
5.6 비유: 가중 최소제곱 + 비선형 변환
표준 OLS 가 모든 관측에 같은 가중치를 주고 평균을 직접 모델링한다면, GLM 추정 방정식은:
- 각 관측에 평균-의존 가중치 \(\mu'/V\) — 큰 평균에서 분산이 큰 분포(포아송·감마)에서 자동으로 그 관측의 영향력 조정.
- 비선형 변환 후 잔차 — \(Y_n - \mu(\mathbf{X}_n^T\boldsymbol{\beta})\) 가 변환된 평균과의 차.
같은 OLS 의 방정식 형태이지만, 두 추가 요소로 분포의 비정규성과 링크의 비선형성을 처리.
5.7 IRLS 알고리즘
Newton-Raphson 의 GLM 특수 형태:
- 초기값 \(\boldsymbol{\beta}^{(0)}\) 설정 (보통 LS 추정값).
- 반복 \(t = 0, 1, 2, \ldots\):
- 작업 가중치 \(w_n^{(t)} = \mu'(\mathbf{X}_n^T \boldsymbol{\beta}^{(t)})^2 / V(\mu(\mathbf{X}_n^T \boldsymbol{\beta}^{(t)}))\).
- 작업 반응 \(z_n^{(t)} = \mathbf{X}_n^T \boldsymbol{\beta}^{(t)} + (Y_n - \mu_n^{(t)})/\mu'(\mathbf{X}_n^T \boldsymbol{\beta}^{(t)})\).
- 가중 LS: \(\boldsymbol{\beta}^{(t+1)} = (\mathbf{X}^T \mathbf{W}^{(t)} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W}^{(t)} \mathbf{z}^{(t)}\).
- 수렴 시 정지 (보통 \(\|\boldsymbol{\beta}^{(t+1)} - \boldsymbol{\beta}^{(t)}\| < \epsilon\)).
R 의 glm 함수가 이 알고리즘을 자동 실행. 사용자는 family 인자로 분포와 링크만 지정하면 된다.
5.8 직관: IRLS = “가중 OLS 의 반복”
GLM 의 어려움 — 비선형성과 평균-의존 분산 — 을 각 단계에서 가중 OLS 로 환원. 가중치가 추정값에 의존하므로 반복적으로 갱신.
이는 EM 알고리즘과 비슷한 사고 — 어려운 최적화를 일련의 쉬운 (closed-form 또는 LS) 단계로 분해.
6 스칼라-on-함수 GLM 의 정의
6.1 모형 식
스칼라 반응 \(Y_n\), 함수 회귀자 \(X_n: \mathcal{T} \to \mathbb{R}\) 에 대해:
\[ \eta_n := g(\mu_n) = \alpha + \int X_n(t) \beta(t) \, dt = \alpha + \langle X_n, \beta \rangle. \]
여기서:
- \(g\) — 알려진 링크 함수 (사용자 선택).
- \(\alpha \in \mathbb{R}\) — 절편.
- \(\beta: \mathcal{T} \to \mathbb{R}\) — 회귀 함수, 추정 대상인 함수 모수.
- \(\mu_n = E[Y_n]\) — 평균 (분포에 따라 다른 영역).
6.2 표준 GLM 과의 차이
식 (6.4) \(\eta = \mathbf{X}^T \boldsymbol{\beta}\) 에서 유한 차원 내적 \(\mathbf{X}^T \boldsymbol{\beta}\) 가 함수 내적 \(\langle X, \beta \rangle = \int X(t) \beta(t) \, dt\) 로 대체 된 것.
다른 모든 구조는 동일.
6.3 Ch.4 와의 비교
| 측면 | Ch.4 (스칼라-on-함수 LS) | Ch.6 (스칼라-on-함수 GLM) |
|---|---|---|
| 모형 | \(Y_n = \alpha + \int X_n \beta + \varepsilon_n\) | \(g(\mu_n) = \alpha + \int X_n \beta\) |
| 분포 | 정규 가정 | 임의 지수족 |
| 링크 | identity (암묵적) | logit·log·probit·… |
| 추정 | LS 정칙화 | MLE 추정 방정식 |
| 다공선성 | 식별 문제 (Ch.4.3) | 동일 — 정칙화 필요 |
| R 함수 | pfr (가우스 family) |
pfr + family 인자 |
핵심 변화: 반응의 분포와 링크 함수만 일반화, 함수 모수의 식별 문제와 정칙화 도구는 동일.
6.4 직관: 모형 구조의 분해
스칼라-on-함수 GLM 을 두 단계로 분해.
- 선형 예측자 계산 — \(\eta_n = \alpha + \int X_n(t) \beta(t) \, dt\). Ch.4 의 적분과 동일.
- 링크 역변환 — \(\mu_n = g^{-1}(\eta_n)\). 표준 GLM.
따라서 스칼라-on-함수 GLM = (Ch.4 의 적분 변환) + (표준 GLM 의 링크 함수). 두 framework 의 직렬 결합.
6.5 비유: 두 단계 파이프라인
- 1 단계 (적분 필터): 함수 회귀자가 회귀 함수와의 적분으로 한 스칼라 \(\eta\) 가 됨.
- 2 단계 (링크 역변환): \(\eta\) 가 링크 역변환으로 평균 \(\mu\) 가 됨.
각 단계가 표준 도구 — Ch.4 의 적분과 GLM 의 링크 — 로 구성된 파이프라인.
7 다공선성과 식별 문제
7.1 식별 문제의 재등장
Ch.4.3 에서 본 무한차원 다공선성 문제가 GLM 에서도 동일하게 나타난다. \(\beta(t)\) 가 무한차원이므로 정칙화 없이는 추정 불가.
해결책도 같다 — \(\beta(t)\) 의 자유도를 유한으로 제한:
| 접근 | 방법 | Ch.4 대응 |
|---|---|---|
| (A) FPC | \(X_n\) 의 첫 몇 EFPC 점수를 회귀자로 | §4.6 |
| (B) 기저 전개 + 벌점 | \(\beta(t) = \sum_k \beta_k B_k(t)\) + 거칠기 벌점 | §4.4, §4.5 |
7.2 접근 (A): FPC + 표준 glm
X_n 의 EFPC 추정 후 점수 \(\xi_{nj} = \langle X_n, \widehat{v}_j \rangle\) 를 회귀자로 사용:
\[ \eta_n \approx \alpha + \sum_{j=1}^p \xi_{nj} \widetilde{\beta}_j, \]
여기서 \(\widetilde{\beta}_j = \langle \beta, \widehat{v}_j \rangle\) — \(\beta\) 의 PC 방향 사영. 표준 다변량 GLM.
R 코드:
library(fda)
# 1. X_fd: 함수 회귀자의 fd 객체 (이미 평활됨)
# 2. EFPC 추정
X_pca <- pca.fd(X_fd, nharm = 5)
xi_scores <- X_pca$scores # N x 5
# 3. 표준 GLM 적용 (이항 반응 Y)
fit_pcr_glm <- glm(Y ~ xi_scores, family = binomial(link = "logit"))
summary(fit_pcr_glm)
# 4. 회귀 함수 재구성
beta_coefs <- coef(fit_pcr_glm)[-1] # 절편 제외
beta_recon <- t(beta_coefs) %*% t(eval.fd(seq(0, 1, length = 100),
X_pca$harmonics))
plot(seq(0, 1, length = 100), beta_recon, type = "l",
xlab = "t", ylab = expression(hat(beta)(t)),
main = "FPC-based GLM estimate of beta(t)")7.3 직관: FPC + GLM 의 단순함
이 접근은 함수 차원을 유한 차원으로 환원 후 표준 도구(glm) 를 그대로 사용 — 가장 단순하고 빠르다. EFPC 점수가 비상관이므로 다공선성도 자동 해결.
단점: \(\widehat{v}_j\) 가 \(X\) 의 변동만 반영, \(Y\) 와의 연관은 무시 — 가장 큰 분산을 가진 PC 가 \(Y\) 예측에 가장 유용하지 않을 수 있다 (“inverse problem in PCR”, Ch.4.6).
7.4 접근 (B): 기저 전개 + 벌점
\(\beta(t)\) 를 \(K\) 개 기저로 전개:
\[ \beta(t) \approx \sum_{k=1}^K \langle \beta, B_k \rangle B_k(t) = \sum_{k=1}^K \beta_k B_k(t). \]
함수 내적이 표준 다변량 내적으로 환원:
\[ \langle X_n, \beta \rangle = \int X_n(t) \beta(t) \, dt = \sum_{k=1}^K \beta_k X_{nk}, \]
여기서 \(X_{nk} = \langle X_n, B_k \rangle = \int X_n(t) B_k(t) \, dt\) — 데이터 의존 스칼라.
따라서 모형:
\[ \eta_n \approx \alpha + \sum_{k=1}^K x_{nk} \beta_k. \]
이는 표준 다변량 GLM 형태. \(K\) 가 작으면 (BIC, AIC, CV 로 선택) glm 직접 적용. \(K\) 가 크면 (예: 30~50) 거칠기 벌점 추가.
7.5 벌점 우도
벌점화된 로그 우도:
\[ \ell_\lambda(\boldsymbol{\beta}) = \ell(\boldsymbol{\beta}) - \frac{\lambda}{2} \int [(L\beta)(t)]^2 \, dt, \]
여기서 \(L\) 은 미분 연산자 (보통 \(L\beta = \beta''\)), \(\lambda\) 는 매끄러움 모수.
기저 전개 대입 후:
\[ \int [(L\beta)(t)]^2 \, dt = \boldsymbol{\beta}^T \mathbf{R} \boldsymbol{\beta}, \]
\(\mathbf{R}\) 은 거칠기 행렬 (5.2 와 동일).
7.6 직관: GLM 의 ridge 일반화
표준 GLM 에 ridge 페널티 \(\lambda \|\boldsymbol{\beta}\|^2\) 를 추가하는 것 — glmnet 의 표준 기능. 함수 GLM 의 거칠기 벌점은 같은 ridge 의 변형 — 항등 행렬 대신 거칠기 행렬 \(\mathbf{R}\) 을 사용.
이는 5.2 에서 본 함수-on-스칼라 회귀의 정칙화와 같은 구조이며, GLM 으로 자연스럽게 확장된다.
7.7 추정 알고리즘
벌점 IRLS (penalized IRLS) — 표준 IRLS 의 각 단계에서 가중 LS 대신 가중 ridge LS:
\[ \boldsymbol{\beta}^{(t+1)} = (\mathbf{X}^T \mathbf{W}^{(t)} \mathbf{X} + \lambda \mathbf{R})^{-1} \mathbf{X}^T \mathbf{W}^{(t)} \mathbf{z}^{(t)}. \]
refund::pfr 가 이를 자동 처리. 매끄러움 모수 \(\lambda\) 는 REML 또는 GCV 로 자동 선택.
7.8 R 코드: refund::pfr
library(refund)
# 1. DTI 데이터: corpus callosum FA 프로파일 → MS 분류
data(DTI)
Y <- DTI$case # 0/1 binary
X <- DTI$cca # corpus callosum (n x M 행렬)
N <- dim(X)[1]; M <- dim(X)[2]
time <- seq(0, 1, length = M)
# 2. pfr 으로 스칼라-on-함수 GLM
Xdata <- data.frame(X = X)
fit_glm <- pfr(Y ~ lf(X, argvals = time, k = 30, bs = "ps"),
family = binomial(link = "logit"),
data = Xdata)
# lf(): linear function — 함수 회귀자 표시
# k = 30: 기저 함수 수
# bs = "ps": P-spline (벌점 B-spline)
# 3. 결과 시각화
plot(fit_glm, xlab = "t", ylab = expression(hat(beta)(t)),
main = "MS prediction from CCA FA profile")
summary(fit_glm)7.9 직관: family 인자 한 줄로 GLM 활성화
pfr 호출에서 단 하나의 변경 — family = binomial(link = "logit") — 으로 함수 GLM 이 활성화. 적합 알고리즘은 mgcv 위에 구축되어 자동 처리.
이 단순성이 refund 의 큰 장점 — 사용자는 분포와 링크만 지정하면 모든 추정 세부사항이 자동.
8 두 추정 접근의 비교
8.1 표 정리
| 측면 | 접근 (A) FPC + glm | 접근 (B) 기저 + 벌점 (pfr) |
|---|---|---|
| 기저 | EFPC (데이터 기반) | 결정적 (B-spline 등) |
| 모수 수 | 작음 (\(p \sim 5\)) | 큼 (\(K \sim 30\)) |
| 정칙화 | 절단 (PC 수 선택) | 벌점 (연속 수축) |
| 모수 선택 | \(p\) — BIC/AIC/CV | \(\lambda\) — REML/GCV |
| 다공선성 | 자동 분해 (PC 비상관) | 벌점이 흡수 |
| 해석 | \(\beta\) 가 PC 의 합 | \(\beta\) 가 매끄러운 함수 |
| 계산 | 매우 빠름 | 빠름 (mgcv) |
| R 도구 | pca.fd + glm |
refund::pfr + lf() |
8.2 어떤 접근을 쓰는가
| 상황 | 권장 접근 |
|---|---|
| 데이터에 강한 주성분 구조 | (A) FPC — 적은 PC 로 효율 |
| 회귀 함수 \(\beta(t)\) 가 매끄러운 형태 | (B) 벌점 — 매끄러움 자동 강제 |
| 빠른 baseline 필요 | (A) FPC — 표준 glm |
| 추론 (신뢰 구간·검정) 강조 | (B) 벌점 — REML 의 mixed model 활용 |
| 작은 표본 (\(N < 50\)) | (A) FPC — 모수 적게 |
실무에서는 두 접근을 모두 시도하고 결과를 비교 — 일치하면 견고함의 증거. 결과가 크게 다르면 어느 접근이 데이터의 신호를 잘 잡는지 더 깊이 검토.
8.3 직관: 두 접근의 본질적 동일성
두 접근 모두 무한차원 모수 \(\beta\) 를 유한 차원으로 정칙화 — Ch.4 에서 본 framework 와 같다. 차이는 정칙화 양식 (절단 vs 수축) 과 기저 선택 (데이터 기반 vs 결정적) 만.
이 일관성이 함수 회귀 framework 의 우아함이며, GLM 으로의 확장에서도 유지된다.
9 두 절의 통합 시각
9.1 한 줄 요약
표준 GLM 은 지수 기울이기로 정의된 지수족 분포에 링크 함수 \(\eta = g(\mu) = \mathbf{X}^T\boldsymbol{\beta}\) 를 결합한 framework 이며, MLE 는 추정 방정식 (식 6.6) 을 IRLS 로 푼다. 스칼라-on-함수 GLM 은 이 framework 에 함수 적분 변환을 결합한 것 (\(\eta_n = \alpha + \int X_n \beta\)) 으로, Ch.4 의 다공선성 문제가 동일하게 등장한다. FPC 점수 + 표준 glm 또는 기저 전개 + 거칠기 벌점 (refund::pfr) 의 두 접근으로 추정한다.
9.2 Ch.4·Ch.5 와의 비교
| 측면 | Ch.4 (스칼라-on-함수 LS) | Ch.5 (함수 반응 LS) | Ch.6.1~6.2 (스칼라-on-함수 GLM) |
|---|---|---|---|
| 반응 분포 | 정규 | 정규 | 임의 지수족 |
| 링크 | identity | identity | logit·log·probit·… |
| 추정 | LS / 거칠기 벌점 / FPC | LS / 거칠기 벌점 / FPC | MLE / 추정 방정식 |
| 식별 | 다공선성 + 정칙화 | 양방향 + 정칙화 | 다공선성 + 정칙화 |
| R 함수 | pfr (가우스) |
fosr, pffr |
pfr + family |
핵심 변화: 분포와 링크의 일반화 + 추정이 LS → MLE 로 전환. 모형 설계의 직관(기저 전개·벌점·FPC) 은 동일.
9.3 Chapter 6 후속 절과의 연결
| 후속 절 | 6.1~6.2 의 도구를 어떻게 확장하는가 |
|---|---|
| 6.3 함수 반응 GLM | 시점별 점별 GLM — 6.1 의 GLM 을 모든 \(t\) 에서 반복 |
| 6.4 refund pffr 구현 | 6.2 의 pfr 를 함수 반응으로 확장한 pffr |
| 6.5 DTI 응용 | 6.2 의 스칼라-on-함수 probit GLM 을 MS 분류에 적용 |
| 6.6 무한차원 밀도 한계 | 6.1 의 가능도 framework 가 함수 차원에서 깨짐 |
6.1~6.2 의 framework 가 Ch.6 전체의 토대 — 후속 절은 모두 이 위에서 함수 반응으로의 확장과 실무 적용을 다룬다.
10 관련 주제
선행 지식
- FDA 1.0 — 개요
- FDA 3.0 — 함수 데이터의 수학적 프레임워크 개관
- FDA 4.0 — 스칼라-on-함수 회귀 개관
- FDA 4.5~4.6 — 거칠기 벌점 추정과 FPCA 회귀
- FDA 6.0 — 함수 일반화 선형 모형 개관
- GLM 기초 (이항·포아송·감마)
- 지수족 분포
후속 주제
관련 개념