Kwangmin Kim - FDA 4.1~4.2 — 응용 사례와 표준 다중 회귀 복습

1 이 포스트의 위치

./4-0-scalar-on-function-overview.qmd 에서 스칼라-on-함수 회귀의 전체 그림을 보았다 — 모형 정의, 식별 문제, 세 가지 추정 접근. 이 포스트는 그 출발점인 §4.1 응용 사례 와 §4.2 표준 다중 회귀 복습 을 상세히 다룬다.

§4.1 응용 사례
    ↓ 무엇을 풀려고 하는가 — 곡선 → 스칼라
세 데이터셋의 공통 구조 파악
    ↓
§4.2 표준 다중 회귀 복습
    ↓ 함수 회귀가 일반화할 토대
LS 추정량, 정규방정식, F-검정
    ↓
다음 포스트(§4.3): 표준 이론을 함수 환경으로 옮길 때 발생하는 난제

핵심 메시지: 표준 회귀 이론을 정확히 이해해야, §4.3 이후의 함수 회귀가 어디에서 표준 이론과 갈라지는지 보인다.

2 응용 사례 1: 가솔린 옥탄가 예측

2.1 데이터 구조

데이터: gasoline (refund package)

표본 크기: \(N = 60\) 가솔린 샘플
\(X_i(t)\): 근적외선(NIR) 스펙트럼 곡선 — 파장 \(t\) 에서의 흡광도
\(Y_i\): 옥탄가 (octane rating) — 화학 분석으로 측정한 정확한 값

옥탄가는 가솔린의 노킹 저항 정도를 나타내는 표준 품질 지표이다. 정확한 측정에는 시간과 비용이 든다.

2.2 분석의 비즈니스 동기

NIR 스펙트럼 측정은 빠르고 저렴 하지만 그 자체로는 옥탄가가 아니다. 화학 분석은 느리고 비싸다. 만약 함수 회귀로 “스펙트럼 → 옥탄가” 의 관계를 모형화할 수 있다면:

\[ Y_i \approx \widehat{\alpha} + \int \widehat{\beta}(t) X_i(t) \, dt \]

새 가솔린 샘플의 스펙트럼만 측정해도 옥탄가를 즉시 예측할 수 있다.

2.3 데이터의 통계적 특성

Kokoszka는 가솔린 데이터의 두 가지 비자명한 특성을 강조한다 (Kokoszka & Reimherr, 2017, §4.1):

곡선 간 차이가 작다: 60개 곡선의 형태가 거의 동일하게 보인다. 차이는 평균값 대비 작은 비율(~5%)이다.
차이의 위치가 핵심: 작은 차이가 어느 파장에서 발생하는지가 옥탄가 예측의 결정적 정보이다.

이는 함수 회귀의 전형적 어려움을 보여준다 — “곡선 전체가 비슷한데 특정 구간의 미세 차이가 결정적” 인 상황이다. 회귀 함수 \(\widehat{\beta}(t)\) 의 역할은 이 결정적 구간을 자동으로 식별하는 것이다.

2.4 비유: 향수 감별사

향수의 첫향(top), 중간향(heart), 잔향(base)은 거의 비슷하게 들리지만, 전문가는 특정 노트의 미묘한 차이로 브랜드를 구분한다. 가솔린 NIR 스펙트럼도 마찬가지 — 전체 곡선이 비슷해도 특정 파장대의 미묘한 흡광도 차이가 옥탄가의 정체성을 드러낸다. 회귀 함수 \(\beta(t)\) 는 “어느 파장대를 더 진중하게 들을지” 의 가중치이다.

3 응용 사례 2: Tecator 고기 샘플

3.1 데이터 구조

데이터: tecator (fda.usc package)

표본 크기: \(N = 215\) 고기 샘플
\(X_i(t)\): NIR 흡광 스펙트럼 (가솔린보다 짧은 파장대, 850~1050 nm)
\(Y_i\): 세 가지 스칼라 반응 — 지방(fat), 수분(water), 단백질(protein) 함량 (각각 % 단위)

3.2 세 반응 변수의 의미

각 고기 샘플에 대해 세 개의 화학 분석 결과가 있다. 통계적으로는 세 개의 별도 회귀:

\[ Y_i^{\text{fat}} = \int \beta^{\text{fat}}(t) X_i(t) \, dt + \varepsilon_i^{\text{fat}}, \]

\[ Y_i^{\text{water}} = \int \beta^{\text{water}}(t) X_i(t) \, dt + \varepsilon_i^{\text{water}}, \]

\[ Y_i^{\text{protein}} = \int \beta^{\text{protein}}(t) X_i(t) \, dt + \varepsilon_i^{\text{protein}}. \]

각 회귀 함수 \(\beta^{\text{fat}}, \beta^{\text{water}}, \beta^{\text{protein}}\) 는 서로 다른 모양 을 가진다 — 지방·수분·단백질이 NIR 스펙트럼의 다른 파장대에 영향을 주기 때문이다.

3.3 도함수의 활용

Kokoszka는 Tecator 데이터에서 흥미로운 관찰을 보고한다 — 원시 스펙트럼 \(X_i(t)\) 보다 추정된 1차 또는 2차 도함수 \(X_i'(t), X_i''(t)\) 가 더 명확한 차별 정보를 담는다 (§2.1의 미분 도구가 직접 등장).

이는 다음 회귀를 시사한다:

\[ Y_i = \int \beta_0(t) X_i(t) \, dt + \int \beta_1(t) X_i'(t) \, dt + \varepsilon_i. \]

또는 단순히 \(X_i\) 대신 \(X_i'\) 자체를 회귀자로 사용:

\[ Y_i = \int \widetilde{\beta}(t) X_i'(t) \, dt + \varepsilon_i. \]

3.4 비유: 가속도가 자동차의 정체를 드러냄

자동차의 GPS 위치만으로는 차종(스포츠카·세단·트럭)을 구분하기 어렵다. 그러나 가속도 패턴은 매우 다르다 — 스포츠카는 빠른 가속, 트럭은 완만한 가속. 도함수가 원시 곡선보다 더 많은 분류 정보를 담는 것이다. NIR 스펙트럼에서도 같은 원리 — 지방·수분의 차이가 흡광도의 변화율(도함수)에서 더 뚜렷하게 나타날 수 있다.

3.5 산업적 가치

Tecator 데이터의 분석 동기:

측면	화학 분석	NIR + 함수 회귀
시간	수십 분~수 시간	즉시
비용	시약·인력	거의 0
파괴 검사	예	아니오
산업 적용 가능성	샘플링 검사	100% 검사

비파괴·실시간 품질 측정은 식품 산업의 큰 가치이다 — 모든 제품에 적용 가능한 빠른 검사로 결함을 조기 발견한다.

4 응용 사례 3: DTI 뇌영상

4.1 데이터 구조

데이터: 다발성 경화증(MS) 환자의 확산 텐서 영상 (DTI)

\(X_i(t)\): 뇌량(corpus callosum)의 부분 비등방성(FA, fractional anisotropy) 트랙 프로파일
\(Y_i\): PASAT 점수 — Paced Auditory Serial Addition Test, 청각 정보 처리 속도 / 인지 기능 측정

4.2 FA의 의미

부분 비등방성 FA \(\in [0, 1]\) 는 뇌 백질 내 물 분자의 확산 방향성 정도를 나타낸다.

\(FA \approx 1\): 강한 방향성 — 신경섬유 다발이 정렬되어 있음 (건강한 백질)
\(FA \approx 0\): 무작위 확산 — 신경섬유 손상 (탈수초화)

뇌량의 길이 방향(약 0~1 정규화)을 따라 FA를 측정하면 한 곡선이 만들어진다. 이 곡선의 형태가 환자의 신경학적 상태를 반영한다.

4.3 PASAT의 의미

PASAT는 청각으로 들려주는 숫자를 머릿속으로 더하는 테스트이다. 빠른 처리 속도와 작업 기억을 동시에 요구한다. MS 환자에서 인지 저하의 표지로 사용된다.

4.4 임상적 가치

함수 회귀 \(\widehat{\beta}(t)\) 는 “뇌량의 어느 위치의 FA가 인지 기능과 가장 강하게 관련되는가” 를 드러낸다.

결과	임상적 의미
\(\widehat{\beta}(t) > 0\) on \([t_1, t_2]\)	그 구간 FA 증가 → PASAT 향상
\(\|\widehat{\beta}(t)\|\) 의 봉우리	인지에 결정적인 뇌량 위치
\(\widehat{\beta}(t) \approx 0\) on \([t_3, t_4]\)	그 구간은 인지와 무관

이는 단순한 예측을 넘어 신경과학적 발견 으로 이어진다. 다변량 회귀에서 \(\widehat{\boldsymbol{\beta}}\) 의 한 좌표는 “한 변수의 기여도” 만 알려주지만, 함수 \(\widehat{\beta}(t)\) 는 “공간적 패턴 전체” 를 드러낸다.

4.5 비유: 음악 vs 음표 하나

다변량 회귀가 “이 음표 하나가 곡에 얼마나 기여하는가” 를 묻는다면, 함수 회귀는 “곡의 어느 마디가 가장 중요한가” 를 묻는다. 마디 단위의 패턴이 음표 하나의 기여를 넘어선 정보를 준다.

5 세 사례의 통합 시각

5.1 공통 패턴

분야	\(X(t)\)	\(Y\)	회귀의 가치
분광학 (가솔린)	NIR 스펙트럼	옥탄가	빠른·저렴한 품질 측정
식품공학 (Tecator)	NIR 스펙트럼	지방·수분·단백질	비파괴 100% 검사
신경과학 (DTI)	FA 트랙	PASAT 점수	영상 기반 인지 평가

세 사례 모두 동일 통계 과제이다 — “전체 곡선 형태로부터 한 숫자를 예측.” 다른 점은 분야와 곡선의 의미일 뿐, 수학적 framework는 같다.

5.2 한 줄 통찰

스칼라-on-함수 회귀가 매력적인 이유는 곡선이 측정하기 쉽고 라벨이 측정하기 어려운 환경에서 자연스럽게 등장하기 때문이다. 분광학·영상·시계열 모두 이 패턴을 따른다.

측정 비대칭	응용
곡선은 쉽고 라벨은 어렵다	분광학·DTI
곡선은 연속이고 라벨은 이산	분류 (Ch.6)
곡선은 노이즈, 라벨은 정확	거의 모든 과학

6 표준 다중 회귀 복습

6.1 왜 §4.2가 필요한가

스칼라-on-함수 회귀를 이해하려면 먼저 표준 다중 회귀 가 어디에서 무엇을 가정하는지 정확히 알아야 한다. §4.3에서 함수 회귀의 어려움을 분석할 때, “표준 회귀의 이 가정이 함수 환경에서 어떻게 깨지는가” 의 형태로 진행하기 때문이다.

이 절은 통계 입문 교과서의 내용이지만, 함수 일반화의 출발점으로 다시 읽으면 의미가 다르다.

6.2 모형

다중 선형 회귀:

\[ y_i = x_{i1} \beta_1 + x_{i2} \beta_2 + \cdots + x_{ip} \beta_p + \varepsilon_i, \quad i = 1, 2, \ldots, N. \]

가정:

\(y_i \in \mathbb{R}\): 반응 변수
\(x_{ij} \in \mathbb{R}\): 회귀자 (\(i\) 번째 관측의 \(j\) 번째 변수)
\(\beta_j \in \mathbb{R}\): 회귀 계수
\(\varepsilon_i\): 평균 0, 분산 \(\sigma_\varepsilon^2\) 의 잡음

6.3 행렬 표기

\(N\) 개 관측과 \(p\) 개 회귀자를 행렬로:

\[ \mathbf{Y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{bmatrix}, \quad \mathbf{X} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{N1} & x_{N2} & \cdots & x_{Np} \end{bmatrix}, \quad \boldsymbol{\beta} = \begin{bmatrix} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_p \end{bmatrix}, \quad \boldsymbol{\varepsilon} = \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_N \end{bmatrix}. \]

모형이 단 한 줄로:

\[ \mathbf{Y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}. \]

6.4 최소제곱 추정량

LS 추정량은 잔차 제곱합 \(\|\mathbf{Y} - \mathbf{X} \boldsymbol{\beta}\|^2\) 를 최소화한다.

정리: LS 추정량

\(\mathbf{X}\) 의 열들이 선형 독립이면 (\(\text{rank}(\mathbf{X}) = p\)):

\[ \widehat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y}. \]

6.5 정사영을 통한 기하적 유도

LS의 본질은 기하이다. \(\mathbf{X}\) 의 열공간 \(L_X = \{\mathbf{X}\boldsymbol{\beta}: \boldsymbol{\beta} \in \mathbb{R}^p\}\) 는 \(\mathbb{R}^N\) 의 \(p\) 차원 부분공간이다. LS는 \(\mathbf{Y}\) 를 이 부분공간 위로 정사영한다.

\[ \widehat{\boldsymbol{\theta}} = \mathbf{X} \widehat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\theta} \in L_X} \|\mathbf{Y} - \boldsymbol{\theta}\|^2. \]

정사영 정리(§3.1의 직교성)에 의해 잔차 \(\mathbf{Y} - \widehat{\boldsymbol{\theta}}\) 는 \(L_X\) 와 직교한다:

\[ \mathbf{X}^T (\mathbf{Y} - \widehat{\boldsymbol{\theta}}) = \mathbf{0}. \]

이를 풀면 정규방정식:

\[ \mathbf{X}^T \mathbf{X} \widehat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{Y}. \]

6.6 직관: 그림자의 길이를 최소화

\(\mathbf{Y}\) 라는 점이 3차원 공간에 있고, 평면 \(L_X\) 가 그 공간 안에 있다고 하자. \(L_X\) 위에서 \(\mathbf{Y}\) 에 가장 가까운 점은 \(\mathbf{Y}\) 에서 평면으로 수직선을 내린 발이다. 발에서 점까지의 거리가 잔차의 노름이다.

회귀의 기하학적 의미: “\(\mathbf{Y}\) 의 그림자를 \(\mathbf{X}\) 의 평면 위에 수직으로 떨어뜨리는 작업.”

6.7 정사영의 알아 두면 유용한 사실

\(\widehat{\boldsymbol{\theta}} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T \mathbf{Y} = \mathbf{H} \mathbf{Y}\), 여기서 \(\mathbf{H}\) 가 모자(hat) 행렬.
\(\mathbf{H}^2 = \mathbf{H}\), \(\mathbf{H}^T = \mathbf{H}\) (정사영의 두 정의 성질).
\(\text{rank}(\mathbf{H}) = \text{tr}(\mathbf{H}) = p\) (회귀자 수와 같음).

6.8 모집단 시각

LS 추정량의 모집단 대응:

\[ \boldsymbol{\beta} = \mathbf{C}_X^{-1} \mathbf{C}_{XY}, \]

여기서:

\[ \mathbf{C}_X = E[\mathbf{X} \mathbf{X}^T] \in \mathbb{R}^{p \times p}, \quad \mathbf{C}_{XY} = E[\mathbf{X} Y] \in \mathbb{R}^p. \]

표본 추정량:

\[ \widehat{\mathbf{C}}_X = N^{-1} \mathbf{X}^T \mathbf{X}, \quad \widehat{\mathbf{C}}_{XY} = N^{-1} \mathbf{X}^T \mathbf{Y}. \]

이를 대입하면 정확히 LS 공식 \(\widehat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y}\) 가 나온다.

왜 이 형태가 중요한가: 함수 일반화에서 \(\mathbf{C}_X\) 가 공분산 함수 \(c_X(t, s)\), \(\mathbf{C}_{XY}\) 가 cross-covariance 함수 \(c_{XY}(t)\) 로 직접 일반화된다 (§4.3에서 다룸). 행렬 곱·행렬 역이 적분 변환·연산자 역으로 자연스럽게 확장된다.

6.9 LS의 좋은 성질

표준 가정 하에서 LS 추정량은:

불편성: \(E[\widehat{\boldsymbol{\beta}}] = \boldsymbol{\beta}\).
최소 분산 (가우스-마르코프 정리): 선형 불편 추정량 중 최소 분산.
일치성 (sample size \(N \to \infty\)): \(\widehat{\boldsymbol{\beta}} \to^P \boldsymbol{\beta}\), 다음 두 조건 하에서:
- \(N^{-1} \mathbf{X}^T \mathbf{X} \to \boldsymbol{\Sigma}_X\) (어떤 양정치 행렬).
- \(N^{-1} \mathbf{X}^T \boldsymbol{\varepsilon} \to^P \mathbf{0}\) (대수의 법칙).
점근 정규성: \(\sqrt{N}(\widehat{\boldsymbol{\beta}} - \boldsymbol{\beta}) \to^d N(\mathbf{0}, \sigma_\varepsilon^2 \boldsymbol{\Sigma}_X^{-1})\).

6.10 함수 회귀에서 무엇이 바뀌는가 (미리보기)

§4.3에서 보겠지만, 함수 회귀에서는 다음이 깨진다:

표준 가정	함수 환경에서의 운명
\(\mathbf{X}\) 의 열 선형 독립	무한차원 다공선성으로 자동 깨짐
\(\mathbf{X}^T \mathbf{X}\) 가역	이산화 시 \(J > N\) 으로 특이
모수 \(\boldsymbol{\beta}\) 차원 \(p\) 고정	차원 무한
\(\mathbf{C}_X^{-1}\) 존재	\(C_X^{-1}\) 부재 (스펙트럼 분해 시 \(1/\lambda_j \to \infty\))
LS 일치성 자동	\(K = K(N) \to \infty\) 가정 필요

이 모든 변화가 §3.3의 적분 연산자 framework로 분석된다.

7 가설 검정: F-검정

7.1 검정의 목표

회귀 분석에서 자주 묻는 질문: “일부 회귀 계수가 0인가?”

\[ H_0: \beta_{m+1} = \beta_{m+2} = \cdots = \beta_p = 0. \]

귀무가설은 “마지막 \(p - m\) 개 회귀자가 무관하다” 는 의미. 기각하면 모든 \(p\) 개 회귀자가 필요하다는 결론이다.

7.2 F-통계량

전체 모형의 잔차 제곱합 \(R_p\) 와 축소 모형의 잔차 제곱합 \(R_m\) 을 계산:

\[ R_p = \sum_{i=1}^{N} \left(y_i - \sum_{j=1}^{p} x_{ij} \widehat{\beta}_j^{(p)}\right)^2, \quad R_m = \sum_{i=1}^{N} \left(y_i - \sum_{j=1}^{m} x_{ij} \widehat{\beta}_j^{(m)}\right)^2. \]

축소 모형은 변수가 적으므로 \(R_m \geq R_p\).

정리: F-통계량

\[ F = \frac{(R_m - R_p)/(p - m)}{R_p/(N - p)}. \]

가우스 잡음 가정 하에서 \(H_0\) 가 참이면 \(F \sim F_{p-m, N-p}\).

귀무가설은 관측된 \(F\) 가 분포의 상위 분위수를 초과할 때 기각된다.

7.3 직관

\(R_m - R_p\) 의 의미: “추가된 변수들이 적합도를 얼마나 개선했는가.” 개선이 작으면 (\(R_m \approx R_p\)) 추가 변수가 무용; 크면 (\(R_m \gg R_p\)) 추가 변수가 유용.

분모 \(R_p / (N - p)\) 는 “잔차 분산의 추정량” — 자연 잡음 수준. F-통계량은 결국 “개선의 크기 / 잡음 크기” 의 비율이다.

7.4 비유: 두 식당의 평점 차이

식당 A의 평균 평점이 4.2, 식당 B가 4.5라고 하자. 0.3 차이가 의미 있는가? 평점의 변동성(표준편차)이 0.05라면 의미가 크고, 0.4라면 무의미하다. F-검정이 “차이 / 변동성” 의 같은 직관이다 — 절대 차이가 아니라 잡음 대비 비율이 중요하다.

7.5 함수 회귀에서의 F-검정 일반화

함수 회귀에서 자연스러운 가설은:

\[ H_0: \beta(t) = 0 \text{ for all } t. \]

이는 “스펙트럼 곡선 전체가 옥탄가와 무관” 이라는 귀무가설이다. F-검정의 함수 일반화가 Ch.4 후속 절과 Ch.12에서 다뤄진다 — 기본 직관은 같지만 무한차원에서의 자유도 정의가 비자명하다.

8 R 코드: 가솔린 데이터 EDA와 표준 LS 시연

8.1 곡선 데이터 시각화

library(refund)

# 가솔린 데이터 로드
data(gasoline)

# 구조 확인
str(gasoline)
# $ octane: 옥탄가 (스칼라, 60개)
# $ NIR   : NIR 스펙트럼 (행렬, 60 x 401)

dim(gasoline$NIR)   # 60 x 401: 60 샘플, 401 파장
length(gasoline$octane)   # 60

# 파장 그리드
wavelengths <- as.numeric(colnames(gasoline$NIR))

# 60개 곡선 시각화
matplot(wavelengths, t(gasoline$NIR), type = "l", lty = 1,
        col = rainbow(60, alpha = 0.5),
        xlab = "Wavelength (nm)", ylab = "Absorbance",
        main = "60 NIR spectra of gasoline samples")

8.2 옥탄가 분포

# 반응 변수 분포
hist(gasoline$octane, breaks = 20,
     xlab = "Octane rating", col = "lightblue",
     main = "Distribution of octane ratings")
abline(v = mean(gasoline$octane), col = "red", lwd = 2)

cat("Octane summary:\n")
print(summary(gasoline$octane))
cat("\nStandard deviation:", round(sd(gasoline$octane), 3), "\n")

8.3 표준 LS 회귀 시연 (이산화 후)

함수 회귀를 적용하기 전에, 표준 다중 회귀를 곡선의 이산 측정값에 직접 적용하면 어떻게 되는지 본다.

# 표준 LS: X 행렬 = NIR 측정값 401개를 회귀자로
X <- gasoline$NIR
Y <- gasoline$octane

# 시도 1: 모든 401개 시점을 회귀자로 (N=60 < p=401)
fit_naive <- try(lm(Y ~ X), silent = TRUE)
cat("Naive LS with 401 regressors:\n")
print(class(fit_naive))   # 가능하나 결과가 의미 없음

# 60 < 401: X^T X 가 특이행렬
cat("\nrank(X^T X) =", qr(X)$rank, "vs p =", ncol(X), "\n")
# 출력: rank << p — 다공선성 극심

8.4 다공선성의 시각적 확인

# 인접 파장의 흡광도가 거의 같음
plot(X[, 100], X[, 101],
     xlab = "Absorbance at wavelength 100",
     ylab = "Absorbance at wavelength 101",
     main = "Adjacent wavelengths are nearly identical")
abline(0, 1, col = "red", lty = 2)

# 상관계수
cor(X[, 100], X[, 101])
# 거의 1: 인접 시점 다공선성 본질

8.5 차원 축소 시도: 단순 평균 또는 첫 100개 사용

# 시도 2: 처음 5개 파장만 사용 (임의 선택)
X_5 <- X[, seq(1, 401, length.out = 5)]
fit_5 <- lm(Y ~ X_5)
summary(fit_5)
# R^2 가 낮음 — 정보 손실 심각

# 시도 3: 매 80번째 파장만 사용
X_sparse <- X[, seq(1, 401, by = 80)]
fit_sparse <- lm(Y ~ X_sparse)
summary(fit_sparse)
# 여전히 정보 손실

8.6 교훈

이 실험은 §4.3의 “왜 단순 LS가 안 되는가” 를 직접 보여준다:

모든 시점 사용 → 특이행렬: \(J = 401 > N = 60\), \(\mathbf{X}^T\mathbf{X}\) 가역 불가.
임의 부분 시점 사용 → 정보 손실: 어느 시점이 중요한지 사전에 모름.
함수 회귀의 필요성: 회귀 함수 \(\beta(t)\) 가 “어느 구간에 가중치를 줄지” 를 자동 학습.

다음 포스트(§4.3)에서 이 문제를 정확히 분석하고, §4.4~§4.6에서 세 가지 해결책을 본다.

8.7 `refund` 의 함수 회귀 미리보기

library(refund)

# 함수 회귀: pfr() — Penalized Functional Regression
fit_func <- pfr(Y ~ lf(X, k = 30, bs = "ps"))
summary(fit_func)

# 추정된 beta(t) 시각화
plot(fit_func, ylab = expression(hat(beta)(t)),
     shade = TRUE,
     main = "Estimated regression function (penalized)")

이 코드는 §4.5의 거칠기 벌점 추정을 사용한다. 다음 포스트들에서 그 수학적 토대를 본다.

9 정리

9.1 §4.1 응용 사례의 핵심

세 데이터셋(가솔린·Tecator·DTI)이 보여주는 공통 패턴:

입력 = 곡선, 출력 = 스칼라.
곡선은 측정하기 쉽고 빠르며 비파괴적; 라벨은 측정하기 어렵고 비싸다.
회귀 함수 \(\beta(t)\) 는 단순 예측을 넘어 “어느 구간이 결정적인가” 의 해석 가능한 패턴을 제공한다.

9.2 §4.2 표준 회귀의 핵심

다중 선형 회귀의 통계적 framework:

모형 \(\mathbf{Y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon}\), LS 추정량 \(\widehat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y}\).
기하학적 본질: \(\mathbf{Y}\) 의 \(L_X\) 위 정사영.
모집단 시각: \(\boldsymbol{\beta} = \mathbf{C}_X^{-1}\mathbf{C}_{XY}\) — 함수 일반화의 출발점.
일치성·불편성·점근 정규성이 표준 가정 하에서 성립.
F-검정으로 회귀자 부분집합의 유의성 평가.

9.3 다음 포스트의 미리보기

§4.3 (다음 포스트)에서는 표준 회귀 framework가 함수 환경에서 어떻게 깨지는지 분석한다:

무한차원 다공선성 (\(X(t)\) 와 \(X(t+\varepsilon)\) 의 강한 상관).
\(C_X^{-1}\) 의 부재 (스펙트럼 분해 \(\lambda_j \to 0\)).
정규방정식의 적분 형태: \(\int c_X(t, s) \beta(s) \, ds = c_{XY}(t)\) — 모든 시점에서 성립해야 하는 무한 방정식.

이 어려움을 해결하기 위해 §4.4~§4.6의 세 가지 추정 접근이 등장한다.

10 관련 주제

선행 지식

후속 주제

관련 개념

선형 회귀 분석 기초 — 다변량 회귀의 표준 이론
정사영과 최소제곱 — LS의 기하학적 토대
F-검정과 분산 분석 — 회귀 변수 유의성 검정
PCR과 Ridge 회귀 — 다공선성 해결책 (다변량)