1 이 장의 위치와 목적
Chapter 1~7 의 모든 함수 데이터 분석은 iid 가정 하에 전개되었다 — 곡선 표본이 공간·시간 무관하게 독립적으로 추출. Chapter 8 은 시간 종속성 (함수 시계열) 을 도입했다. Chapter 9 는 또 다른 종속성 — 공간 종속성 — 을 다룬다.
1.1 함수 공간 데이터의 본성
공간 위치 \(s_k\) 에서 관측된 곡선들의 집합:
\[ \{X(s_k): k = 1, 2, \ldots, K\}, \]
각 \(X(s_k)\) 가 함수 (\(t \mapsto X(s_k; t)\)). 예시:
- 기상 관측소 — 각 위치의 일별 기온 곡선 (\(t\) = 시간 또는 날짜).
- 대기 모니터링 — 각 도시의 시간별 오염 곡선.
- 해양학 — 각 부이의 깊이별 수온 프로파일.
- 이온층 측정 — 각 ionosonde 의 시간별 이온화 곡선.
1.2 핵심 문제: 미관측 위치의 곡선 예측
관측된 곡선들 \(X(s_1), X(s_2), \ldots, X(s_N)\) 으로부터 미관측 위치 \(s_0\) 의 곡선 \(X(s_0)\) 를 예측.
이를 함수 크리깅 (functional kriging) 이라 한다.
스칼라 공간 통계의 표준 문제 (점 위치의 값 예측) 의 함수 일반화 — 단지 객체가 스칼라가 아닌 곡선.
1.3 직관: 공간 종속성의 의미
가까운 위치의 곡선들이 비슷, 멀어지면 차이가 커짐.
- 서울 vs 인천 — 일별 기온 곡선이 매우 비슷.
- 서울 vs 부산 — 약간 다름 (남북 차이).
- 서울 vs 도쿄 — 더 다름 (해양 효과).
- 서울 vs 뉴욕 — 거의 무관.
이 거리에 따른 의존성 감소 가 공간 통계의 핵심 가정 + 크리깅 가능성의 토대.
1.4 비유: 동네 공기 질의 미관측 추정
서울의 25 개 구 중 20 개 구에만 미세먼지 측정소. 5 개 구의 측정값을 추정하려면:
- 가장 가까운 측정소 의 값 사용 (단순 — kriging 의 가장 단순한 형태).
- 가까운 여러 측정소의 가중 평균 으로 추정 (kriging — 가까울수록 큰 가중).
- 지리·교통·풍향까지 고려 — 더 정교한 모형 (covariate-based kriging).
Ch.9 가 이 사고를 함수 (시간별 오염 곡선) 로 일반화 — 공간 가까운 측정소의 곡선 가중 평균.
1.5 이 포스트의 흐름
9.1 스칼라 공간 통계 — variogram, kriging, isotropy
↓
9.2 함수 공간장 — L²-valued stationary isotropic random field
↓
9.3 함수 크리깅 — predict X(s) from X(s_1), ..., X(s_N)
↓
9.4 평균 함수의 가중 추정 — gefogD 패키지의 토대
↓
9.5 R 패키지 geofd — Canadian temperature, Calgary 예측
↓
9.6 확장 — Delicado functional weights, ionosphere, change point
9.1 의 스칼라 토대가 핵심 — 모든 함수 일반화가 이 토대 위에서 유추.
2 스칼라 공간 통계의 핵심 (9.1)
2.1 지구통계학적 데이터
\[ \{X(s_k), s_k \in S, k = 1, 2, \ldots, N\}, \]
- \(S\) — 공간 도메인 (보통 \(\mathbb{R}^2\) 의 부분집합).
- \(s_k\) — 관측 위치 (보통 불규칙 분포).
- \(X(s_k)\) — 위치 \(s_k\) 의 측정값 (스칼라).
Random field: \(\{X(s): s \in S\}\) 가 위치 \(s\) 의 random variable family.
2.2 정상성과 등방성
- Strict stationarity: \(\{X(s_1+h), \ldots, X(s_m+h)\} \stackrel{d}{=} \{X(s_1), \ldots, X(s_m)\}\) for any shift \(h\).
- Second-order stationarity: \(E X(s)\) 와 \(\text{Cov}(X(s), X(s+h))\) 가 \(s\) 무관 (위치가 아닌 차이 \(h\) 에만 의존).
- Isotropy (등방성): 공분산 \(C(h)\) 가 \(h\) 의 길이 \(\|h\|\) 에만 의존, 방향 무관.
2.3 직관: 정상성과 등방성의 의미
- 정상성 — 공간 전체에서 같은 random mechanism. 시계열의 정상성과 같은 사고.
- 등방성 — 공간의 모든 방향이 동등. 동서 방향과 남북 방향의 의존성이 동일.
이 두 가정으로 공분산이 한 변수 함수 \(C(h)\) 로 단순화 — 추정·해석 용이.
2.4 비유: 자연 현상의 대칭성
- 정상성 — 한 동네의 기온 패턴이 옆 동네와 같은 random mechanism.
- 등방성 — 동서로 1km 떨어진 측정소의 기온 차이 = 남북으로 1km 떨어진 측정소의 차이 (방향 무관).
자연 현상에서 정상성·등방성이 정확히 성립하지 않지만 유용한 근사.
2.5 Variogram 과 Semivariogram
공간 통계의 표준 도구:
\[ 2 \gamma(h) = \text{Var}[X(s + h) - X(s)] \quad (\text{variogram}), \]
\[ \gamma(h) = \frac{1}{2} \text{Var}[X(s + h) - X(s)] \quad (\text{semivariogram}). \]
Second-order stationarity 하 \(\gamma(h) = C(0) - C(h)\) — 분산 - 공분산.
2.6 직관: Variogram 이 거리에 따른 차이
- \(h = 0\): \(\gamma(0) = 0\) (자기 자신과의 차이 0).
- \(h\) 작음: \(\gamma\) 작음 (가까운 위치는 비슷).
- \(h\) 큼: \(\gamma\) 큼 (멀어지면 차이 큼).
- \(h \to \infty\): \(\gamma \to C(0)\) (분산, 무상관 한계).
Variogram 의 시각화로 공간 의존성의 감쇠 패턴 직관적 확인.
2.7 표준 공분산 함수
\(C(h) = \sigma^2 \phi(h)\), \(\phi(0) = 1\).
Powered exponential:
\[ \phi(h) = \exp\left\{-(h/\rho)^p\right\}, \quad 0 < p \leq 2. \]
- \(p = 1\): exponential.
- \(p = 2\): Gaussian.
Matérn:
\[ \phi(h) = \frac{2^{1-\nu}}{\Gamma(\nu)} (h/\rho)^\nu K_\nu(h/\rho). \]
매끄러움 모수 \(\nu\) 로 함수의 매끄러움 조절.
2.8 직관: 매끄러움 모수의 효과
| 매끄러움 | 모수 | 결과 |
|---|---|---|
| 거친 | \(p = 1\), \(\nu < 1/2\) | 측정값이 거리에 따라 빠르게 변동 |
| 중간 | \(p\) between, \(\nu = 1/2\) ~ \(3/2\) | 자연스러운 매끄러움 |
| 매끄러운 | \(p = 2\), \(\nu > 3/2\) | 부드러운 변동 |
데이터의 본성 (예: 기온의 매끄러운 변화 vs 강수의 거친 변화) 에 맞는 모형 선택.
2.9 Semivariogram 의 표본 추정 (식 9.3)
\[ \widehat{\gamma}(d) = \frac{1}{|N(d)|} \sum_{N(d)} (X(s_k) - X(s_\ell))^2, \]
\(N(d)\) 는 거리 \(\approx d\) 의 위치 쌍 집합. 거리별 binning + 평균.
이를 모수 모형 (powered exponential 등) 에 적합하여 \(\sigma^2, \rho\) 추정.
3 크리깅 (Kriging)
3.1 동기
D. G. Krige (남아프리카 광산 엔지니어, 1919-2013) 의 이름. 미관측 위치 \(s\) 의 값을 관측값 \(X(s_1), \ldots, X(s_N)\) 의 선형 결합 으로 예측:
\[ \widehat{X}(s) = \mu + \sum_{k=1}^N w_k (X(s_k) - \mu). \]
3.2 가중치 결정
평균 제곱 예측 오차 \(E(\widehat{X}(s) - X(s))^2\) 를 최소화하는 가중치 \(w_1, \ldots, w_N\) 찾기.
Kriging 시스템 (식 9.6):
\[ \sum_{j=1}^N C(s_k - s_j) w_j = C(s_k - s), \quad k = 1, 2, \ldots, N. \]
\(N\) 개 일차 방정식 → \(N\) 개 미지수 \(w_j\). 행렬 \([C(s_k - s_j)]\) 가 비특이이면 유일한 해.
3.3 직관: 가중치의 의미
- \(s\) 에 가까운 \(s_k\): 큰 가중치 (\(X(s_k)\) 가 \(X(s)\) 와 강한 상관).
- \(s\) 에서 먼 \(s_k\): 작은 가중치 (또는 음수).
- 다른 \(s_k\) 와 매우 가까운 \(s_k\): 가중치가 둘로 분산 (정보 중복).
이는 가중 평균 의 일반화 — 단순 평균 (모두 \(1/N\)) 의 단점을 공간 정보로 보완.
3.4 비유: 학원 시험의 또래 효과
내 시험 점수를 예측할 때:
- 단짝 친구 (공부 환경 비슷) — 큰 가중치.
- 같은 반 친구 — 중간 가중치.
- 다른 학년 — 작은 가중치.
Kriging 도 같은 사고 — 공간적으로 가까운 (비슷한) 측정값에 큰 가중치.
3.5 평균의 크리깅 (Kriging the Mean)
iid 의 경우 \(\mu\) 의 표본 평균이 표준. 공간 데이터에서는 가중 평균 이 더 효율적:
\[ \widehat{\mu} = \sum_{k=1}^N w_k X(s_k), \quad \sum w_k = 1, \quad \min E(\widehat{\mu} - \mu)^2. \]
Lagrange multiplier 로 푼 해 (식 9.7):
\[ \sum_{j=1}^N C(s_k - s_j) w_j - r = 0, \quad k = 1, \ldots, N, \quad \sum_{j=1}^N w_j = 1. \]
\(N + 1\) 미지수 (\(w_1, \ldots, w_N, r\)).
3.6 직관: 왜 단순 평균이 안 되는가
iid 가정: 모든 관측이 같은 정보 → 단순 평균.
공간 데이터: 가까운 관측이 비슷한 정보 → 정보의 중복. 단순 평균은 그 중복을 무시 → 비효율.
해결: 가까운 관측에 작은 가중치, 멀리 떨어진 관측에 큰 가중치 → 독립 정보의 효율적 추출.
3.7 비유: 인구 조사의 가중치
서울 인구 조사 vs 전국 평균:
- 서울에 측정소 100 개 + 강원 1 개 — 단순 평균은 서울 패턴이 지배.
- 가중 평균: 서울 100 개의 가중치 합 = 강원 1 개의 가중치 — 지역 균형 회복.
Kriging the mean 도 같은 사고 — 측정소가 밀집한 지역의 곡선이 평균을 지배하지 않도록 가중치 보정.
4 함수 공간장 (9.2)
4.1 정의
각 위치 \(s \in S\) 에 random function \(X(s) \in L^2\) 가 대응:
\[ \{X(s; t): s \in S, t \in [0, 1]\}. \]
각 \(X(s)\) 가 제곱적분 가능: \(E\|X(s)\|^2 < \infty\).
Strict stationarity (식 9.1 의 함수 일반화) + isotropy + square integrability 가 표준 가정.
4.2 평균과 공분산
정상성 하:
\[ \mu(t) = E X(s; t) \quad \text{(s 무관)}, \]
\[ C(h; t, u) = \text{Cov}(X(s; t), X(s + h; u)) \quad \text{(s 무관)}. \]
중요: \(h \mapsto C(h; t, u)\) 는 \(t = u\) 일 때만 양정치 — \(t \neq u\) 의 경우는 분포의 의미만.
Isotropy 하 \(C(h; t, u) = C(\|h\|; t, u) = C(h; t, u)\) (\(h\) = 거리).
4.3 직관: 두 차원의 의존성
함수 공간장에는 두 종류의 의존성:
- 공간 의존 (\(s\), \(h\)): 다른 위치의 곡선들 사이.
- 시간 의존 (\(t\), \(u\)): 같은 곡선의 다른 시점들 사이.
스칼라 공간 통계 (Ch.9.1) 의 공분산 \(C(h)\) 가 함수 차원에서 이중 인덱스 \(C(h; t, u)\) 로 일반화.
4.4 비유: 음악과 지리의 결합
여러 도시의 라디오 방송 — 각 도시가 한 곡선 (시간별 음향).
- 공간 차원: 도시 사이 거리 → 음악 스타일의 차이.
- 시간 차원: 곡 안에서 시점 사이 (한 도시 내) → 멜로디의 시간 의존.
함수 공간장이 정확히 이 두 차원의 통합.
5 함수 크리깅 (9.3)
5.1 모형
위치 \(s_1, \ldots, s_N\) 의 곡선 \(X(s_1), \ldots, X(s_N)\) 으로부터 미관측 위치 \(s\) 의 곡선 \(X(s)\) 예측.
예측량:
\[ \widehat{X}(s) = \mu + \sum_{k=1}^N w_k (X(s_k) - \mu). \]
\(\mu\) 는 모집단 평균 함수. 각 곡선에 단일 가중치 \(w_k\) — 곡선을 분리 불가능 단위로 처리.
5.2 손실 함수
함수 노름의 평균 제곱:
\[ E\|\widehat{X}(s) - X(s)\|^2 = E \int (\widehat{X}(s; t) - X(s; t))^2 \, dt. \]
5.3 함수 공분산
스칼라 공분산의 함수 일반화 (식 9.8):
\[ C(s, s') = E[\langle X(s) - \mu, X(s') - \mu \rangle]. \]
이는 두 곡선의 함수 내적 (적분) 의 기댓값 — 한 스칼라 양.
5.4 Kriging 시스템
함수 공분산을 사용한 가중치 결정 시스템:
\[ \sum_{\ell=1}^N C(s_k, s_\ell) w_\ell = C(s_k, s), \quad k = 1, \ldots, N. \]
스칼라 케이스 (식 9.6) 와 형태 동일 — 단지 공분산이 함수 내적의 기댓값.
5.5 직관: 형식적 동등성의 우아함
스칼라와 함수의 kriging 식이 같은 형태 — 함수 객체로의 일반화의 우아함.
차이는 단지 공분산 \(C\) 의 정의 — 스칼라는 표본 공분산, 함수는 \(\langle X(s) - \mu, X(s') - \mu \rangle\) 의 기댓값.
이로써 모든 스칼라 kriging 알고리즘이 함수 일반화 가능 — geofd 패키지가 정확히 이 framework.
5.6 함수 공분산의 추정
Stationarity + isotropy 가정 하:
\[ C(s, s') = E \int (X(s; t) - \mu(t))(X(s'; t) - \mu(t)) \, dt = \int C(\|s - s'\|; t) \, dt, \]
\(C(h; t) = \text{Cov}(X(s + h; t), X(s; t))\) 가 시점 \(t\) 의 스칼라 공간 공분산.
스칼라 spatial kriging 의 도구를 각 \(t\) 에서 적용 후 적분 — 표준 절차.
5.7 비유: 시점별 사진의 평균
각 시점 \(t\) 에서 모든 도시의 측정값이 한 사진 (공간 분포).
- 시점 \(t\) 에서의 spatial kriging — 표준 스칼라 도구.
- 모든 \(t\) 의 결과를 적분 — 함수 객체로 통합.
함수 kriging = “시점별 sliced 스칼라 kriging 의 적분”.
5.8 Trace Variogram
geofd 패키지의 trace variogram (geofd 표준 도구):
\[ \widehat{\gamma}_{\text{trace}}(d) = \frac{1}{|N(d)|} \sum_{N(d)} \|X(s_k) - X(s_\ell)\|^2, \]
\(\| \cdot \|\) 가 함수 \(L^2\) 노름.
이는 식 (9.3) 의 함수 버전 — 차이의 함수 노름의 평균.
6 평균 함수의 가중 추정 (9.4)
6.1 동기
스칼라 kriging the mean (식 9.7) 의 함수 일반화. 가까운 위치의 곡선에 작은 가중치.
6.2 모형
가중 평균:
\[ \widehat{\mu}(t) = \sum_{k=1}^N w_k X(s_k; t), \]
각 곡선에 단일 가중치 \(w_k\) (\(t\) 무관).
6.3 가중치 결정
무편향성: \(E\widehat{\mu} = \mu\) 위해 \(\sum w_k = 1\).
MSE 최소화:
\[ E\|\widehat{\mu} - \mu\|^2 = E \int \left(\sum_k w_k X(s_k; t) - \mu(t)\right)^2 dt. \]
Lagrange multiplier 로 푼 시스템 (식 9.12):
\[ \sum_{k=1}^N w_k = 1, \quad \sum_{k=1}^N w_k C(s_k, s_n) - r = 0, \quad n = 1, \ldots, N. \]
\(N + 1\) 미지수.
6.4 직관: 단순 평균 vs 가중 평균
캐나다 35 개 기상 관측소 데이터:
- 남부 (밀집) — 토론토·오타와 등 가까운 관측소 다수.
- 북부 (희소) — 한정된 관측소.
단순 평균 (\(w_k = 1/35\)) — 남부 패턴 지배 (남부 가중치 합이 큼). 가중 평균 (kriging) — 북부에 큰 가중치, 남부에 작은 가중치 (일부는 음수도) → 국가 전체의 진짜 평균 추정.
6.5 비유: 인구 vs 면적 가중
GDP 계산에서:
- 인구 가중: 인구 많은 지역 (도시) 이 지배.
- 면적 가중: 면적 큰 지역 (시골) 이 지배.
목적에 따라 다른 가중. Kriging the mean 도 같은 사고 — 균형 잡힌 추정 이 목적.
7 R 패키지 geofd (9.5)
7.1 패키지 개요
geofd R 패키지
함수 공간 데이터의 표준 도구. 주요 기능:
- Trace variogram 계산.
- 모수 variogram 모형 적합 (exponential, Matérn 등).
- 함수 kriging 가중치 계산.
- 평균 함수 추정.
요구 패키지: fda, fda.usc, maps.
7.2 Canadian Weather 응용
35 개 기상 관측소의 일별 기온 곡선. Calgary 를 제외 후 나머지 34 개로 Calgary 의 곡선 예측.
library(fda); library(fda.usc); library(geofd); library(maps)
data("CanadianWeather")
Temperature <- CanadianWeather$dailyAv[, , 1]
coordinates <- CanadianWeather$coordinates[, 2:1]
coordinates[, 1] <- -coordinates[, 1] # 서경
place <- CanadianWeather$place
# Calgary 제외
i.0 <- which(place == "Calgary")
coord.0 <- coordinates[i.0, ]
Tempe.34 <- Temperature[, -i.0]
coord.34 <- coordinates[-i.0, ]
# Fourier 기저로 함수화
Day <- 1:365
nt <- nrow(Temperature)
K <- min(99, max(49, 1 + 4 * round(sqrt(nt))))
fourier.basis <- create.fourier.basis(rangeval = range(Day), nbasis = K)
temp.fd.34 <- Data2fd(argvals = Day, y = Tempe.34, basisobj = fourier.basis)
temp.fd.0 <- Data2fd(argvals = Day, y = Temperature[, i.0], basisobj = fourier.basis)7.3 Trace Variogram 적합
# 함수 L2 거리 계산
L2norm.34 <- dist(t(temp.fd.34$coefs))^2
# Trace variogram (binned)
emp.trace.vari.34 <- trace.variog(coords = coord.34,
L2norm = as.matrix(L2norm.34),
bin = TRUE)
# Exponential 모형 적합
sigma2.0 <- quantile(emp.trace.vari.34$v, 0.75)
phi.0 <- quantile(emp.trace.vari.34$Eu.d, 0.75)
fit.vari.34 <- variofit(emp.trace.vari.34,
ini.cov.pars = c(sigma2.0, phi.0),
cov.model = "exponential")
# 시각화 (Figure 9.3)
plot(as.dist(emp.trace.vari.34$Eu.d), L2norm.34, col = "grey",
xlab = "Geographical distances", ylab = "L2 distances",
main = "Empirical variogram")
points(emp.trace.vari.34$u, emp.trace.vari.34$v, col = "black", pch = 19)
lines(fit.vari.34, col = "black", lwd = 2)7.4 Kriging 가중치 계산
# 공분산 행렬 추정
hat.C.34 <- cov.spatial(emp.trace.vari.34$Eu.d,
cov.model = fit.vari.34$cov.model,
cov.pars = fit.vari.34$cov.pars)
geo.dist.0.34 <- as.matrix(dist(coordinates))[-i.0, i.0]
hat.C.0 <- cov.spatial(geo.dist.0.34,
cov.model = fit.vari.34$cov.model,
cov.pars = fit.vari.34$cov.pars)
# 평균 함수의 가중치
inv.hat.C.34 <- solve(hat.C.34)
v.34 <- apply(inv.hat.C.34, 1, sum)
w.m.34 <- v.34 / sum(v.34)
# Kriging 가중치
w0.k <- solve(hat.C.34, hat.C.0)
w.k <- w0.k + w.m.34 * (1 - sum(w0.k))7.5 결과 해석 (Figure 9.4, 9.5)
- Edmonton (Calgary 와 가장 가까움) — 가장 큰 가중치 ~ 0.7.
- 먼 관측소 — 가중치 ~ 0.
- 일부 가까운 관측소 — 약간 음수 가중치 (정보 중복 보정).
- 단순 평균 (\(1/34\)) 와 비교 — kriging 이 훨씬 작은 가중치 분포의 polarization.
Kriging 예측 곡선 (Figure 9.5) 가 진짜 Calgary 기온 곡선과 매우 비슷 — 알고리즘 효과 검증.
7.6 직관: 가까운 관측소의 압도적 가중치
지리적으로 가까울수록 기온 패턴이 비슷 — 자연스러움.
Edmonton 이 가장 가까운 관측소이므로 그 곡선이 Calgary 의 가장 좋은 예측. Kriging 이 이를 자동 발견 + 다른 관측소의 추가 정보로 보완.
7.7 비유: 동네의 기온 추정
내 동네에 측정소 없음 → 가장 가까운 동네 (예: 옆 동) 의 측정값 + 약간 떨어진 동네의 보정 → 정확한 추정.
8 확장 주제 (9.6)
8.1 Delicado et al. (2010) — Functional Weight Kriging
8.3 의 단일 가중치 (\(w_k\)) 대신 함수 가중치 \(w_k(t)\) — 시점별로 다른 가중치.
\[ \widehat{X}(s; t) = \sum_{k=1}^N w_k(t) X(s_k; t), \quad \sum_k w_k(t) = 1 \forall t. \]
기저 전개 \(w_k(t) = \sum_m b_{km} B_m(t)\) → 행렬 \(B = [b_{km}]\) 추정.
8.2 직관: 시점별 가중치의 가치
기온 곡선의 경우:
- 여름철 — Calgary 의 기온이 다른 도시와 비슷한 패턴.
- 겨울철 — Calgary 의 기온이 다른 도시와 다른 패턴 (대륙성 기후).
시점별 다른 가중치 가 이 시간 변동을 포착 — 단일 가중치보다 정확.
비용: 더 많은 모수 + 계산 복잡. 데이터가 충분히 풍부할 때만 가치.
8.3 평균 함수의 일반화
Ch.9 의 본문은 \(E X(s; t) = \mu(t)\) (위치 무관) 가정.
확장 (Caballero et al. 2013, Menafoglio et al. 2013):
\[ E X(s; t) = \sum_{\ell=1}^L \beta_\ell(t) f_\ell(s), \]
위치 의존 covariate \(f_\ell(s)\) + 시간 의존 계수 \(\beta_\ell(t)\).
8.4 직관: 공간 covariate 의 활용
위치별 특성 (위도, 고도, 해안성 등) 이 평균 곡선에 영향. 이를 covariate 로 모형에 포함하면 평균 추정 + kriging 모두 향상.
이는 표준 회귀의 covariate adjustment 의 spatial 함수 일반화.
8.5 이온층 글로벌 냉각 (Gromenko & Kokoszka 2013, 2016)
공간 응용의 대표 사례 — Roble & Dickinson (1989) 의 가설:
CO₂ 등 온실가스 증가가 지표 (troposphere) 의 온난화 와 이온층 (300km 상공) 의 냉각 동시 유발.
이온층 냉각 → 열적 수축 → 이온층 높이 감소.
8.6 데이터 + 어려움
- 81 개 ionosonde 관측소 (전세계).
- 임의 시점에 ≤ 40 개만 작동 (Figure 9.7).
- 큰 결측 + 공간 분포 불균형 + 태양 주기·계절·자기장의 영향.
표준 spatial functional kriging 으로는 부족 — 더 정교한 spatio-temporal 모형 필요.
8.7 모형 (식 9.13)
\[ Y(s; \tau) = \mu(s; \tau) + \varepsilon(s; \tau) + \theta(s; \tau), \]
평균 함수:
\[ \mu(s; \tau) = \beta_1 + \beta_2 \tau + \beta_3 \text{SRF}(\tau) + \beta_4 M(s; \tau). \]
- \(\beta_2 \tau\) — 시간 추세.
- \(\text{SRF}(\tau)\) — 태양 복사 (Solar Radio Flux), Figure 9.6.
- \(M(s; \tau)\) — 자기장 영향.
검정: \(H_0: \beta_2 = 0\) (추세 없음).
결과: \(\beta_2\) 가 유의하게 음수 → 이온층 글로벌 냉각 가설 확증.
8.8 직관: 함수 데이터 + 공간 + 시간의 결합
이 응용의 의의:
3 차원 데이터 (공간 × 시간 × 함수) 의 분석 으로 천체 물리학의 깊은 결과 도출.
Ch.9 의 spatial functional kriging 에서 출발 → spatio-temporal mixed model 로 확장 → 함수 데이터 분석의 가장 인상적인 실세계 적용 중 하나.
8.9 Change Point Detection
Gromenko et al. (2016) — 공간 위치별 함수 시계열의 평균 변화점 검정.
데이터:
\[ X_n(s, t) = \mu_n(s; t) + \varepsilon_n(s; t), \]
\(n\) = 연도, \(s\) = 위치, \(t\) = 시점.
검정 가설:
\[ H_0: \mu_1 = \mu_2 = \cdots = \mu_N \quad \text{vs} \quad H_A: \mu_1 = \cdots = \mu_{n^*} \neq \mu_{n^* + 1} = \cdots = \mu_N. \]
검정 통계량 (식 9.13~9.15) — partial sum + FPCA + 공간 가중. 점근 분포가 Brownian bridge 의 가중 적분.
8.10 직관: 다차원 변화점
스칼라 시계열 변화점 — 한 시점의 평균 점프. 함수 시계열 변화점 (8.6) — 함수의 평균 점프. 공간 함수 변화점 — 공간 + 시간의 결합 점프 (예: 기후 변화).
Ch.8.6 의 검정의 공간 일반화. 더 복잡하지만 현대 환경 통계의 핵심 도구.
9 다른 공간 데이터 구조 (9.1 끝)
9.1 4 가지 공간 데이터 구조
| 구조 | 데이터 형태 | 예시 |
|---|---|---|
| Geostatistical (Ch.9 의 초점) | 점 위치의 측정값 | 기상 관측소 |
| Regional | 지역 (구역) 의 측정값 | 카운티별 사망률 |
| Lattice | 격자 위 측정값 | 위성 사진 픽셀 |
| Spatial point process | 사건 발생 위치 | 낙뢰, 지진 |
Ch.9 가 geostatistical 함수 데이터에 집중. 다른 구조의 함수 일반화는 활발한 연구 분야.
10 Chapter 9 의 통합 시각
10.1 한 줄 요약
공간 함수 데이터 (Spatial FDA) 는 위치별 곡선 X(s_k) 의 분석 framework — 스칼라 공간 통계 (variogram, kriging) 의 함수 일반화. 정상 + 등방 random field 가정 하 함수 크리깅이 미관측 위치 X(s) 를 가중 합 ∑w_k X(s_k) 로 예측 (식 9.6 의 함수 버전). 평균 함수도 가중 평균으로 추정 (식 9.12). R 패키지 geofd 가 표준 구현 (Canadian Weather Calgary 예측). 확장: Delicado 의 함수 가중치, Caballero 의 covariate-based 평균, 이온층 글로벌 냉각 (Gromenko-Kokoszka 2013, 2016) 의 spatio-temporal 응용, change point detection.
10.2 Ch.7·8 와의 비교
| 측면 | Ch.7 (Sparse FDA) | Ch.8 (FTS) | Ch.9 (Spatial FDA) |
|---|---|---|---|
| iid 위반 방향 | 단위 차원 (sparse 관측) | 시간 차원 (시계열) | 공간 차원 (위치 종속) |
| 핵심 도구 | PACE (BLUP) | FAR(1), LRCF | Functional kriging, geofd |
| 응용 | 종단 의학 (CATT) | 사망률, 오염 | 기상, 이온층 |
Ch.7~9 가 iid 가정 위반의 세 다른 방향 — 각 방향의 도구는 다르지만 iid 의 한계를 극복하는 공통 패턴 공유.
10.3 후속 챕터와의 연결
| 챕터 | Ch.9 의 도구를 어떻게 활용하는가 |
|---|---|
| Ch.10~11 (Hilbert 공간) | Functional kriging 의 수학적 토대 |
| Ch.12 (추론) | 공간 함수 데이터의 점근 분포 |
Ch.9 는 응용 중심 — 이론적 깊이는 후속 챕터 + Cressie (1993), Cressie-Wikle (2011) 등 spatial statistics 표준 참고서.
10.4 실용 워크플로우
- 데이터 시각화 — 위치 지도 + 곡선 시각.
- 정상성·등방성 검정 — 시각적 (variogram) + 모수 검정.
- Trace variogram 추정 (
geofd::trace.variog). - 모수 모형 적합 (
geofd::variofit) — exponential, Matérn 등. - 평균 함수 가중 추정 — Kriging the mean.
- Functional kriging — 미관측 위치 곡선 예측.
- 시각화 — 가중치 도표 + 예측 곡선 vs 진짜 곡선.
- 검증 — Cross-validation (한 위치 leave-out).
11 관련 주제
선행 지식
- FDA 1.0 — 개요
- FDA 3.1~3.2 — L² 공간과 확률 함수, Karhunen-Loève 전개
- FDA 7.0 — 희소 FDA 개관 — iid 가정 위반의 다른 방향
- FDA 8.0 — 함수 시계열 (FTS) 개관 — 시간 종속성
- 스칼라 공간 통계 기초
후속 주제
- FDA 9.1~9.2 — 스칼라 공간 통계와 함수 공간장
- FDA 9.3~9.4 — 함수 크리깅과 평균 함수 추정
- FDA 9.5~9.6 — geofd 패키지와 확장 주제
- FDA Ch.10 — 힐베르트 공간의 기본 이론
- FDA Ch.11 — 확률 함수와 가우스 과정
관련 개념
- Variogram 과 Semivariogram — Ch.9.1
- Kriging (스칼라) — Ch.9.1 의 토대
- Matérn 공분산 함수 — Ch.9.1
- Cressie (1993) Statistics for Spatial Data — 공간 통계 표준 참고서
geofdR 패키지 — Spatial FDA 의 표준 도구- Gromenko & Kokoszka (2013) — 이온층 응용