Kwangmin Kim - 등변원리 (The Equivariance Principle)

1 개요

데이터 축소의 원리 overview에서 충분성 원리, 우도원리와 함께 등변원리를 간략히 소개했다. 이 포스트에서는 등변원리(The Equivariance Principle) 를 세분화하여, 두 구성 요소(측정 등변성, 형식적 불변성)의 정의와 직관, 변환군(group of transformations)의 수학적 구조, 불변 가족(invariant family)의 개념, 그리고 다양한 예시를 통한 데이터 축소 메커니즘까지 깊이 있게 다룬다 (Casella & Berger, 2002, Ch.6.4).

1.1 충분성/우도원리와의 차이

충분성 원리와 우도원리는 다음과 같은 형태로 작동한다:

\(T(\mathbf{x}) = T(\mathbf{y})\) 이면, \(\theta\) 에 대한 추론은 동일해야 한다.

등변원리는 근본적으로 다른 방식으로 작동한다:

\(T(\mathbf{x}) = T(\mathbf{y})\) 이면, \(\theta\) 에 대한 추론은 일정한 관계(certain relationship) 를 가져야 한다 — 반드시 동일할 필요는 없다.

즉, 어떤 표본점에서의 추론이 다른 표본점에서의 추론을 결정한다. 이 제약이 허용 가능한 추론 절차의 집합을 줄여주므로, 분석이 단순화된다.

2 두 가지 등변성

등변원리는 하나의 원리가 아니라 두 가지 서로 다른 고려사항의 결합이다 (Casella & Berger, 2002, Ch.6.4).

힌트

“등변(equivariance)”과 “불변(invariance)”의 구별: 등변은 데이터가 변환되면 추정량도 규정된 방식으로 함께 변하는 것이고, 불변은 데이터가 변환되어도 추정량이 변하지 않는 것이다 (Schervish, 1995; Lehmann & Casella, 1998).

2.1 측정 등변성 (Measurement Equivariance)

추론은 측정 단위에 의존하지 않아야 한다.

두 임업 연구자가 숲에 있는 나무의 평균 직경을 추정한다고 하자.

연구자 A: 데이터를 인치(inch) 단위로 받아 인치로 추정한다
연구자 B: 같은 데이터를 미터(meter) 단위로 받아 미터로 추정한 뒤, 인치로 변환한다

측정 등변성은 두 연구자의 최종 추정값이 동일해야 한다고 요구한다. 거의 모든 통계학자가 이 원칙에 동의한다 — 측정 단위의 선택이 추론의 본질에 영향을 주어서는 안 된다.

수학적으로, \(\mathbf{Y} = g(\mathbf{X})\) 가 측정 단위 변환이면

\[ T(\mathbf{Y}) \text{ 를 원래 단위로 역변환한 값} = T(\mathbf{X}) \]

이어야 한다.

2.2 형식적 불변성 (Formal Invariance)

수학적 구조가 동일한 두 추론 문제에는 같은 추론 절차를 사용해야 한다.

두 추론 문제의 다음 요소가 모두 동일하면 “형식적 구조가 같다”고 한다:

요소	설명
\(\Theta\)	모수 공간
\(\{f(\mathbf{x}\|\theta) : \theta \in \Theta\}\)	pdf/pmf 가족
허용 추론 집합	가능한 추정값의 범위

형식적 불변성은 수학적 실체(mathematical entities) 에만 관심을 두고, 물리적 배경은 무시한다.

예를 들어, 두 문제 모두 \(\Theta = \{\theta : \theta > 0\}\) 이라면, 한 문제에서 \(\theta\) 가 “미국에서 계란 12개의 평균 가격(센트)”이고 다른 문제에서 \(\theta\) 가 “케냐 기린의 평균 키(미터)”이더라도, 형식적 불변성은 두 문제에 같은 추론 절차를 사용할 것을 요구한다.

이 원칙은 측정 등변성에 비해 논란의 여지가 있다. 물리적 현실이 전혀 다른 두 문제를 수학적 구조만으로 동일시하는 것이 항상 정당화되지는 않기 때문이다.

2.3 등변원리의 결합

등변원리 (Equivariance Principle)

\(\mathbf{Y} = g(\mathbf{X})\) 가 측정 단위 변환이고, \(\mathbf{Y}\) 의 모형이 \(\mathbf{X}\) 의 모형과 동일한 형식적 구조를 가지면, 추론 절차는 측정 등변성과 형식적 불변성을 모두 만족해야 한다.

3 예시 1: 이항분포의 등변성

이항분포 예시는 등변원리의 작동 방식을 가장 명확하게 보여준다.

3.1 설정

\(X \sim \text{Binomial}(n, p)\) 에서 \(n\) 은 기지이고 \(p\) 는 미지이다. \(T(x)\) 를 \(X = x\) 일 때 \(p\) 의 추정량이라 하자.

성공 횟수 \(X\) 대신 실패 횟수 \(Y = n - X\) 를 사용할 수도 있다. \(Y \sim \text{Binomial}(n, q = 1-p)\) 이다.

\(T^*(y)\) 를 \(Y = y\) 일 때 \(q\) 의 추정량이라 하자. 그러면 \(Y = y\) 일 때 \(p\) 의 추정량은 \(1 - T^*(y)\) 이다.

3.2 측정 등변성 적용

\(x\) 번 성공을 관측하면:

\(X\) 기반 추정: \(T(x)\)
\(Y\) 기반 추정: \(1 - T^*(n - x)\) (실패 \(n-x\) 번에서 \(q\) 를 추정하고 \(1-q\) 로 변환)

\(X\) 에서 \(Y\) 로의 전환은 측정 단위의 변경이므로, 측정 등변성은

\[ T(x) = 1 - T^*(n - x) \]

을 요구한다.

3.3 형식적 불변성 적용

\(X\) 와 \(Y\) 는 모두 \(\text{Binomial}(n, \theta)\) 분포를 따른다 (\(X\) 에서는 \(\theta = p\), \(Y\) 에서는 \(\theta = q\)). 모수 공간 \([0, 1]\), 분포 가족, 추론 집합이 모두 동일하다. 따라서 형식적 불변성은

\[ T(z) = T^*(z) \quad \text{for all } z = 0, 1, \ldots, n \]

을 요구한다. 같은 구조의 문제에는 같은 절차를 써야 한다.

3.4 결합 조건

두 조건을 결합하면

\[ T(x) = 1 - T^*(n-x) = 1 - T(n-x) \]

이 등변성 조건은 추정량의 자유도를 크게 줄인다:

	일반 추정량	등변 추정량
지정해야 할 값	\(T(0), T(1), \ldots, T(n)\) — 총 \(n+1\) 개	\(T(0), T(1), \ldots, T(\lfloor n/2 \rfloor)\) — 총 \(\lfloor n/2 \rfloor + 1\) 개
나머지 값	자유	\(T(n-x) = 1 - T(x)\) 로 결정

예를 들어 \(T(n) = 1 - T(0)\), \(T(n-1) = 1 - T(1)\) 이다.

3.5 등변 추정량과 비등변 추정량

추정량	등변?	검증
\(T_1(x) = x/n\)	O	\(T_1(x) = x/n\), \(1 - T_1(n-x) = 1 - (n-x)/n = x/n\)
\(T_2(x) = 0.9(x/n) + 0.1(0.5)\)	O	\(T_2(x) = 0.9x/n + 0.05\), \(1 - T_2(n-x) = 1 - 0.9(n-x)/n - 0.05 = 0.9x/n + 0.05\)
\(T_3(x) = 0.8(x/n) + 0.2\)	X	\(T_3(0) = 0.2\), \(1 - T_3(n) = 1 - 1 = 0\). \(0.2 \neq 0\)

\(T_1\) 은 표본비율(sample proportion)이다. \(T_2\) 는 표본비율을 0.5 방향으로 수축(shrink) 하는 추정량으로, \(p\) 가 0.5 근처일 것이라는 사전 정보가 있을 때 합리적이다. \(T_3\) 은 표본비율을 1 방향으로 편향되게 수축하므로, 성공/실패를 뒤집으면 일관성이 깨진다.

해석: 등변원리는 “성공과 실패를 뒤집어도 일관된 추정량”만 허용한다. 이것은 직관적으로 자연스러운 제약이다 — 동전의 앞면과 뒷면에 이름을 바꿔 붙인다고 해서 추론이 달라져서는 안 된다.

4 변환군 (Group of Transformations)

등변원리를 일반적으로 적용하려면, 변환군이라는 수학적 구조가 필요하다.

4.1 정의

정의 6.4.2: 변환군

표본공간 \(\mathcal{X}\) 에서 \(\mathcal{X}\) 로의 함수 집합 \(\mathcal{G} = \{g(\mathbf{x}) : g \in \mathcal{G}\}\) 가 변환군(group of transformations) 이려면 다음 조건을 만족해야 한다:

(i) 역원(Inverse): 모든 \(g \in \mathcal{G}\) 에 대해, \(g'(g(\mathbf{x})) = \mathbf{x}\) (모든 \(\mathbf{x} \in \mathcal{X}\))를 만족하는 \(g' \in \mathcal{G}\) 가 존재한다.

(ii) 합성(Composition): 모든 \(g, g' \in \mathcal{G}\) 에 대해, \(g'(g(\mathbf{x})) = g''(\mathbf{x})\) (모든 \(\mathbf{x} \in \mathcal{X}\))를 만족하는 \(g'' \in \mathcal{G}\) 가 존재한다.

항등원(identity) \(e(\mathbf{x}) = \mathbf{x}\) 가 \(\mathcal{G}\) 에 속한다는 조건은 별도로 명시하지 않아도 (i)과 (ii)로부터 도출된다.

변환군은 대수학의 군(group) 구조를 표본공간 위의 변환에 적용한 것이다. 군 구조가 보장하는 것은:

모든 변환은 되돌릴 수 있다 (역원의 존재)
변환을 연속으로 적용할 수 있다 (합성의 닫힘)

4.2 예시: 이항분포의 변환군

이항분포 예시에서 변환군은 두 개의 원소만 가진다:

\[ \mathcal{G} = \{g_1, g_2\}, \quad g_1(x) = n - x, \quad g_2(x) = x \]

역원 검증: \(g_1(g_1(x)) = g_1(n-x) = n-(n-x) = x\). 각 원소가 자기 자신의 역원이다.

합성 검증: \(g_2(g_1(x)) = g_2(n-x) = n-x = g_1(x)\). 합성 결과가 \(\mathcal{G}\) 에 속한다.

이 변환군은 \(\mathbb{Z}_2\) (2원소 순환군)와 동형이다.

5 불변 가족 (Invariant Family)

등변원리를 적용하려면, 변환 후에도 같은 분포 가족 안에 머물러야 한다.

5.1 정의

정의 6.4.4: 불변 가족

\(\mathcal{F} = \{f(\mathbf{x}|\theta) : \theta \in \Theta\}\) 를 \(\mathbf{X}\) 의 pdf/pmf 가족, \(\mathcal{G}\) 를 표본공간 \(\mathcal{X}\) 의 변환군이라 하자. \(\mathcal{F}\) 가 \(\mathcal{G}\) 하에서 불변(invariant) 이란, 모든 \(\theta \in \Theta\) 와 \(g \in \mathcal{G}\) 에 대해, \(\mathbf{X} \sim f(\mathbf{x}|\theta)\) 일 때 \(\mathbf{Y} = g(\mathbf{X})\) 가 \(f(\mathbf{y}|\theta')\) 를 따르는 유일한 \(\theta' \in \Theta\) 가 존재하는 것이다.

불변 가족은 변환 \(g\) 가 모수 공간 \(\Theta\) 위에 유도된 변환 \(\bar{g} : \theta \mapsto \theta'\) 를 정의한다는 것을 의미한다. 데이터 공간의 변환이 모수 공간의 변환과 연동되어야 한다.

5.2 예시: 이항분포의 불변성

\(X \sim \text{Binomial}(n, p)\) 일 때:

\(g_2(X) = X \sim \text{Binomial}(n, p)\) → \(p' = p\) (항등)
\(g_1(X) = n - X \sim \text{Binomial}(n, 1-p)\) → \(p' = 1-p\)

이항 pmf 가족은 \(\mathcal{G} = \{g_1, g_2\}\) 하에서 불변이다.

6 예시 2: 정규 위치 모수의 등변성

이항분포의 변환군은 유한(2개)이었다. 많은 경우 변환군은 무한이다.

6.1 설정

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\), \(\mu\) 와 \(\sigma^2\) 모두 미지이다.

변환군을 다음과 같이 정의한다:

\[ \mathcal{G} = \{g_a : -\infty < a < \infty\}, \quad g_a(x_1, \ldots, x_n) = (x_1 + a, \ldots, x_n + a) \]

이것은 모든 관측값에 동일한 상수 \(a\) 를 더하는 위치 이동(location shift) 변환이다.

6.2 변환군 검증

역원: \(g_{-a}(g_a(x_1, \ldots, x_n)) = g_{-a}(x_1+a, \ldots, x_n+a) = (x_1, \ldots, x_n)\)

\(g\) 의 역원은 \(g_{-a}\) 이다.

합성: \(g_{a_2}(g_{a_1}(x_1, \ldots, x_n)) = (x_1 + a_1 + a_2, \ldots, x_n + a_1 + a_2) = g_{a_1+a_2}(x_1, \ldots, x_n)\)

\(g_{a_1}\) 과 \(g_{a_2}\) 의 합성은 \(g_{a_1+a_2}\) 이다. \(\mathcal{G}\) 는 덧셈군 \((\mathbb{R}, +)\) 와 동형인 변환군이다.

6.3 불변성 검증

\(X_i \overset{\text{iid}}{\sim} N(\mu, \sigma^2)\) 이면 \(Y_i = X_i + a \overset{\text{iid}}{\sim} N(\mu + a, \sigma^2)\) 이다. \(\theta = (\mu, \sigma^2)\) 이면 \(\theta' = (\mu + a, \sigma^2)\) 이므로, 정규 분포 가족은 \(\mathcal{G}\) 하에서 불변이다.

6.4 위치 등변 추정량

측정 등변성은, \(\mathbf{Y} = g_a(\mathbf{X})\) 일 때

\[ T(\mathbf{Y}) = T(\mathbf{X}) + a \]

를 요구한다. 즉, 모든 관측값에 \(a\) 를 더하면, 추정량도 정확히 \(a\) 만큼 이동해야 한다. 이 조건을 만족하는 추정량을 위치 등변 추정량(location equivariant estimator) 이라 한다.

다음은 위치 등변 추정량의 예이다:

추정량	\(T(\mathbf{x})\)	위치 등변?	검증
표본평균	\(\bar{x}\)	O	\(\overline{x+a} = \bar{x} + a\)
표본중앙값	\(\text{med}(\mathbf{x})\)	O	\(\text{med}(\mathbf{x}+a) = \text{med}(\mathbf{x}) + a\)
절사평균	\(\bar{x}_\alpha\)	O	위치 이동에 대해 등변
최솟값	\(x_{(1)}\)	O	\(\min(x_i + a) = x_{(1)} + a\)
표본분산	\(s^2\)	X	\(s^2(\mathbf{x}+a) = s^2(\mathbf{x})\) (불변이지 등변이 아님)

표본분산은 위치 이동에 대해 불변(invariant) 이다. 불변은 “변하지 않는 것”이고, 등변은 “함께 변하는 것”이다. \(\mu\) 를 추정하는 맥락에서 \(s^2\) 는 위치 등변 추정량이 아니다 — 위치가 바뀌어도 값이 바뀌지 않기 때문이다.

6.5 데이터 축소 효과

위치 등변 추정량 \(T\) 는 다음 성질을 가진다: \(T(\mathbf{x})\) 의 값을 알면, \(T(\mathbf{x}+a) = T(\mathbf{x}) + a\) 이므로 모든 이동에 대한 추정값이 결정된다. 이것이 등변원리가 제공하는 데이터 축소이다 — 일부 표본점에서의 추론이 다른 표본점에서의 추론을 결정한다.

7 예시 3: 척도 모수의 등변성

7.1 설정

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} f(x/\sigma)/\sigma\), \(\sigma > 0\) 인 척도 모수 가족을 고려한다.

변환군은 양수 곱셈이다:

\[ \mathcal{G} = \{g_c : c > 0\}, \quad g_c(x_1, \ldots, x_n) = (cx_1, \ldots, cx_n) \]

7.2 변환군 검증

역원: \(g_{1/c}(g_c(\mathbf{x})) = g_{1/c}(c\mathbf{x}) = \mathbf{x}\)
합성: \(g_{c_2}(g_{c_1}(\mathbf{x})) = g_{c_1 c_2}(\mathbf{x})\)

\(\mathcal{G}\) 는 양수 곱셈군 \((\mathbb{R}^+, \times)\) 와 동형이다.

7.3 불변성과 척도 등변 추정량

\(X_i \sim f(x/\sigma)/\sigma\) 이면 \(Y_i = cX_i \sim f(y/(c\sigma))/(c\sigma)\) 이다. \(\sigma' = c\sigma\) 이므로 척도 모수 가족은 \(\mathcal{G}\) 하에서 불변이다.

척도 등변(scale equivariant) 추정량은 \(T(c\mathbf{x}) = c \cdot T(\mathbf{x})\) 를 만족한다:

추정량	척도 등변?
\(\bar{x}\)	O: \(\overline{cx} = c\bar{x}\)
\(s\) (표본 표준편차)	O: \(s(c\mathbf{x}) = c \cdot s(\mathbf{x})\)
\(\text{med}(\lvert x_i \rvert)\) (절대편차 중앙값)	O
\(x_{(n)} - x_{(1)}\) (범위)	O: \((cx_{(n)} - cx_{(1)}) = c(x_{(n)} - x_{(1)})\)

8 예시 4: 위치-척도 가족의 등변성

8.1 설정

\(X_1, \ldots, X_n \overset{\text{iid}}{\sim} \frac{1}{\sigma}f\!\left(\frac{x-\mu}{\sigma}\right)\), \(\mu \in \mathbb{R}\), \(\sigma > 0\) 인 위치-척도 가족에서 변환군은 아핀 변환이다:

\[ \mathcal{G} = \{g_{a,c} : a \in \mathbb{R},\; c > 0\}, \quad g_{a,c}(x_1, \ldots, x_n) = (cx_1 + a, \ldots, cx_n + a) \]

\(X_i \sim \frac{1}{\sigma}f\!\left(\frac{x-\mu}{\sigma}\right)\) 이면 \(Y_i = cX_i + a \sim \frac{1}{c\sigma}f\!\left(\frac{y-(c\mu+a)}{c\sigma}\right)\) 이므로 \((\mu', \sigma') = (c\mu + a, c\sigma)\) 이다.

위치-척도 등변 추정량: \((\hat{\mu}, \hat{\sigma})\) 가 위치-척도 등변이려면

\[ \hat{\mu}(c\mathbf{x} + a) = c\hat{\mu}(\mathbf{x}) + a, \quad \hat{\sigma}(c\mathbf{x} + a) = c\hat{\sigma}(\mathbf{x}) \]

\((\bar{X}, S)\) 는 위치-척도 등변 추정량이다: \(\overline{cX+a} = c\bar{X}+a\), \(S(c\mathbf{X}+a) = cS(\mathbf{X})\).

9 등변원리와 데이터 축소

9.1 축소 메커니즘

충분성 원리와 우도원리의 축소 메커니즘은 “일부 표본점을 동일하게 취급”하는 것이다. 등변원리의 축소 메커니즘은 다르다:

일부 표본점에서의 추론이 다른 표본점에서의 추론을 결정한다.

이항분포 예시에서, \(T(0), T(1), \ldots, T(\lfloor n/2 \rfloor)\) 를 지정하면 나머지 \(T(\lceil n/2 \rceil), \ldots, T(n)\) 은 \(T(x) = 1 - T(n-x)\) 에 의해 자동 결정된다. 허용 가능한 추정량의 집합이 절반으로 줄어든다.

위치 모수 예시에서, \(T(\mathbf{x}_0)\) 를 하나의 기준점 \(\mathbf{x}_0\) 에서 지정하면, 모든 이동 \(\mathbf{x}_0 + a\) 에 대해 \(T(\mathbf{x}_0 + a) = T(\mathbf{x}_0) + a\) 로 결정된다.

9.2 세 원리의 비교

원리	축소 방식	결과
충분성 원리	\(T(\mathbf{x}) = T(\mathbf{y})\) → 동일 추론	표본을 통계량으로 요약
우도원리	\(L(\theta\|\mathbf{x}) \propto L(\theta\|\mathbf{y})\) → 동일 추론	우도함수가 유일한 요약
등변원리	\(\mathbf{y} = g(\mathbf{x})\) → 추론 간 관계 규정	허용 추론 집합 축소

10 왜 등변원리가 필요한가

10.1 대칭성의 활용

자연 과학과 통계학의 많은 문제는 본질적인 대칭성(symmetry) 을 가진다. 등변원리는 이 대칭성을 추론에 반영하여, 대칭성과 일관된 추정량만 허용한다.

예를 들어, 위치 모수 추정에서 “데이터 전체를 오른쪽으로 5만큼 이동하면 추정값도 5만큼 이동한다”는 것은, 위치 모수의 본질적 대칭성을 반영한 자연스러운 제약이다.

10.2 추정량 탐색의 단순화

등변 추정량 중에서 최적(예: 최소 분산)인 것을 찾는 문제는, 모든 가능한 추정량 중에서 최적인 것을 찾는 문제보다 훨씬 다루기 쉽다. 이것이 등변원리의 실무적 가치이다.

위치 모수에서의 최소 분산 위치 등변 추정량(minimum variance location equivariant estimator, MVLE) — 피트만 추정량(Pitman estimator)으로 알려져 있다
척도 모수에서의 최소 위험 척도 등변 추정량

10.3 한계

형식적 불변성은 수학적 구조만으로 문제를 동일시하므로, 물리적 현실이 다른 두 문제에 같은 절차를 강제할 수 있다. 이 때문에 등변원리는 충분성 원리나 우도원리만큼 보편적으로 받아들여지지는 않는다.

11 코드 예시

11.1 Step 1: 순수 Python 구현 (이항분포 등변성 검증)

이항분포에서 등변 조건 \(T(x) = 1 - T(n-x)\) 를 다양한 추정량에 대해 검증한다.

def check_equivariance_binomial(T, n, name):
    """이항분포 등변 조건 T(x) = 1 - T(n-x) 검증"""
    violations = []
    for x in range(n + 1):
        lhs = T(x, n)
        rhs = 1 - T(n - x, n)
        if abs(lhs - rhs) > 1e-10:
            violations.append((x, lhs, rhs))

    if violations:
        print(f"  {name}: 등변 조건 위반 {len(violations)}건")
        for x, l, r in violations[:3]:
            print(f"    x={x}: T(x)={l:.4f}, 1-T(n-x)={r:.4f}")
    else:
        print(f"  {name}: 등변 조건 만족")


n = 20

# 추정량 1: 표본비율
T1 = lambda x, n: x / n

# 추정량 2: 0.5로 수축
T2 = lambda x, n: 0.9 * (x / n) + 0.1 * 0.5

# 추정량 3: 1로 편향 수축 (비등변)
T3 = lambda x, n: 0.8 * (x / n) + 0.2

# 추정량 4: 베이즈 추정 (균등 사전분포)
T4 = lambda x, n: (x + 1) / (n + 2)

print(f"n = {n} 에서 등변성 검증: T(x) = 1 - T(n-x)")
check_equivariance_binomial(T1, n, "T1 = x/n (표본비율)")
check_equivariance_binomial(T2, n, "T2 = 0.9(x/n) + 0.05 (0.5로 수축)")
check_equivariance_binomial(T3, n, "T3 = 0.8(x/n) + 0.2 (1로 편향)")
check_equivariance_binomial(T4, n, "T4 = (x+1)/(n+2) (베이즈)")

# 데이터 축소 효과: 지정 필요한 값의 수
print(f"\n데이터 축소 효과:")
print(f"  일반 추정량: {n+1}개 값 지정 필요")
print(f"  등변 추정량: {n//2 + 1}개 값 지정 필요 (나머지는 자동 결정)")
print(f"  축소 비율: {(n//2 + 1)/(n+1)*100:.1f}%")

11.2 Step 2: numpy/scipy 구현 (위치 등변 추정량 비교)

위치 모수 추정에서 다양한 등변 추정량의 성능을 시뮬레이션으로 비교한다.

import numpy as np
from scipy.stats import norm, cauchy

np.random.seed(42)

def location_equivariance_check(estimator, data, shift):
    """T(x + a) = T(x) + a 검증"""
    T_original = estimator(data)
    T_shifted = estimator(data + shift)
    return abs(T_shifted - (T_original + shift)) < 1e-10

# 위치 등변 추정량들
estimators = {
    "표본평균": lambda x: np.mean(x),
    "표본중앙값": lambda x: np.median(x),
    "10% 절사평균": lambda x: np.mean(np.sort(x)[len(x)//10:-len(x)//10]),
    "최솟값": lambda x: np.min(x),
    "표본분산": lambda x: np.var(x, ddof=1),
}

# 등변성 검증
data = np.random.normal(loc=5.0, scale=2.0, size=30)
shift = 3.7

print("위치 등변성 검증: T(x + a) = T(x) + a")
print(f"  shift a = {shift}\n")
for name, est in estimators.items():
    is_equivariant = location_equivariance_check(est, data, shift)
    T_orig = est(data)
    T_shift = est(data + shift)
    print(f"  {name:12s}: T(x)={T_orig:.4f}, T(x+a)={T_shift:.4f}, "
          f"T(x)+a={T_orig+shift:.4f}, 등변={'O' if is_equivariant else 'X'}")

# 시뮬레이션: 정규 모형에서 위치 등변 추정량의 MSE 비교
n = 20
mu_true = 0  # 등변성에 의해 mu=0으로 놓아도 일반성 잃지 않음
n_sim = 10000

mse_results = {}
for name, est in estimators.items():
    if name == "표본분산":
        continue  # mu 추정량이 아님
    errors = []
    for _ in range(n_sim):
        x = np.random.normal(mu_true, 1.0, n)
        errors.append((est(x) - mu_true) ** 2)
    mse_results[name] = np.mean(errors)

print(f"\n위치 등변 추정량의 MSE 비교 (N(0,1), n={n}, {n_sim} 반복)")
for name, mse in sorted(mse_results.items(), key=lambda x: x[1]):
    print(f"  {name:12s}: MSE = {mse:.4f}")

# 오염 정규(heavy-tail)에서의 비교
print(f"\n오염 정규 (0.9*N(0,1) + 0.1*N(0,9)) 에서의 MSE")
mse_contam = {}
for name, est in estimators.items():
    if name == "표본분산":
        continue
    errors = []
    for _ in range(n_sim):
        is_contam = np.random.random(n) > 0.9
        x = np.where(is_contam,
                     np.random.normal(0, 3.0, n),
                     np.random.normal(0, 1.0, n))
        errors.append((est(x) - 0) ** 2)
    mse_contam[name] = np.mean(errors)

for name, mse in sorted(mse_contam.items(), key=lambda x: x[1]):
    print(f"  {name:12s}: MSE = {mse:.4f}")

print("\n정규에서는 표본평균이 최적이지만, 오염 정규에서는 절사평균/중앙값이 유리하다")
print("→ 등변 추정량의 선택은 모형 가정에 의존한다")

12 응용 분야

분야	등변원리의 역할	구체적 예시
위치-척도 추정	등변 추정량 클래스 정의	정규/코시/지수 분포에서의 MVLE
분산 분석	처치 효과의 위치 등변 추정	분산 분석에서의 최소제곱 추정량
로버스트 통계	이상치에 강건한 등변 추정량	절사평균, M-추정량
의사결정 이론	최소 위험 등변 추정량	피트만 추정량, James-Stein 추정량
신호 처리	시간 이동에 대한 등변 탐지	위치 불변 탐지기 설계
컴퓨터 비전	회전/이동에 대한 등변 특징	등변 신경망 (equivariant neural networks)

마지막 항목은 현대 딥러닝에서 등변원리가 부활한 사례이다. 합성곱 신경망(CNN)은 이동 등변성을 내재하고 있으며, 최근의 등변 신경망(E(n)-equivariant networks)은 회전, 반사 등의 대칭군에 대한 등변성을 명시적으로 구현한다. 통계학의 등변원리가 머신러닝의 귀납적 편향(inductive bias)으로 재탄생한 것이다.

13 관련 주제

선행 지식

충분성 원리 — 충분통계량의 정의와 인수분해 정리
우도원리 — 우도함수와 비른바움 정리

상위 주제

데이터 축소의 원리 (Overview)

후속 주제

점추정: 최대우도추정법 — MLE의 등변성 (불변성 원리)
가설검정 — 불변 검정 (invariant test)

관련 개념

확률 표본의 성질 — 순서통계량, 표본 분포
순서통계량 — 위치/척도 등변 추정량의 기반

14 참고 문헌

Casella, G. & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury. Chapter 6, Section 6.4.
Lehmann, E. L. & Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer. Chapters 3, 6.
Schervish, M. J. (1995). Theory of Statistics. Springer. Chapter 7.
Stuart, A., Ord, J. K. & Arnold, S. (1999). Kendall’s Advanced Theory of Statistics (6th ed.). Edward Arnold.