Kwangmin Kim - 피어슨 상관계수의 정의와 한계

1 피어슨 상관계수란

피어슨 상관계수(\(r\) 또는 \(\rho\))는 두 변수 간의 선형적 강도(Strength)와 방향(Direction)을 하나의 수치로 요약한 지표이다. 두 변수의 공분산(Covariance)을 각 변수의 표준편차의 곱으로 정규화한 값이다.

1.1 수학적 정의

모집단 상관계수(Population Correlation Coefficient):

\[\rho_{XY} = \frac{Cov(X, Y)}{\sigma_X \sigma_Y} = \frac{E[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X \sigma_Y}\]

표본 상관계수(Sample Correlation Coefficient):

\[r = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n} (X_i - \bar{X})^2 \sum_{i=1}^{n} (Y_i - \bar{Y})^2}}\]

1.2 수치의 해석

\(r\) 범위	해석	산점도 형태
\(r = 1\)	완전 양의 선형 관계	모든 점이 우상향 직선 위에 놓임
\(0.7 \leq r < 1\)	강한 양의 상관	우상향 타원형
\(0.3 \leq r < 0.7\)	중간 양의 상관	느슨한 우상향
\(0 < r < 0.3\)	약한 양의 상관	거의 원형에 가까움
\(r = 0\)	선형 관계 없음	원형 (단, 비선형 관계는 존재할 수 있음)
\(r < 0\)	음의 상관	우하향 (크기 해석은 양의 경우와 동일)

중요

\(r = 0\)이 “관계가 없다”를 의미하지는 않는다. 정확히는 “선형 관계가 없다”는 뜻이다. \(Y = X^2\)와 같은 명확한 관계가 있더라도 \(r \approx 0\)이 나올 수 있다.

1.3 선형적 응집도의 기하학적 의미

산점도(Scatter Plot)에서 데이터 포인트들이 하나의 직선에 얼마나 조밀하게 모여 있는지를 나타낸다. \(|r|\)이 1에 가까울수록 데이터는 완벽한 직선 위에 놓이게 된다.

기하학적으로, 피어슨 상관계수는 표준화된 두 변수 벡터 사이의 코사인 값과 동일하다:

\[r = \cos\theta\]

여기서 \(\theta\)는 \(n\)차원 공간에서 표준화된 \(X\)와 \(Y\) 벡터가 이루는 각도이다. \(r = 1\)이면 두 벡터가 같은 방향(\(\theta = 0°\)), \(r = -1\)이면 반대 방향(\(\theta = 180°\)), \(r = 0\)이면 직교(\(\theta = 90°\))이다.

2 결정계수 (\(R^2\))와의 관계

상관계수의 제곱인 결정계수(Coefficient of Determination)는 한 변수의 변동성이 다른 변수에 의해 얼마나 설명되는지를 나타낸다.

\[R^2 = r^2\]

예를 들어 \(r = 0.9\)라면, \(Y\) 변동의 81%(\(0.9^2\))를 \(X\)와의 선형적 관계로 설명할 수 있다는 뜻이다. 나머지 19%는 다른 변수들이나 무작위 오차에 의한 변동이다.

노트

\(r = 0.7\)은 “꽤 높은 상관관계”로 느껴지지만, \(R^2 = 0.49\)이므로 설명력은 절반에도 미치지 못한다. 상관계수의 크기를 직관적으로 과대 평가하기 쉬우므로, \(R^2\)로 변환하여 해석하는 습관이 중요하다.

\(r\)	\(R^2\)	설명력
0.9	0.81	81%
0.8	0.64	64%
0.7	0.49	49%
0.5	0.25	25%
0.3	0.09	9%

3 핵심적 한계

3.1 1. 비선형 관계 (Non-linear Relationship)

피어슨 상관계수는 오직 선형적 관계만 포착한다. 두 변수가 \(Y = X^2\), \(Y = \sin(X)\), \(Y = e^X\)와 같은 명확한 함수적 관계를 가질지라도, 해당 관계가 직선이 아니면 \(r\)은 0에 가깝게 나올 수 있다.

import numpy as np
from scipy.stats import pearsonr

x = np.linspace(-3, 3, 100)
y_linear = 2 * x + 1          # 선형: r ≈ 1.0
y_quadratic = x ** 2           # 이차: r ≈ 0.0
y_sine = np.sin(x)            # 사인: r ≈ 0.0

print(f"선형:   r = {pearsonr(x, y_linear)[0]:.3f}")
print(f"이차:   r = {pearsonr(x, y_quadratic)[0]:.3f}")
print(f"사인:   r = {pearsonr(x, y_sine)[0]:.3f}")

따라서 “상관계수가 낮다 = 관계가 없다”는 성립하지 않는다. 반드시 산점도를 시각적으로 확인해야 한다.

3.2 2. 이상치 (Outliers)

피어슨 상관계수는 평균과 표준편차를 기반으로 하기 때문에 단 하나의 극단적인 이상치에 의해서도 수치가 크게 왜곡될 수 있다.

경고

Anscombe의 사중주(Anscombe’s Quartet): 네 개의 전혀 다른 데이터셋이 동일한 평균, 분산, 상관계수(\(r = 0.816\))를 가지는 유명한 예시이다. 이는 요약 통계량만으로 데이터의 구조를 판단하는 것이 얼마나 위험한지를 보여준다. 반드시 시각화와 함께 해석해야 한다.

3.3 3. 허위 상관 (Spurious Correlation)

상관계수가 높다고 해서 반드시 인과관계(Causality)가 있는 것은 아니다. 제3의 변수(교란 변수, Confounding Variable)가 두 변수 모두에 영향을 미쳐 가짜 상관을 만들어낼 수 있다.

예시:

아이스크림 판매량과 익사 사고 건수는 높은 양의 상관관계를 보이지만, 인과관계는 없다. 교란 변수인 “기온”이 두 변수 모두를 증가시키기 때문이다.
“닉 케이지 영화 출연 횟수”와 “수영장 익사 사고 수”의 높은 상관관계는 완전한 우연의 일치이다.

3.4 4. 범위 제한 (Range Restriction)

데이터가 전체 범위의 일부분만 포함하면 상관계수가 실제보다 과소 추정될 수 있다. 예를 들어, 전체 학생의 SAT 점수와 대학 GPA의 상관은 높지만, 특정 대학에 합격한 학생들만 분석하면 SAT 범위가 좁아지면서 상관이 낮게 나타난다.

3.5 5. 비정규성 (Non-normality)

피어슨 상관계수의 검정 통계량은 두 변수가 이변량 정규분포(Bivariate Normal Distribution)를 따른다는 가정 하에 유도된다. 심하게 치우친(Skewed) 분포나 중후미(Heavy-tailed) 분포에서는 \(p\)-value의 신뢰도가 떨어진다.

4 실무에서의 활용 기준

\(\|r\|\) 범위	일반적 해석	실무적 의미
\(0.9 \sim 1.0\)	매우 강한 상관	다중공선성(Multicollinearity) 의심, 변수 제거 검토
\(0.7 \sim 0.9\)	강한 상관	모델링 시 다중공선성 점검 필요
\(0.4 \sim 0.7\)	중간 상관	예측 변수로 유용할 수 있음
\(0.2 \sim 0.4\)	약한 상관	단독으로는 설명력 부족, 다른 변수와 결합
\(0.0 \sim 0.2\)	매우 약한/무상관	선형적 관계 없음 (비선형 관계 가능)

힌트

실무에서 \(|r| > 0.7\) 이상인 변수 쌍은 다중공선성(Multicollinearity)을 일으킬 수 있어 변수 선택(Feature Selection)의 근거로 활용한다. VIF(Variance Inflation Factor)와 함께 확인하는 것이 좋다.

5 대안적 상관 측도

5.1 1. 스피어만 순위 상관계수 (Spearman’s \(\rho_s\))

원래 값 대신 순위(Rank)를 사용하여 상관계수를 계산한다. 단조(Monotonic) 관계를 탐지하며, 이상치에 강건하다.

\[\rho_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}\]

여기서 \(d_i = rank(X_i) - rank(Y_i)\)이다.

장점: 비선형이지만 단조적인 관계(예: \(Y = \log X\))를 탐지, 이상치에 강건
적용: 순서형 데이터, 정규성 가정이 깨지는 경우

5.2 2. 켄달 순위 상관계수 (Kendall’s \(\tau\))

모든 관측치 쌍의 일치 쌍(Concordant Pairs)과 불일치 쌍(Discordant Pairs)의 비율로 계산한다.

\[\tau = \frac{C - D}{\frac{1}{2}n(n-1)}\]

\(C\): 일치 쌍 수 (\(X_i > X_j\)이고 \(Y_i > Y_j\)인 쌍)
\(D\): 불일치 쌍 수
장점: 소표본에서 스피어만보다 안정적, 동순위(Ties) 처리가 용이
적용: 소표본, 동순위가 많은 데이터

5.3 3. 상호 정보량 (Mutual Information)

정보 이론에 기반한 측도로, 선형/비선형을 불문하고 모든 종류의 의존성을 측정한다.

\[I(X; Y) = \sum_{x,y} p(x, y) \log \frac{p(x, y)}{p(x)p(y)}\]

\(I(X; Y) = 0\)이면 \(X\)와 \(Y\)는 통계적으로 독립
값이 클수록 두 변수 사이의 의존성이 강함
장점: 비선형적인 복잡한 의존성도 탐지
한계: 연속 변수에서는 추정이 어렵고, 해석이 직관적이지 않음
적용: 변수 간의 비선형 의존성 탐색, Feature Selection

5.4 4. 거리 상관 (Distance Correlation)

모든 종류의 의존성을 탐지하며, 값이 0이면 두 변수가 통계적으로 독립임을 보장한다 (피어슨과 달리).

장점: \(dCor = 0 \iff\) 독립 (피어슨은 \(r = 0\)이어도 독립이 아닐 수 있음)
한계: 계산 비용이 높음 (\(O(n^2)\))

5.5 측도 비교

측도	관계 유형	이상치 강건성	독립성 판정	계산 비용
피어슨 \(r\)	선형만	약함	불완전	\(O(n)\)
스피어만 \(\rho_s\)	단조	강함	불완전	\(O(n \log n)\)
켄달 \(\tau\)	단조	강함	불완전	\(O(n^2)\)
상호 정보량	모든 유형	중간	완전	추정 방법에 의존
거리 상관	모든 유형	중간	완전	\(O(n^2)\)

힌트

분석의 첫 단계에서는 피어슨, 스피어만, 산점도를 함께 확인하는 것을 권장한다. 피어슨과 스피어만의 결과가 크게 다르면 비선형 관계나 이상치가 존재할 가능성이 높다.