Normality Check

Shapiro-Wilk Test, Anderson–Darling test, Kolmogorov–Smirnov test, and Lilliefors test, qqplot

normality check

Statistics
저자

Kwangmin Kim

공개

2023년 01월 16일

1 Shapiro-Wilk Test

Wiki

논문

원래는 표본의 크기가 50이하인 작은 데이터 셋의 정규성 검정을 위해 고안됨. R 에서는 3~5천개 사이의 표본까지 다룰 수 있도록 조정됨

  • 정규 분포 전용 검정: 모든 검정 대비 최고의 검정력을 보임 (Power), 이상치가 있으면 p value가 너무 작아짐

  • \(H_0\): 데이터가 정규분포를 따른다

  • \(H_a\): 데이터가 정규분포를 따르지 않는다.

  • 검정 통계량 \[ \mathbf W=\frac{(\sum_{i=1}^{n}a_ix_{(i)})^2}{\sum_{i=1}^{n}(x_i-\overline{x})^2} \]

    • \(a_i\) : 미리 정해진 숫자들, \(x\)의 개수에 의해 정해짐
    • \(x_{(i)}\) 들은 순위 표본, 즉 i 번째로 큰 표본
    • 분자는 순서 통계량으로 계산한 정규분포의 분산, 분모는 데이터의 표본 분산 (표본 Sum of Squares)
    • 이미 이론적으로 세팅된 값과 표본 분산의 비율을 보는 것
    • 귀무 가설이 참이면 이론적으로 1 이 나와야 함
    • \(\mathbf W \in (0,1)\), 상관계수의 제곱을 측정한 계량 값이라고 생각해도 된다.
    • \(\mathbf W\) 값이 1에서 멀어질 수록 정규분포와는 다르게 분포되어 있음을 의미
    • 단점: 너무 민감함, 조그만 달라도 p value가 너무 작게 나와 귀무가설이 기각됨
    • 해결책 : 시각화 기법과 같이 사용해서 보여준다
      • qqplot과 density 같이 사용
#| echo: false
#| eval: false
car::qqPlot(data_x, distribution="norm", mean=mean(data_x),sd=sd(data_x),envelop=TRUE)

Subscribe

Enjoy this blog? Get notified of new posts by email: