1 Shapiro-Wilk Test
원래는 표본의 크기가 50이하인 작은 데이터 셋의 정규성 검정을 위해 고안됨. R 에서는 3~5천개 사이의 표본까지 다룰 수 있도록 조정됨
정규 분포 전용 검정: 모든 검정 대비 최고의 검정력을 보임 (Power), 이상치가 있으면 p value가 너무 작아짐
\(H_0\): 데이터가 정규분포를 따른다
\(H_a\): 데이터가 정규분포를 따르지 않는다.
검정 통계량 \[ \mathbf W=\frac{(\sum_{i=1}^{n}a_ix_{(i)})^2}{\sum_{i=1}^{n}(x_i-\overline{x})^2} \]
- \(a_i\) : 미리 정해진 숫자들, \(x\)의 개수에 의해 정해짐
- \(x_{(i)}\) 들은 순위 표본, 즉 i 번째로 큰 표본
- 분자는 순서 통계량으로 계산한 정규분포의 분산, 분모는 데이터의 표본 분산 (표본 Sum of Squares)
- 이미 이론적으로 세팅된 값과 표본 분산의 비율을 보는 것
- 귀무 가설이 참이면 이론적으로 1 이 나와야 함
- \(\mathbf W \in (0,1)\), 상관계수의 제곱을 측정한 계량 값이라고 생각해도 된다.
- \(\mathbf W\) 값이 1에서 멀어질 수록 정규분포와는 다르게 분포되어 있음을 의미
- 단점: 너무 민감함, 조그만 달라도 p value가 너무 작게 나와 귀무가설이 기각됨
- 해결책 : 시각화 기법과 같이 사용해서 보여준다
- qqplot과 density 같이 사용