(Draft, 바쁘니까 일단 대충이라도 적어놓음 ㅠ)
1 Description
ANCOVA (Analysis of Covariance, ANCOVA)
- ANOVA에 공변량 (covariate)을 추가하여 분석 수행
- 공변량을 조정하여 독립변수의 순수한 영향을 검정
- 공변량: 연속형 변수로 한정
2 Example
2.1 Load Libraries and Data
2.2 Data Description
R console에 ?sexab를 입력하면 다음과 같은 설명이 나온다.
Post traumatic stress disorder in abused adult females
The data for this example come from a study of the effects of childhood sexual abuse on adult females. 45 women being treated at a clinic, who reported childhood sexual abuse, were measured for post traumatic stress disorder and childhood physical abuse both on standardized scales. 31 women also being treated at the same clinic, who did not report childhood sexual abuse were also measured. The full study was more complex than reported here and so readers interested in the subject matter should refer to the original article.
즉, 요약하면 아동기에 성폭력을 겸험한 성인들의 정신 건강을 측정한 데이터로서, 아동기의 성폭력 경험과 학대 경험이 성인기의 정신건강에 유의한 영향을 미치는지에 대한 실험을 한 것이다.
이 data는 3개의 변수와 76개의 samples을 포함한다.
- cpa : Childhood physical abuse on standard scale, covariate
- ptsd : post-traumatic stress disorder on standard scale, response variable
- csa : Childhood sexual abuse - abused or not abused, independent variable
친절하게 response variable, independent variable 및 covariate을 규명해놓았다.
3 EDA
3.1 Descriptive Statistics
temp<-describeBy(ptsd~csa,data=sexab)
temp<-rbind('abused'=temp$Abused,'notAbused'=temp$NotAbused)%>%
as.data.frame()
temp%>%knitr::kable()
위의 요약된 기술 통계량들 중 표준 편차는 유사하지만 평균 ptsd가 약 [값]의 차이를 보여준다. 아래의 histogram역시 성폭력을 경험한 그룹과 경험하지 않은 그룹간의 PTSD 수치가 다른것을 볼 수 있다.
3.2 One-Way ANOVA
성폭력 경험 유무에 따른 PTSD 평균 차이가 통계적으로 유의한지 확인하기 위해 ANOVA를 수행한다.
집단간 변수 csa p value가 <0.05 인 것을 확인할 수 있다. csa는 5% 유의수준에서 유의하다.
하지만 PTSD의 변동량은 아동 학대에 의해 설명될 수도 있기 때문에 ptsd의 평균은 csa뿐만 아니라 cpa에 또한 고려되어야한다.
ggplot(data=sexab,aes(x=cpa,y=ptsd))+geom_point()+geom_smooth(method="lm")+
labs(title="Scatter Plot, PTSD vs CPA", x="CPA", y="PTSD")
correlation<-cor.test(sexab$cpa,sexab$ptsd, method='pearson')그림과 같이 CPA가 증가하면서 PTSD또한 선형적으로 증가하는 패턴을 관찰할 수 있다. 두 변수간의 상관계수 = [값]이고 p value= [값]으로 보아 두 변수 사이에 선형적인 상관관계가 있는 것으로 보인다.
ggplot(data=sexab,aes(x=cpa,y=ptsd))+geom_point()+geom_smooth(method="lm")+
facet_wrap(.~csa)+
labs(title="Scatter Plot, PTSD vs CPA Grouped By CSA", x="CPA", y="PTSD")아동기 성폭력 경험 유/무에도 PTSD와 CPA와 선형적인 관계가 있는 것으로 보이기 때문에 CSA의 PTSD로의 효과를 검정하기 위해선 CPA를 조정할 필요가 있는것으로 보인다.
# ptsd로의 순수한 성폭력 경험의 영향도를 얻기 위해서는 아동기 신체적 학대(공변량)에 대해서 고려를 해줘야함
sexab_aov<-aov(ptsd~cpa+csa, data=sexab)
summary(sexab_aov)아동기의 신체적 학대가 일정하다는 가정하에서 PTSD와 성폭력의 순수한 관계는 5% 유의수준에서 유의하고 공변량, CPA를 조정하기전과 그 유의성이 차이가 있음을 관찰할 수 있다.
두 csa집단에서 두 회귀선의 기울기 같고 절편이 다르게 나타나는 것을 관찰 할 수있다. 기울기가 같은 이유는 cpa가 ptsd에 영향을 미치는 정도가 두집단에서 일정하도록 공변량으로서 통제 했기 때문이다.