가설검정은 모집단에 대해 알려진 정보(귀무가설)에 대해 나의 표본을 통해 정보가 맞지 않다고 주장(대립 가설) 하기 위한 방법이다. 이를 쉽게 이해하기 위해 다음 내용들을 하나씩 살펴보자.
귀무가설 대립가설 정의
귀무가설은 모집단에 대해 사실이라고 알려진 특성치에 대한 정보이다. 예를 들어 ‘1번 버스의 배차간격은 평균 10분이다.’라는 안내문구가 귀무가설이 될 수 있다.
대립가설은 모집단으로부터 추출된 표본자료를 통해 귀무가설과 대치됨을 입증하고자 하는 가설을 의미한다. 예를 들어 하루 동안 1번 버스의 배차 간격을 측정한 나의 표본에 의해 ‘1번 버스의 배차 간격은 평균 10분보다 크다.’가 대립 가설이 될 수 있다.
가설검정은 무죄추정의 원칙에 빗대어 생각해볼 수 있다. 유죄라는 강력한 증거가 나오지 않는 이상 유죄로 판정할 수 없는 것처럼, 귀무가설에 반하는 강력한 검정 결과가 나오지 않으면 귀무가설이 틀렸다고 기각할 수 없다.
가설 유형
가설의 유형에는 3가지가 있다. 모집단의 모평균에 대한 가설을 검정하고자 할 때 귀무가설은 다음과 같이 둘 수 있다.
$H_0 : \mu = \mu_0$
대립가설은 다음과 같이 나눌 수 있다.
- 왼 꼬리 검정(단측검정) $H_1 : \mu < \mu_0$
- 오른 꼬리 검정(단측검정) $H_1 : \mu > \mu_0$
- 양쪽 꼬리 검정(양측검정) $H_1 : \mu \neq \mu_0$
버스 배차간격 예시를 표현하면 귀무가설 $H_0 : \mu = 10$, 대립 가설 $H_1 : \mu > 10$ 와 같다.
검정 통계량
가설이 잘 정리되었다면 다음 순서로 확인해야 할 것은 검정 통계량이다. 표본으로부터 계산된 통계량(버스 예시에서는 표본 평균)이 가설 검정에 활용될 때에 검정 통계량이라고 부른다.
검정 통계량의 표본 분포는 다음과 같다.
$\bar{X} \sim N[\mu, \frac{\sigma^2}{n}]$
검정 통계량인 표본 평균을 정규화하면 추후 표준 정규분포를 사용하여 확률 값을 쉽게 구할 수 있다.
$Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N[0,1]$
가설검정은 귀무가설이 사실이라는 가정에서부터 시작한다. 여기서 만약 귀무가설 $H_0 : \mu = \mu_0$ 가 사실이라면 다음 식이 사실이어야 한다.
$Z = \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\sim N[0,1]$
이때, 표본자료로부터 계산된 검정 통계량($\bar {X}$)을 위와 같이 정규화한 값을 $z_0$이라고 하자. 이 $z_0$가 표준 정규 $N[0,1]$에서 나올 확률이 희박하다면 귀무가설을 기각할 확률이 높아진다.
유의 확률 (p-value)
검정 통계량의 관찰 값 $z_0$가 표준정규에서 나왔을 확률이 희박하다고 결론 짓기 위해서는 얼마나 극단적인 값이 관찰되어야 하는지 정의할 필요가 있다. 귀무가설 하의 분포에서 검정통계량의 관찰값 $z_0$보다 더 극단적인 값이 관찰될 확률을 유의 확률이라고 한다. 다음과 같이 가설 유형에 따라 p-value를 구하는 구간은 달라진다.
- 왼 꼬리 검정(단측 검정) p-value = $P[Z > z_0]$
- 오른 꼬리 검정(단측검정) p-value = $P[Z < z_0]$
- 양쪽 꼬리 검정(양측 검정) p-value = $min(P[Z > z_0], P[Z < z_0]) \times 2$
버스 배차시간 예시에서 $z_0$가 1.5로 주어진다면 왼 꼬리 검정에 따라 p-value = $P[Z > 1.5]$임을 알 수 있다. 이렇게 유의 확률 값이 작을수록 해당 표본은 귀무가설이 사실인 모집단의 표본으로 보기 어렵기에 대립 가설을 더욱 지지하게 된다.
유의 수준(Significance level) 100$\alpha$ 검정법
유의 수준은 가설검정에서 발생할 수 있는 제 1종 오류의 최대허용한계이다. 제 1종 오류는 귀무가설을 기각하는 결론을 내렸지만 실제 귀무가설이 사실인 오류를 의미한다. 즉, 우연히 표본들이 치우친 값을 가져 희소한 확률로 귀무가설이 사실임에도 이를 기각하는 오류를 범할 수 있다. 이러한 오류의 가능성을 허용하는 정도를 유의수준이라고 한다. 유의수준은 일반적으로 0.05, 0.01 값을 사용하여 각각 95%, 99%의 신뢰성을 추구한다.
앞서 구한 p-value를 사용하여 유의 수준과 비교한 뒤 귀무가설 기각 여부를 결정한다.
즉, $p-value \leq \alpha$ 인 경우 검정 통계량이 나타날 확률이 유의 수준보다 더 희소한 확률임을 보이기에 귀무가설을 기각한다.
버스 배차시간 예시에서 구한 p-value = $P[Z > 1.5] = 0.067$은 유의 수준 0.05에 비해 크기 때문에 귀무가설을 기각하지 못하는 결론이 나온다.
'IT > 통계' 카테고리의 다른 글
로지스틱 회귀 분석 예시로 쉽게 이해하기 (0) | 2020.09.30 |
---|---|
선형 회귀 분석 예시로 쉽게 이해하기 (0) | 2020.09.30 |
95% 신뢰구간 공식 쉽게 이해하기 (0) | 2020.09.24 |
정규분포 정의와 표준정규분포로 표준화 하는 방법 (0) | 2020.09.08 |
표준정규분포표 보는법 및 이미지 파일 (0) | 2020.09.06 |