본문 바로가기
IT/통계

95% 신뢰구간 공식 쉽게 이해하기

by 모던네이쳐 2020. 9. 24.
728x90

 

모집단이 정규분포 일 때, 모평균 $\mu$에 관한 95% 신뢰구간 공식은 다음과 같다. ($z_{0.025} = 1.96$)

 

$P[\bar{X}-z_{0.025}\frac{\sigma}{\sqrt{n}}\leq\mu\leq\bar{X}+z_{0.025}\frac{\sigma}{\sqrt{n}}]=1-\alpha$

 

위 식을 도출하기 위해 다음 내용들을 이해할 필요가 있다.

 

 

 참고로, 수식을 넣으면 바로 설명과 함께 답을 도출해주는 재미있는 사이트가 있다. 흥미가 있다면 여러 문제를 넣어 사용해보는 것이 도움이 된다.

수식을 넣으면 풀이와 함께 답을 내주는 WolframAlpha 사용해보기 >>

WolframAlpha에서는 수식을 넣으면 풀이와 함께 답을 도출해준다.

 

 

 

모집단(Population)과 표본(Sample) 구분하기

 ‘모집단’이란 통계적인 관찰의 대상이 되는 집단 전체를 의미하며 ‘표본’은 모집단에서 어떤 방법으로 일부를 통계의 자료로 선택한 부분을 뜻한다. 예를 들어 우리나라 중학생의 평균 학습시간이 어느 정도 인지 알아보는 것을 목적으로 할 때, 전국 중학생의 실제 학습시간이 ‘모집단’이 되며, 수고로움과 비용을 아끼기 위해 특정 학교의 중학생을 대상으로 학습시간을 집계한 자료가 ‘표본’이 된다. 일반적으로는 비교적 쉽게 구할 수 있는 ‘표본’을 사용하여 ‘모집단’을 추정하고자 한다.

 

Population, Sample

 

표본 평균

 정규분포를 따르는 모집단이 있을 때, 모평균($\mu$)을 표본평균($\bar{X}$)으로 추정하는 문제를 생각해보자. 모집단이 평균 $\mu$, 분산 $\sigma^2$를 가진다고 가정하였을 때, 이 모집단으로부터 추출된 표본들 $X_1, \dots, X_n$ 의 평균은 다음과 같이 정의 가능하다.

 

 

 

 

 

 

 

$\bar{X} = \sum_{i=1}^n\frac{X_i}{n}\sim N[\mu, \frac{\sigma^2}{n}]$

 

$Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N[0,1]$

 

 표본들은 모집단으로부터 독립적으로 추출되었기 때문에 n으로 나누어 평균을 구한 결과는 선형 불변성에 의해 정규분포를 따르게 된다. 또한 이는 Z로도 표준화가 가능하다.

 

 

신뢰구간

 신뢰구간은 주어진 ‘표본’을 사용하여 구한 구간 안에 실제 ‘모집단’의 특성치(여기서는 모평균)가 포함될 가능성이 $1-\alpha$임을 의미한다. 즉, 신뢰 수준 95%라는 의미는 n개의 표본을 사용하여 신뢰구간을 구하는 과정을 100회 반복하였을 때 그중 95개의 구간은 실제 모수를 포함한다는 것을 뜻한다.

 

 

 구간 추정을 하기 위해서는 표준 정규 확률변수 Z가 $\pm z_{\alpha/2}$사이에서 확률이 $1-\alpha$가 된다는 사실을 이용한다. 이를 우리가 구하고자 하는 모평균 $\mu$에 대한 식으로 변형하면 위에서 구했던 신뢰구간 식을 구할 수 있게 된다.

 

 

 

 

 

 

 

 

$P[-z_{\alpha/2} \leq Z \leq z_{\alpha/2}] = 1-\alpha$

 

$P[-z_{\alpha/2} \leq \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \leq z_{\alpha/2}] = 1-\alpha$

 

$P[\bar{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\leq\mu\leq\bar{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}]=1-\alpha$

 

confidence interval

 

 

신뢰구간 추정의 예시

 전국 중학생의 주 평균 학습 시간을 구하고자 한다. 어떤 통계청 자료에 의하면 전국 중학생의 주 평균 학습 시간에 대한 표준편차는 5이라고 한다(모 표준편차가 주어짐). 우리 반 학생 36명을 대상으로 학습시간을 조사한 결과, 평균 학습 시간이 15라고 할 때 신뢰 수준 95%인 신뢰구간을 구하시오.

 

 

$\bar{X}\pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}} = 15 \pm 1.96\frac{5}{\sqrt{36}} = (13.37, 16.63)$

 


 

 신뢰구간은 모집단의 특성치가 포함된 구간을 구하기 위해 나의 표본의 특성치를 사용하는 방법이다. 이때 위 주어진 공식을 사용하기 위해서는 ‘모표준편차’를 알아야 하는데 사실 ‘모평균’을 모르는 상태에서 ‘모표준편차’를 알고 있을 경우는 매우 드물다. 그렇기에 ‘모표준편차’를 대신하기 위해 ‘표본 표준편차’를 대신 사용하기도 하는데 이때는 Z검정이 아닌 T검정을 사용하게 된다.

 

 

 

 

 

 

 

 

추가로, 정규분포에 대한 개념을 쉽게 이해하고자 하면 다음 포스팅을 확인해보시길 바란다.

 

정규분포 정의와 표준정규분포로 표준화 하는 방법

정규분포는 제품 무게, 사람의 키 등 여러 자연적인 현상을 설명하고자 할 때 잘 적합 되기에 널리 사용되고 있다. 내 키가 평균에서 얼마나 가까운지, 제품이 규격에 들어오는지 등을 확인하고

modern-manual.tistory.com