본문 바로가기
IT/통계

정규분포 정의와 표준정규분포로 표준화 하는 방법

by 모던네이쳐 2020. 9. 8.
728x90

 정규분포는 제품 무게, 사람의 키 등 여러 자연적인 현상을 설명하고자 할 때 잘 적합 되기에 널리 사용되고 있다. 내 키가 평균에서 얼마나 가까운지, 제품이 규격에 들어오는지 등을 확인하고자 할 때 유용하게 쓰인다. 종모양(bell curve)의 분포를 가지며, 가우시안 분포(Gaussian distribution)로도 불린다.

 

 

정규분포

 정규분포는 연속형 확률분포함수로 다음과 같이 정의된다.

 

$f(x)= \frac{1}{\sqrt{2\pi }\sigma}e^{\frac{-(x-\mu)^2}{2\sigma^2}}, -\infty<x<\infty$

 

 정규분포는 확률밀도함수로, 밀도함수의 곡선 아래 면적으로 구간에 대한 확률을 구할 수 있다.

 예를 들어, 정규분포에서 특정값 c 보다 작은 값이 나올 확률은 알고 싶으면 밀도함수에서 c보다 작은 구간의 면적을 구함으로써 그 확률을 알 수 있다.  

 

$\Phi(z_\alpha) = P(Z<z_\alpha) = 1-\alpha = \int_{-\infty}^{z_\alpha} f(Z)dz$

 

정규분포 확률밀도함수

 이때, 확률변수 $X$가 평균이 $\mu$이고 분산이 $\sigma^2$인 $f(x)$를 가지는 경우, $X$를 정규분포 $N$을 따르는 확률 변수라고 한다.

$X \sim N[\mu,\sigma^2]$

 

정규분포는 다음과 같이 평균에 따라 위치가, 분산에 따라 높낮이가 바뀌는 것을 볼 수 있다.

 

선형불변성

 확률변수 $X$가 정규분포를 따를 때 $aX + b$로 변환한 변수도 또다른 정규분포를 따르는 데 이를 선형불변성이라고 한다.

 

$(aX+b)\sim N[a\mu +b,a^2\sigma^2]$

 

 예를 들어 $X$를 cm로 잰 학생의 키라고 했을 때, 이를 m로 변환한 뒤 신발 높이 0.02m를 빼 준다고 하면 $\frac{1}{100}X – 0.02$로 선형변환할 수 있으며 이 또한 정규분포를 따른다.

 

 

표준정규분포

 표준정규분포는 $X\sim N[0, 1]$ 인 특수한 정규분포를 의미한다. 정규분포에서 확률을 계산 하기 위해서는 밀도 함수의 곡선 아래 면적을 소프트웨어를 통해 구해야 한다. 하지만 표준정규분포로 표준화 하게 되면 이미 계산되어 있는 표준정규분포표를 참고하여 확률을 구할 수 있기 때문에 매우 간편하다.

 정규분포의 선형불변성을 이용해 표준정규분포로 변환하는 식은 다음과 같다.

 

$X\sim N[\mu,\sigma^2]$

$Z=\frac{X-\mu}{\sigma}=(\frac{1}{\sigma})X+(-\frac{\mu}{\sigma})$

$Z=\frac{X-\mu}{\sigma}\sim N[0,1]$

 

 

표준정규분포의 누적확률

 표준정규분포에서의 확률을 구하기 위해서는 누적 확률 분포함수를 활용하는 것이 편리하다.

 

$\Phi(a)=P(Z<a)= \int_{-\infty}^a f(Z)dz$

 

 표준정규분포에 대한 누적분포함수 $\Phi(a)$ 값은 ‘표준정규분포표’로 미리 계산되어 정리되어 있어 참고하면 된다.

 

 예를 들어 $X\sim N[5,2^2]$가 주어졌을 때, $P(X>7)$를 구한다고 하면

 

 $P(X>7)$

 $=P(\frac{X-5}{2}>\frac{7-5}{2})$

 $=P(Z>1)=1-P(Z<1)$

 $=1-\Phi(1)$

 

$\Phi(1)$는 0.84로, 평균이 5이고 표준편차가 2인 정규분포에서 7보다 큰 값이 나올 확률은 0.16으로 구할 수 있다.