정규분포 정의와 표준정규분포로 표준화 하는 방법

728x90

정규분포는 제품 무게, 사람의 키 등 여러 자연적인 현상을 설명하고자 할 때 잘 적합 되기에 널리 사용되고 있다. 내 키가 평균에서 얼마나 가까운지, 제품이 규격에 들어오는지 등을 확인하고자 할 때 유용하게 쓰인다. 종모양(bell curve)의 분포를 가지며, 가우시안 분포(Gaussian distribution)로도 불린다.

정규분포

정규분포는 연속형 확률분포함수로 다음과 같이 정의된다.

$f(x)= \frac{1}{\sqrt{2\pi }\sigma}e^{\frac{-(x-\mu)^2}{2\sigma^2}}, -\infty<x<\infty$

정규분포는 확률밀도함수로, 밀도함수의 곡선 아래 면적으로 구간에 대한 확률을 구할 수 있다.

예를 들어, 정규분포에서 특정값 c 보다 작은 값이 나올 확률은 알고 싶으면 밀도함수에서 c보다 작은 구간의 면적을 구함으로써 그 확률을 알 수 있다.

$\Phi(z_\alpha) = P(Z<z_\alpha) = 1-\alpha = \int_{-\infty}^{z_\alpha} f(Z)dz$

이때, 확률변수 $X$가 평균이 $\mu$이고 분산이 $\sigma^2$인 $f(x)$를 가지는 경우, $X$를 정규분포 $N$을 따르는 확률 변수라고 한다.

$X \sim N[\mu,\sigma^2]$

정규분포는 다음과 같이 평균에 따라 위치가, 분산에 따라 높낮이가 바뀌는 것을 볼 수 있다.

선형불변성

확률변수 $X$가 정규분포를 따를 때 $aX + b$로 변환한 변수도 또다른 정규분포를 따르는 데 이를 선형불변성이라고 한다.

$(aX+b)\sim N[a\mu +b,a^2\sigma^2]$

예를 들어 $X$를 cm로 잰 학생의 키라고 했을 때, 이를 m로 변환한 뒤 신발 높이 0.02m를 빼 준다고 하면 $\frac{1}{100}X – 0.02$로 선형변환할 수 있으며 이 또한 정규분포를 따른다.

표준정규분포

표준정규분포는 $X\sim N[0, 1]$ 인 특수한 정규분포를 의미한다. 정규분포에서 확률을 계산 하기 위해서는 밀도 함수의 곡선 아래 면적을 소프트웨어를 통해 구해야 한다. 하지만 표준정규분포로 표준화 하게 되면 이미 계산되어 있는 표준정규분포표를 참고하여 확률을 구할 수 있기 때문에 매우 간편하다.

정규분포의 선형불변성을 이용해 표준정규분포로 변환하는 식은 다음과 같다.

$X\sim N[\mu,\sigma^2]$

$Z=\frac{X-\mu}{\sigma}=(\frac{1}{\sigma})X+(-\frac{\mu}{\sigma})$

$Z=\frac{X-\mu}{\sigma}\sim N[0,1]$

표준정규분포의 누적확률

표준정규분포에서의 확률을 구하기 위해서는 누적 확률 분포함수를 활용하는 것이 편리하다.

$\Phi(a)=P(Z<a)= \int_{-\infty}^a f(Z)dz$

표준정규분포에 대한 누적분포함수 $\Phi(a)$ 값은 ‘표준정규분포표’로 미리 계산되어 정리되어 있어 참고하면 된다.

예를 들어 $X\sim N[5,2^2]$가 주어졌을 때, $P(X>7)$를 구한다고 하면

$P(X>7)$

$=P(\frac{X-5}{2}>\frac{7-5}{2})$

$=P(Z>1)=1-P(Z<1)$

$=1-\Phi(1)$

$\Phi(1)$는 0.84로, 평균이 5이고 표준편차가 2인 정규분포에서 7보다 큰 값이 나올 확률은 0.16으로 구할 수 있다.

'IT > 통계' 카테고리의 다른 글

선형 회귀 분석 예시로 쉽게 이해하기 (0)	2020.09.30
귀무가설 대립가설 개념 쉽게 이해하기 (0)	2020.09.24
95% 신뢰구간 공식 쉽게 이해하기 (0)	2020.09.24
표준정규분포표 보는법 및 이미지 파일 (0)	2020.09.06
베이즈 정리 예시로 쉽게 이해하기 (0)	2020.08.27