Processing math: 48%
본문 바로가기
IT/통계

정규분포 정의와 표준정규분포로 표준화 하는 방법

by 모던네이쳐 2020. 9. 8.
728x90

 정규분포는 제품 무게, 사람의 키 등 여러 자연적인 현상을 설명하고자 할 때 잘 적합 되기에 널리 사용되고 있다. 내 키가 평균에서 얼마나 가까운지, 제품이 규격에 들어오는지 등을 확인하고자 할 때 유용하게 쓰인다. 종모양(bell curve)의 분포를 가지며, 가우시안 분포(Gaussian distribution)로도 불린다.

 

 

정규분포

 정규분포는 연속형 확률분포함수로 다음과 같이 정의된다.

 

f(x)=12πσe(xμ)22σ2,<x<

 

 정규분포는 확률밀도함수로, 밀도함수의 곡선 아래 면적으로 구간에 대한 확률을 구할 수 있다.

 예를 들어, 정규분포에서 특정값 c 보다 작은 값이 나올 확률은 알고 싶으면 밀도함수에서 c보다 작은 구간의 면적을 구함으로써 그 확률을 알 수 있다.  

 

Φ(zα)=P(Z<zα)=1α=zαf(Z)dz

 

정규분포 확률밀도함수

 이때, 확률변수 X가 평균이 μ이고 분산이 σ2f(x)를 가지는 경우, X를 정규분포 N을 따르는 확률 변수라고 한다.

XN[μ,σ2]

 

정규분포는 다음과 같이 평균에 따라 위치가, 분산에 따라 높낮이가 바뀌는 것을 볼 수 있다.

 

선형불변성

 확률변수 X가 정규분포를 따를 때 aX+b로 변환한 변수도 또다른 정규분포를 따르는 데 이를 선형불변성이라고 한다.

 

(aX+b)N[aμ+b,a2σ2]

 

 예를 들어 X를 cm로 잰 학생의 키라고 했을 때, 이를 m로 변환한 뒤 신발 높이 0.02m를 빼 준다고 하면 \frac{1}{100}X – 0.02로 선형변환할 수 있으며 이 또한 정규분포를 따른다.

 

 

표준정규분포

 표준정규분포는 X\sim N[0, 1] 인 특수한 정규분포를 의미한다. 정규분포에서 확률을 계산 하기 위해서는 밀도 함수의 곡선 아래 면적을 소프트웨어를 통해 구해야 한다. 하지만 표준정규분포로 표준화 하게 되면 이미 계산되어 있는 표준정규분포표를 참고하여 확률을 구할 수 있기 때문에 매우 간편하다.

 정규분포의 선형불변성을 이용해 표준정규분포로 변환하는 식은 다음과 같다.

 

X\sim N[\mu,\sigma^2]

Z=\frac{X-\mu}{\sigma}=(\frac{1}{\sigma})X+(-\frac{\mu}{\sigma})

Z=\frac{X-\mu}{\sigma}\sim N[0,1]

 

 

표준정규분포의 누적확률

 표준정규분포에서의 확률을 구하기 위해서는 누적 확률 분포함수를 활용하는 것이 편리하다.

 

\Phi(a)=P(Z<a)= \int_{-\infty}^a f(Z)dz

 

 표준정규분포에 대한 누적분포함수 \Phi(a) 값은 ‘표준정규분포표’로 미리 계산되어 정리되어 있어 참고하면 된다.

 

 예를 들어 X\sim N[5,2^2]가 주어졌을 때, P(X>7)를 구한다고 하면

 

 P(X>7)

 =P(\frac{X-5}{2}>\frac{7-5}{2})

 =P(Z>1)=1-P(Z<1)

 =1-\Phi(1)

 

\Phi(1)는 0.84로, 평균이 5이고 표준편차가 2인 정규분포에서 7보다 큰 값이 나올 확률은 0.16으로 구할 수 있다.