베이즈 정리는 어떤 사전지식이 있을 때 이 지식을 이용해 관심있는 사건이 일어날 확률을 구하는데 사용된다.
예를 들어 ‘당뇨병 발생률은 10%’와 ‘당뇨 진단 정확률은 95%’라는 사전지식이 있다면 ‘당뇨로 진단 받은 환자가 실제 당뇨일 확률’을 알 수 있다. 우선 베이즈 정리를 사용하기 전에 사전확률, 사후 확률, 조건부 확률을 이해할 필요가 있다.
사전 확률(Prior probability)
$P(A)$
사건 $B$가 발생하기 전, 사건 $A$의 확률을 의미한다. 예를 들어 환자가 당뇨병일 확률을 $P(A)$로 나타낼 수 있다.
사후 확률(Posterior Probability)
$P(A|B)$
사건 $B$가 발생한 후 수정된 $A$의 확률을 의미한다. "사전 확률"인 사건 $A$가 $B$라는 사건에 영향을 받은 경우를 표현하기 위해 "사후 확률"이라는 명칭이 사용된다. 예를 들어 환자가 당뇨진단을 받은 경우, 실제 당뇨병일 확률을 $P(A|B)$로 나타낼 수 있다
조건부 확률(Conditional Probability)
$P(A|B) = \frac{P(A\cap B)}{P(B)}$
사건 $B$가 발생한 후 수정된 $A$의 확률을 의미하며, 사후 확률과 동일한 수식이 사용가능하다. 다만, 사건들의 교집합에 개별 사건을 나눈 결과로 표현할 수 있다는 것을 의미하기 위해서 사용된다.
간단한 예로, 주사위를 던진 결과가 짝수라는 조건$(P(B)=1/2)$이 있을 때 내 주사위가 2일 확률$(P(A\cap B)=1/6)$은 $\frac{P(A\cap B)}{P(B)} = \frac{P(1/6)}{P(1/2)} = \frac{1}{3} $로 구할 수 있다.
베이즈 정리에서 사용하기 위해서는 다음 수식들을 추가로 이해할 필요가 있다.
$P(B|A) = \frac{P(A\cap B)}{P(A)}$
$P(A\cap B) = P(B|A)P(A) = P(A|B)P(B)$
즉, $A$사건과 $B$사건의 교집합은 $P(B|A)P(A)$ 또는 $P(A|B)P(B)$로 치환되어 사용가능하다.
베이즈 정리(Bayes' Theorem)
베이즈 정리를 사용하기 위해서는 다음 두 조건을 만족해야 한다.
- $A_1, \dots, A_k$는 서로소여야 한다. 즉 서로간의 교집합이 0이 되어야 한다
- $A_1, \dots, A_k$를 모두 합집합 하였을 때 전체 집합 $S$가 되어야 한다
베이즈 정리는 다음과 같다.
$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$
자세히 보면, 조건부 확률 때 언급된 $P(B|A)P(A)$ 식을 사용하여 사후확률을 구한 것을 볼 수 있다. 참고로 이때 $P(B|A)$부분을 가능도(likelihood) 또는 우도라고 표현한다.
이를 확장하면 다음과 같다.
$P(A_i|B) = \frac{P(A_i\cap B)}{P(B)} = \frac{P(B|A_i)P(A_i)}{P(B|A_1)P(A_1)+\dots +P(B|A_k)P(A_k)}$
간단히 말해 $P(B|A)$의 정보가 있을 때 $P(A|B)$를 구하는 방법이다.
위 당뇨병의 예시를 들면,
- 당뇨병 발생률은 10%, 당뇨 진단 정확률은 95%
- $P(A_1)$ : 당뇨병일 확률
- $P(A_2)$ : 당뇨병이 아닐 확률
- $P(B)$ : 당뇨로 진단 받을 확률
- $P(B|A_1)P(A_1)$ : 당뇨병일 때 당뇨로 (옳게) 진단 받을 확률
- $P(B|A_2)P(A_2)$ : 당뇨병이 아닐 때 당뇨로 (잘못) 진단 받을 확률
- $P(A_1|B)$ : 당뇨로 진단 받았을 때 실제 당뇨병일 확률
베이즈 정리에 따라, 당뇨로 진단 받았을 때 실제 당뇨병일 확률$P(A_1|B) $을 구하기 위해서는 실제 당뇨인 케이스 $P(B|A_1)P(A_1)$를 당뇨로 진단받을 수 있는 전체 케이스 $P(B|A_1)P(A_1)+P(B|A_2)P(A_2)$ 로 나누면 된다. 즉 $P(A_1|B)=\frac{P(B|A_1)P(A_1)}{P(B|A_1)P(A_1)+P(B|A_2)P(A_2)} = \frac{0.95*0.1}{0.95*0.1+0.05*0.9} $ 로 구할 수 있다.
베이즈 정리는 조건부 확률을 뒤집은 결과를 구할 수 있기 때문에 여러 분야에서 아주 중요하게 쓰이고 있다. 당뇨를 진단해왔던 임상 결과들을 통해 현재 환자의 당뇨병 여부를 확인하는 예시와 마찬가지로, $P(B|A)$의 정보를 쉽게 구할 수 있는 경우 이를 뒤집은 $P(A|B)$ 를 구할 수 있어 의미있는 결론을 도출해낼 수 있다.
'IT > 통계' 카테고리의 다른 글
선형 회귀 분석 예시로 쉽게 이해하기 (0) | 2020.09.30 |
---|---|
귀무가설 대립가설 개념 쉽게 이해하기 (0) | 2020.09.24 |
95% 신뢰구간 공식 쉽게 이해하기 (0) | 2020.09.24 |
정규분포 정의와 표준정규분포로 표준화 하는 방법 (0) | 2020.09.08 |
표준정규분포표 보는법 및 이미지 파일 (0) | 2020.09.06 |