본문 바로가기
IT/통계

베이즈 정리 예시로 쉽게 이해하기

by 모던네이쳐 2020. 8. 27.
728x90

 베이즈 정리는 어떤 사전지식이 있을 때 이 지식을 이용해 관심있는 사건이 일어날 확률을 구하는데 사용된다.

 예를 들어당뇨병 발생률은 10%’당뇨 진단 정확률은 95%’라는 사전지식이 있다면당뇨로 진단 받은 환자가 실제 당뇨일 확률을 알 수 있다. 우선 베이즈 정리를 사용하기 전에 사전확률, 사후 확률, 조건부 확률을 이해할 필요가 있다.

 

Bayes' Theorem

 

사전 확률(Prior probability)

$P(A)$

 

사건 $B$가 발생하기 전, 사건 $A$의 확률을 의미한다. 예를 들어 환자가 당뇨병일 확률을 $P(A)$로 나타낼 수 있다.

 

 

사후 확률(Posterior Probability)

$P(A|B)$

 

 사건 $B$가 발생한 후 수정된 $A$의 확률을 의미한다. "사전 확률"인 사건 $A$ $B$라는 사건에 영향을 받은 경우를 표현하기 위해 "사후 확률"이라는 명칭이 사용된다. 예를 들어 환자가 당뇨진단을 받은 경우, 실제 당뇨병일 확률을 $P(A|B)$로 나타낼 수 있다

 

 

조건부 확률(Conditional Probability)

$P(A|B) = \frac{P(A\cap B)}{P(B)}$

 

 사건 $B$가 발생한 후 수정된 $A$의 확률을 의미하며, 사후 확률과 동일한 수식이 사용가능하다. 다만, 사건들의 교집합에 개별 사건을 나눈 결과로 표현할 수 있다는 것을 의미하기 위해서 사용된다.

 간단한 예로, 주사위를 던진 결과가 짝수라는 조건$(P(B)=1/2)$이 있을 때 내 주사위가 2일 확률$(P(A\cap B)=1/6)$ $\frac{P(A\cap B)}{P(B)} = \frac{P(1/6)}{P(1/2)} = \frac{1}{3} $로 구할 수 있다.

 

 베이즈 정리에서 사용하기 위해서는 다음 수식들을 추가로 이해할 필요가 있다.

 

$P(B|A) = \frac{P(A\cap B)}{P(A)}$

$P(A\cap B) = P(B|A)P(A) = P(A|B)P(B)$

 

 , $A$사건과 $B$사건의 교집합은 $P(B|A)P(A)$ 또는 $P(A|B)P(B)$로 치환되어 사용가능하다.

 

 

베이즈 정리(Bayes' Theorem)

 베이즈 정리를 사용하기 위해서는 다음 두 조건을 만족해야 한다.

  1. $A_1, \dots, A_k$는 서로소여야 한다. 즉 서로간의 교집합이 0이 되어야 한다
  2. $A_1, \dots, A_k$를 모두 합집합 하였을 때 전체 집합 $S$가 되어야 한다

Partition of a Set

 

 베이즈 정리는 다음과 같다.

 

$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$

 

 자세히 보면, 조건부 확률 때 언급된 $P(B|A)P(A)$ 식을 사용하여 사후확률을 구한 것을 볼 수 있다. 참고로 이때 $P(B|A)$부분을 가능도(likelihood) 또는 우도라고 표현한다.

 

 

 이를 확장하면 다음과 같다.

 

$P(A_i|B) = \frac{P(A_i\cap B)}{P(B)} = \frac{P(B|A_i)P(A_i)}{P(B|A_1)P(A_1)+\dots +P(B|A_k)P(A_k)}$

 

 간단히 말해 $P(B|A)$의 정보가 있을 때 $P(A|B)$를 구하는 방법이다.

 

 위 당뇨병의 예시를 들면,

  • 당뇨병 발생률은 10%, 당뇨 진단 정확률은 95%
  • $P(A_1)$ : 당뇨병일 확률
  • $P(A_2)$ : 당뇨병이 아닐 확률
  • $P(B)$ : 당뇨로 진단 받을 확률
  • $P(B|A_1)P(A_1)$ : 당뇨병일 때 당뇨로 (옳게) 진단 받을 확률
  • $P(B|A_2)P(A_2)$ : 당뇨병이 아닐 때 당뇨로 (잘못) 진단 받을 확률
  • $P(A_1|B)$ : 당뇨로 진단 받았을 때 실제 당뇨병일 확률

Visualizing Bayes' Theorem

 베이즈 정리에 따라, 당뇨로 진단 받았을 때 실제 당뇨병일 확률$P(A_1|B) $을 구하기 위해서는 실제 당뇨인 케이스 $P(B|A_1)P(A_1)$를 당뇨로 진단받을 수 있는 전체 케이스 $P(B|A_1)P(A_1)+P(B|A_2)P(A_2)$ 로 나누면 된다.   $P(A_1|B)=\frac{P(B|A_1)P(A_1)}{P(B|A_1)P(A_1)+P(B|A_2)P(A_2)} = \frac{0.95*0.1}{0.95*0.1+0.05*0.9} $ 로 구할 수 있다.

 


 베이즈 정리는 조건부 확률을 뒤집은 결과를 구할 수 있기 때문에 여러 분야에서 아주 중요하게 쓰이고 있다. 당뇨를 진단해왔던 임상 결과들을 통해 현재 환자의 당뇨병 여부를 확인하는 예시와 마찬가지로, $P(B|A)$의 정보를 쉽게 구할 수 있는 경우 이를 뒤집은 $P(A|B)$ 를 구할 수 있어 의미있는 결론을 도출해낼 수 있다.