본문 바로가기
데이터 노트 (Data Note)/통계학

[통계학] 2. 조건부 확률 (Conditional Probability)와 베이즈 정리 (Bayes' Theorem)의 이해와 응용

by 맨 앞자리 학생 2019. 7. 28.

 

 

저번 시간에는 확률에 대한 기본적인 정의를 알아보았습니다.

이번에는 이어서 조건부 확률 (Conditional Probability)에 대해서 간략하게 알아보겠습니다.

 

조건부 확률 (Conditional Probability)

말 그대로 특정 조건 하에 사건이 일어날 확률인데요.

예를 들어 친구가 주사위를 던지고 우리가 맞추는 게임을 하는 상황이라고 생각해보죠.

 

주사위를 던지면 1, 2, 3, 4, 5, 6 중 한 가지 숫자가 나옵니다. 이때 숫자 1이 나올 확률은 1/6이죠. 근데 옆에서 다른 친구가 슬쩍 보더니 “홀수야 홀수”라고 슬쩍 알려줍니다. 그렇다면 이제 숫자 1이 나올 확률은 무엇일까요?

 

친구가 알려준 정보. 즉 숫자가 홀수라는 전제하에 숫자 1일이 나올 확률은 1/3이죠. 친구 덕분에 선택지가 여섯 가지에서 세 가지 (1, 3, 5)로 줄어들었기 때문이죠. 

 

자, 이제 이걸 수식으로 표현해보겠습니다.

 

$P(A \ | \ B) = \frac{P(A \ and \ B)}{P(B)}$

 

 

위 공식을 말로 풀어본다면 이렇습니다.

 

사건 B가 일어났다는 전제하에 사건 A가 일어날 확률은 사건 A와 B가 동시에 일어날 확률을 사건 B가 일어날 확률로 나눈 것과 같다…

 

그럼 주사위 사례를 대입해보도록 하겠습니다.

  • A = 주사위 숫자가 1이다
  • B = 주사위 숫자가 홀수이다

 

주사위 숫자가 홀수라는 전제하에 주사위 숫자가 1일 확률은 주사위 숫자가 홀수이고 1일 확률을 주사위 숫자가 홀수일 확률로 나눈 것과 같다…

 

주사위 숫자가 홀수이고 1일 확률은 1/6, 주사위 숫자가 홀수일 확률은 ½. 따라서 결괏값은 1/3이겠죠.


베이즈 룰 (Bayes’ Rule)

나아가 18세기에 토마스 베이즈 (Thomas Bayes)라는 목사님(?!)께서 이 조건부 확률의 원리를 이용하여 베이즈 정리(Bayes’ theorem)를 최초로 서술합니다. 

 

베이즈 정리는 짧게 말하면 조건부 확률과 그것을 뒤집은 확률의 관계를 보여줍니다 (뭔소리..?)

 

길게 설명드리자면, 

  • B사건이 일어났다는 전제하에 A사건이 일어날 조건부 확률
  • A사건이 일어났다는 전제하에 B사건이 일어날 조건부 확률

 

이 두 확률의 관계를 아래와 같은 수식으로 표현했다는 말씀!

 

$P(A \ | \ B) = \frac{P(B \ | \ A) \ P(A)}{P(B)}$

 

혹시 증명이 궁금하신 분들은 여기에 쉽게 잘 설명되어있네요!


전체 확률의 법칙 (Law of total probability)

전체 확률의 법칙은 표본 공간을 겹치지 않는 사건으로 나누어 확률을 계산하게 해주는 법칙입니다. 

 

이게 왜 필요하냐 하면 각 구간별로 확률이 다를 수 있기 때문입니다. 아래 그림을 보시면 이해하는데 도움이 되실 듯합니다.

 

예를 들어 세상에 간식이라고는 초코파이, 가나초콜릿, 츄파춥스 밖에 존재하지 않는다고 가정했을 때

  • A사건은 간식을 구매하는 행위
  • B사건은 여러분들이 당이 떨어진 상태

라고 정의해봅시다.

 

여러분이 당이 떨어진 상태일 확률은 어떻게 구해야 할까요? 위 그림에서 보라색 부분들의 합. 또는 당이 떨어진 상태이고 어떤 간식을 구매할 확률 (P(당 떨어짐 ∩ 어떤 간식 구매))들의 합이겠죠?

 

P(당 떨어짐) = P(당 떨어짐 | 초코파이 구매) * P(초코파이 구매) 

                + P(당 떨어짐 | 가나초콜릿 구매) * P(가나초콜릿  구매) 

                + P(당 떨어짐 | 츄파춥스 구매) * P(츄파춥스 구매) 


응용 예시 (Example)

그렇다면 위에서 공부한 것들을 예시를 통해 어떻게 적용될 수 있는지 알아보겠습니다.

 

교과서에서는 폐암 진단, 에이즈 진단과 같은 예를 흔하게 사용하는데요. 우리도 이 예시를 함께 베이즈 룰(Bayes’ Rule’)이 어떻게 적용될 수 있는지 알아보겠습니다.

 

특정 나라의 에이즈 보균율이 0.1%라고 가정해봅시다. 그리고 의료 도구를 이용하여 에이즈 진단을 하는데 이 도구가 에이즈 보균자를 정확하게 진단할 확률이 98%이고 보균자가 아닌 사람을 정확하게 구별해낼 확률이 99%라고 가정해봅시다. 

 

이때 의료 도구가 에이즈 양성반응을 보였을 때 오진일 확률을 구해보겠습니다. 두 가지 경우가 있겠죠. 

  • 에이즈 양성반응을 보이고 에이즈 보균자인 경우

  • 에이즈 양성반응을 보이지만 에이즈 보균자가 아닌 경우.

 

이것을 수식으로 표현해보면 우리가 알고 싶은 것은 P(미보균자 | 양성반응)이죠. 그리고 이것을 위 베이즈 정리 (Bayes’ Theorem)에 대입해보면 

 

$P(미보균자 | 양성반응) = \frac{P(양성반응 \ | \ 미보균자) \ P(미보균자)}{P(양성반응)}$

 

여기서 우리가 이미 알고 있는 변수는 아래와 같습니다.

 

1. P(양성반응 | 보균자) = 98%

2. P(양성반응 | 미보균자) = 1 - 99% = 1%

3. P(미보균자) = 99.9%

4. P(보균자) = 0.1%

 

또 우리는 전체 확률의 법칙을 통해서 2가지를 더 알 수 있습니다.

 

5. P(음성반응 | 보균자) = 1 - P(음성반응 | 미보균자) = 1%

 

6. $P(양성반응) = P(양성반응 \ | \ 미보균자) * P(미보균자) \ + \ P(양성반응 | 보균자) \ * \ P(보균자) $

= 0.01 * 0.999 + 0.98 * 0.001 = 1.097%

 

자, 이제 우리가 알아낼 수 있는 것은 모두 알아냈습니다. 이제 이것들을 이용해 우리가 알고 싶은 확률을 알아보겠습니다.

 

$P(미보균자 | 양성반응) = \frac{P(양성반응 \ | \ 미보균자) \ P(미보균자)}{P(양성반응)}$

$ = \frac{0.98 \ * \ 0.01} {0.01097} $

= 8.933%

 

이 의료도구가 조건부 확률로 봤을 때는 아주 정확해 보였는데 무려 9%의 확률로 걸리지도 않은 에이즈 때문에 마음고생하는 분들이 생길 수도 있다는 결론이 나오네요.

 

비슷한 원리로 이 의료 도구에는 음성반응이 나왔는데 실제 에이즈 보균자일 확률 역시 비슷한 수준이겠죠? 전염성이 강하고 목숨이 왔다 갔다 할 수 있는 질병인 만큼 이 정도 정확도는 실제 활용되기란 어림도 없는 수준입니다.

 

이것은 의료분야뿐만 아니라 실제 비즈니스에서도 활용 가능합니다. 물론 비즈니스 상황에서 모든 것을 수치화하긴 힘들겠지만 적어도 방향성을 제공할 수는 있을 거라 생각합니다.


[Good to Know]

독립 사건 (Independence)

두 개의 사건 A와 B가 있을 때, 각각의 사건이 일어날 확률이 다른 사건이 일어날 확률에 영향을 미치지 않을 때, 이 두 사건을 독립 사건이라 함

 

[생각해볼 만한] 두 사건이 독립 사건일 때 조건부 확률은 어떨까요? 

 


 

이번에는 조건부 확률, 그것을 이용한 베이즈 룰과 전체 확률의 법칙에 대해서 알아보았습니다.

다음 시간에는 기댓값 (Expected Value)와 분산(Variance)에 대해서 공부해보겠습니다.

 

댓글