저번 시간에는 확률에 대한 기본적인 정의를 알아보았습니다.
이번에는 이어서 조건부 확률 (Conditional Probability)에 대해서 간략하게 알아보겠습니다.
조건부 확률 (Conditional Probability)
말 그대로 특정 조건 하에 사건이 일어날 확률인데요.
예를 들어 친구가 주사위를 던지고 우리가 맞추는 게임을 하는 상황이라고 생각해보죠.
주사위를 던지면 1, 2, 3, 4, 5, 6 중 한 가지 숫자가 나옵니다. 이때 숫자 1이 나올 확률은 1/6이죠. 근데 옆에서 다른 친구가 슬쩍 보더니 “홀수야 홀수”라고 슬쩍 알려줍니다. 그렇다면 이제 숫자 1이 나올 확률은 무엇일까요?
친구가 알려준 정보. 즉 숫자가 홀수라는 전제하에 숫자 1일이 나올 확률은 1/3이죠. 친구 덕분에 선택지가 여섯 가지에서 세 가지 (1, 3, 5)로 줄어들었기 때문이죠.
자, 이제 이걸 수식으로 표현해보겠습니다.
$P(A \ | \ B) = \frac{P(A \ and \ B)}{P(B)}$
위 공식을 말로 풀어본다면 이렇습니다.
사건 B가 일어났다는 전제하에 사건 A가 일어날 확률은 사건 A와 B가 동시에 일어날 확률을 사건 B가 일어날 확률로 나눈 것과 같다…
그럼 주사위 사례를 대입해보도록 하겠습니다.
- A = 주사위 숫자가 1이다
- B = 주사위 숫자가 홀수이다
주사위 숫자가 홀수라는 전제하에 주사위 숫자가 1일 확률은 주사위 숫자가 홀수이고 1일 확률을 주사위 숫자가 홀수일 확률로 나눈 것과 같다…
주사위 숫자가 홀수이고 1일 확률은 1/6, 주사위 숫자가 홀수일 확률은 ½. 따라서 결괏값은 1/3이겠죠.
베이즈 룰 (Bayes’ Rule)
나아가 18세기에 토마스 베이즈 (Thomas Bayes)라는 목사님(?!)께서 이 조건부 확률의 원리를 이용하여 베이즈 정리(Bayes’ theorem)를 최초로 서술합니다.
베이즈 정리는 짧게 말하면 조건부 확률과 그것을 뒤집은 확률의 관계를 보여줍니다 (뭔소리..?)
길게 설명드리자면,
- B사건이 일어났다는 전제하에 A사건이 일어날 조건부 확률
- A사건이 일어났다는 전제하에 B사건이 일어날 조건부 확률
이 두 확률의 관계를 아래와 같은 수식으로 표현했다는 말씀!
$P(A \ | \ B) = \frac{P(B \ | \ A) \ P(A)}{P(B)}$
혹시 증명이 궁금하신 분들은 여기에 쉽게 잘 설명되어있네요!
전체 확률의 법칙 (Law of total probability)
전체 확률의 법칙은 표본 공간을 겹치지 않는 사건으로 나누어 확률을 계산하게 해주는 법칙입니다.
이게 왜 필요하냐 하면 각 구간별로 확률이 다를 수 있기 때문입니다. 아래 그림을 보시면 이해하는데 도움이 되실 듯합니다.
예를 들어 세상에 간식이라고는 초코파이, 가나초콜릿, 츄파춥스 밖에 존재하지 않는다고 가정했을 때
- A사건은 간식을 구매하는 행위
- B사건은 여러분들이 당이 떨어진 상태
라고 정의해봅시다.
여러분이 당이 떨어진 상태일 확률은 어떻게 구해야 할까요? 위 그림에서 보라색 부분들의 합. 또는 당이 떨어진 상태이고 어떤 간식을 구매할 확률 (P(당 떨어짐 ∩ 어떤 간식 구매))들의 합이겠죠?
P(당 떨어짐) = P(당 떨어짐 | 초코파이 구매) * P(초코파이 구매)
+ P(당 떨어짐 | 가나초콜릿 구매) * P(가나초콜릿 구매)
+ P(당 떨어짐 | 츄파춥스 구매) * P(츄파춥스 구매)
응용 예시 (Example)
그렇다면 위에서 공부한 것들을 예시를 통해 어떻게 적용될 수 있는지 알아보겠습니다.
교과서에서는 폐암 진단, 에이즈 진단과 같은 예를 흔하게 사용하는데요. 우리도 이 예시를 함께 베이즈 룰(Bayes’ Rule’)이 어떻게 적용될 수 있는지 알아보겠습니다.
특정 나라의 에이즈 보균율이 0.1%라고 가정해봅시다. 그리고 의료 도구를 이용하여 에이즈 진단을 하는데 이 도구가 에이즈 보균자를 정확하게 진단할 확률이 98%이고 보균자가 아닌 사람을 정확하게 구별해낼 확률이 99%라고 가정해봅시다.
이때 의료 도구가 에이즈 양성반응을 보였을 때 오진일 확률을 구해보겠습니다. 두 가지 경우가 있겠죠.
-
에이즈 양성반응을 보이고 에이즈 보균자인 경우
-
에이즈 양성반응을 보이지만 에이즈 보균자가 아닌 경우.
이것을 수식으로 표현해보면 우리가 알고 싶은 것은 P(미보균자 | 양성반응)이죠. 그리고 이것을 위 베이즈 정리 (Bayes’ Theorem)에 대입해보면
$P(미보균자 | 양성반응) = \frac{P(양성반응 \ | \ 미보균자) \ P(미보균자)}{P(양성반응)}$
여기서 우리가 이미 알고 있는 변수는 아래와 같습니다.
1. P(양성반응 | 보균자) = 98%
2. P(양성반응 | 미보균자) = 1 - 99% = 1%
3. P(미보균자) = 99.9%
4. P(보균자) = 0.1%
또 우리는 전체 확률의 법칙을 통해서 2가지를 더 알 수 있습니다.
5. P(음성반응 | 보균자) = 1 - P(음성반응 | 미보균자) = 1%
6. $P(양성반응) = P(양성반응 \ | \ 미보균자) * P(미보균자) \ + \ P(양성반응 | 보균자) \ * \ P(보균자) $
= 0.01 * 0.999 + 0.98 * 0.001 = 1.097%
자, 이제 우리가 알아낼 수 있는 것은 모두 알아냈습니다. 이제 이것들을 이용해 우리가 알고 싶은 확률을 알아보겠습니다.
$P(미보균자 | 양성반응) = \frac{P(양성반응 \ | \ 미보균자) \ P(미보균자)}{P(양성반응)}$
$ = \frac{0.98 \ * \ 0.01} {0.01097} $
= 8.933%
이 의료도구가 조건부 확률로 봤을 때는 아주 정확해 보였는데 무려 9%의 확률로 걸리지도 않은 에이즈 때문에 마음고생하는 분들이 생길 수도 있다는 결론이 나오네요.
비슷한 원리로 이 의료 도구에는 음성반응이 나왔는데 실제 에이즈 보균자일 확률 역시 비슷한 수준이겠죠? 전염성이 강하고 목숨이 왔다 갔다 할 수 있는 질병인 만큼 이 정도 정확도는 실제 활용되기란 어림도 없는 수준입니다.
이것은 의료분야뿐만 아니라 실제 비즈니스에서도 활용 가능합니다. 물론 비즈니스 상황에서 모든 것을 수치화하긴 힘들겠지만 적어도 방향성을 제공할 수는 있을 거라 생각합니다.
[Good to Know]
독립 사건 (Independence)
두 개의 사건 A와 B가 있을 때, 각각의 사건이 일어날 확률이 다른 사건이 일어날 확률에 영향을 미치지 않을 때, 이 두 사건을 독립 사건이라 함
[생각해볼 만한] 두 사건이 독립 사건일 때 조건부 확률은 어떨까요?
이번에는 조건부 확률, 그것을 이용한 베이즈 룰과 전체 확률의 법칙에 대해서 알아보았습니다.
다음 시간에는 기댓값 (Expected Value)와 분산(Variance)에 대해서 공부해보겠습니다.
'데이터 노트 (Data Note) > 통계학' 카테고리의 다른 글
[통계학] 4. 대표적인 확률분포 정리 (1) | 2019.08.18 |
---|---|
[통계학] 3. 기대값과 분산(Expected Value & Variance) (1) | 2019.08.18 |
[통계학] 1. 확률 (Probability)의 이해 (0) | 2019.07.22 |
[통계학] 0.통계적 추론과 통계적 문해력의 중요성 (0) | 2019.07.09 |
[통계학] 들어가며... (0) | 2019.07.08 |
댓글