본문 바로가기
데이터 노트 (Data Note)/통계학

[통계학] 4. 대표적인 확률분포 정리

by 맨 앞자리 학생 2019. 8. 18.

확률분포 (Probability Distribution)

확률분포란 간단하게 말해 확률변수 X의 함수라고 할 수 있습니다. 확률변수 X는 특정한 값을 가지게 되는데, 그 값을 가질 확률들은 일종의 함수와 같이 어떤 분포를 갖게 됩니다. 가능한 모든 확률변수와 이 변수가 일어날 확률을 나타낸 것을 확률분포라 한다.

 

이번 포스트에서는 대표적인 네 가지 확률 분포에 대해서 알아보겠습니다.

베르누이 분포(The Bernoulli distribution)

 

베르누이 분포는 이산 확률분포 중 하나로 확률변수 n는 0 또는 1 값을 갖게 되며 각각의 독립된 시행(trial)에서 1 (‘성공')은 p의 확률을, 0 (‘실패')은 q = 1 - p의 확률로 일어나고 다음과 같이 표현합니다. 

 

X가 베르누이 분포를 따를 때 기댓값과 분산은 다음과 같습니다.

 

이항 분포 (Binomial Distribution)

이항 분포는 여러 번의 독립된 베르누이 시행 (Bernoulli Trial)의 합으로 베르누이 분포의 특수한 형태라고 볼 수 있습니다. 

예를 들어 동전 던지기를 생각해보겠습니다.

 

동전 던저기의 결과 (앞면 혹은 뒷면)이 베르누이 시행이라고 했을 때, 

이항 변수는 앞면이 나온 총횟수입니다. 

그리고 이 앞면이 나온 총횟수는 이항 분포를 따릅니다.

수식으로는 다음과 같이 표현합니다.

 

(총 n개의 동전 중에 x개의 앞면이 나오는 경우의 수)

 

예를 들어 보겠습니다.

동전을 8번 던져서 7번 이상 앞면이 나올 확률은 무엇일까요?

앞면이 7번 나올 확률과 8번 나올 확률의 합을 구하면 되겠죠? 

그럼 이 두 경우를 위 공식에 그대로 대입해 보겠습니다.

 

 

추가로, X가 이항 분포 분포를 따를 때 기댓값과 분산은 다음과 같습니다. 모양이 베르누이 분포와 굉장히 유사하다는 걸 알 수 있습니다.

 

정규분포(The normal distribution)

정규분포는 우리가 이전 포스팅에서도 볼 수 있었던 좌우대칭의 종 모양 (Bell Curve)으로 생긴 분포입니다. 정규분포는 단 두 가지 숫자들로 특정할 수 있는데요. 바로 평균과 분산입니다. 평균은 분포의 중심을, 분산은 분포가 흩어진 정도를 나타냅니다. 

 

어느 두 나라의 남성 키를 예로 들어보겠습니다. 

A나라와 B나라의 남성 키가 각각 다음과 같은 정규분포로 표현된다고 가정해봅시다.

이렇게 되면 각 집단의 평균과 표준편차가 다르기 때문에 데이터를 서로 비교하기가 까다롭습니다. 이 문제를 해결하기 위해 각 나라의 데이터의 평균을 0으로, 표준편차를 1로 만들면 두 집단이 얼마나 같은지/다른지 훨씬 확인하기 수월합니다.

(개별 데이터에서 평균을 빼고 표준편차로 나누어 줍니다)

 

개별 데이터 포인트를 우리는 Z-Score라고 부릅니다. 이 과정을 표준화라고 하며 표준화된 분포를 표준 정규분포 (Standard Normal Distribution)라고 부릅니다. 

 

 

이 정규분포의 특징 중 하나는 데이터의 밀집 정도를 분산 값에 따라 알 수 있다는 것입니다. 밑에 그래프를 보시죠.

평균에서 1 표준편차 범위 내에 68%, 2 표준편차 범위 내에 95%, 3 표준편차 범위 내에 99.7%의 데이터가 포함되어 있음을 알 수 있습니다.

 

포아송 분포(The Poisson distribution)

포아송 분포는 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현할 때 쓰입니다. 예를 들면 배너광고에 클릭 수, 버스정거장에 서있는 사람의 수 등 한정된 시간 및 공간에서 사건 발생 확률을 구하는데 특히 유용합니다.

수식으로는 다음과 같습니다.

여기서 모수 λ는 특정 사건의 평균 발생 횟수를 의미합니다.

 

동네에 어느 한 치과를 예로 들어보겠습니다.

이 치과에 주말 저녁에 시간당 평균 6명 정도의 환자가 방문한다고 합니다. 그렇다면 주말 저녁에 30분 내에 4명의 환자가 방문할 확률은 어떻게 될까요?

 

한 시간에 평균적으로 6명이 방문한다면 30분에는 보통 세명 정도 오겠죠? 이 값이 λ에 대입됩니다. 그리고 4명이 방문할 확률을 구하기 위해서 X에 4를 대입하면 다음과 같습니다.

따라서 이 병원에 주말 저녁에 4명의 환자가 30분 내에 방문할 확률은 16.8%입니다.

 

이 포아송 분포의 특징 중 하나는 평균과 분산이 같다는 것입니다.

 


이번 포스트에서는 통계학 교과서에서 나올 법한 대표적인 확률 분포에 대해서 알아보았습니다. 확률 분포는 여러 가지 사회 현상을 설명하거나 예측 모형을 만드는 데에 활용되기도 합니다. 증명이나 수학적 수식 도출까지는 몰라도 맥락에 맞는 데이터 분석을 위해서는 상황에 따라 어떤 확률분포를 이용할지 알고 있어야 되겠습니다.

댓글