이번 포스트에서 다룰 주제는 ‘확률’입니다. 통계학적 추론 과정의 기초가 되는 확률. 이 주제로만 평생 연구하시는 분들이 계실 정도로 논리적이지만 동시에 추상적이고 철학적인 분야인데요.
하지만 우리의 목적은 어디까지나 실무응용에 목적을 두고 있으므로 이후에 다루어질 주제들의 이해를 돕는 정도까지만… 아주 얕게 발만 담갔다 빼겠습니다.
우선 사전적 정의부터 살펴보시죠.
- 하나의 사건이 일어날 수 있는 가능성을 수로 나타낸 것
- 모든 경우의 수에 대한 특정 사건이 발생하는 비율
- 일정한 조건 아래에서 어떤 사건이나 사상(事象)이 일어날 가능성의 정도.
가장 이해하기 쉬운 정의는 두번째라 생각되는데요. 여기서 제가 더하고 싶은 것은 기간 또는 반복 횟수입니다. 보통 확률은 충분한 기간 동안 지속되었을 때 특정 사건이 발생할 가능성을 수로 표현한 것입니다.
예를 들어 동전던지기를 해 앞면이 나올 확률을 구하고 싶다고 가정해봅시다. 10번을 던져서 6번이 앞면이 나왔다면 앞면이 나올 확률이 60%라고 할 수 있을까요?
간단한 시뮬레이션을 통해 사실이 아니라는 것을 확인할 수 있습니다. 표본수가 적을수록 확률이 아주 오락가락하죠? 하지만 500번, 1000번, 2000번, … 5000번을 던져보니 50%에 얼추 수렴하는 모습을 보입니다.
이 때문에 보통 통계학 이론에서는 극한값(limit)을 이용해 위와 같은 문제를 해소하죠. 하지만 실무의 영역에서는 피할 수 없는 문제이니 확률을 이해/해석하는 데에도 조금 주의할 필요가 있겠습니다.
이제 확률이 성립이 되는 이론적인 조건들을 살펴보겠습니다. 확률론의 기초를 닦은 러시아 학자 안드레이 콜모고로프는 확률은 아래와 같이 세 가지 조건을 갖춘다고 말합니다.
- 확률은 0과 1사이의 숫자이다
- 모든 확률의 합은 1이다
- 동시에 일어날 수 없는 두 사건이 일어날 확률은 각각 사건이 일어날 확률의 합이다
이 세 조건들로부터 우리는 아래와 같은 것들을 알 수 있죠.
- 아무 사건도 일어나지 않을 확률은 0이다
- 어떤 사건이 일어날 확률은 1이다
- 어떤 특정 사건의 확률은 (1 - 그 외 다른 사건이 일어날 확률)이다
- 동시에 일어날 수 있는 두 사건이 일어날 확률은 (각각의 사건이 일어날 확률 - 동시에 일어날 확률)이다
그렇다면 확률의 이해가 왜 필요할까요? 바로 무작위성 때문입니다. 무작위성이란 정형화된 양식이나 패턴이 없고 예측이 불가능한 성질인데요. 우리가 패턴도 알고 다음에 어떤 사건이 일어날지 알고 있다면 확률 계산을 할 필요가 없겠죠?
확률을 계산하기 위해 통계학에서는 확률변수를 이용하여 수식으로 나타내는데 크게 두 가지로 나뉩니다.
1. 이산 확률변수(Discrete random variables) : 유한한 개수의 값을 취할 수 있는 확률변수
위 예와같이 동전 던지기가 좋은 예인데요. 동전이 두 개 일 때를 생각해봅시다. 동전 두 개를 던졌을 때 모두 앞면이 나올 확률을 계산해보도록 하겠습니다.
모든 경우의 수는 (앞, 앞), (앞, 뒤), (뒤, 앞), (뒤, 뒤). 이렇게 총 네 가지고 두 동전 모두 앞면이 나올 경우의 수는 (앞, 앞) 한 가지입니다. 따라서 확률은 ¼, 또는 25%죠.
이 확률을 수식과 함께 아래 표를 통해 알아보겠습니다. 확률 변수는 보통 대문자로 표현하고 P(X)는 X라는 사건이 일어날 확률을 나타내는 함수입니다. 우리는 X를 동전 앞면이 나오는 사건이라고 정의하겠습니다.
X |
0 |
1 |
2 |
P(X) |
1/4 |
1/2 |
1/4 |
이처럼 이산확률변수가 취하는 확률을 나타내는 함수를 확률 질량 함수(Probability Mass Function)이라고 합니다. 어떤 함수가 확률질량함수가 되려면 만족해야 하는 두 가지 조건이 있습니다.
- 항상 0과 같거나 커야 한다.
- 모든 P(X) 값의 합은 1이다
2. 연속 확률변수(Continuous random variable) : 확률변수가 연속적(continuous) 일 때의 확률변수
이산 확률변수는 한 점에서의 확률을 생각하는 반면 연속 확률변수는 구간에서의 확률이 의미가 있습니다. 예를 들면 키, 시간과 같이 우리가 편의상 한 점으로 표현하지만 실제로는 그 구간에 무수히 많은 값들이 있죠. 따라서 연속 확률 변수일 경우 한 지점에서의 확률은 수학적으로 0입니다.
예를 들어 어느 한 남성의 키가 정확히 170일 확률은 0이라고 생각하는것이죠. 굳이 170cm일 확률을 구하고 싶다면 169.9cm와 170.1cm 사이의 구간에서의 확률을 계산해야합니다. 수학적으로는 적분으로 표현되는데 이 부분은 건너 뛰도록 하겠습니다.
아무튼 연속확률변수일 경우, 우리는 확률 밀도 함수 (Probability Density Function)를 이용하여 확률을 구합니다. 이 확률을 다른 말로는 곡선 하면 적(Area under the curve)이라고도 합니다. 아래 그림을 보시겠습니다.
위와 같이 남성의 키가 정규분포를 따른다고 가정해봅시다. 이때 아무 남자를 가리키고 그 남자의 키가 160cm과 170cm 사이일 확률은 23.75%죠. 160cm와 170cm의 경계선을 그었을 때 회색 부분이 곡선 하면 적인데 이것이 그 구간의 확률입니다.
확률 밀도 함수 또한 마찬가지로 두 가지 조건을 가집니다.
- 곡선 하면 적이 0과 같거나 크다
- 곡선 하면 적의 총합은 1이다
[Good to Know]
앞서 알아보았던 확률 질량 함수,확률 밀도 함수에서도 특정 부분을 나타내는 함수가 있습니다. 바로 누적 분포 함수(Cumulative Distribution Function)인데 어떤 확률 분포에 대해서, 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수입니다. 아주 좋은 예로 생존 함수, 마케팅에서는 이탈률 분석이 있죠.
정리하면 이번 시간에는 확률의 기본적인 개념에 대해서 알아보았습니다.
확률변수에는 i) 유한한 개수의 값을 취하는 이산 확률변수, ii) 특정 구간 내에 무수히 많은 값을 취하는 연속 확률변수가 있습니다.
이 변수들이 갖는 확률은 이산 확률 변수일 경우 확률 질량 함수, 연속 확률 변수일 경우 확률 밀도 함수를 이용하여 계산할 수 있습니다.
다음 시간에는 조건부 확률에 대해서 알아보도록 하겠습니다.
'데이터 노트 (Data Note) > 통계학' 카테고리의 다른 글
[통계학] 4. 대표적인 확률분포 정리 (1) | 2019.08.18 |
---|---|
[통계학] 3. 기대값과 분산(Expected Value & Variance) (1) | 2019.08.18 |
[통계학] 2. 조건부 확률 (Conditional Probability)와 베이즈 정리 (Bayes' Theorem)의 이해와 응용 (0) | 2019.07.28 |
[통계학] 0.통계적 추론과 통계적 문해력의 중요성 (0) | 2019.07.09 |
[통계학] 들어가며... (0) | 2019.07.08 |
댓글