본문 바로가기
데이터 노트 (Data Note)/통계학

[통계학] 3. 기대값과 분산(Expected Value & Variance)

by 맨 앞자리 학생 2019. 8. 18.

이번 포스트에서는 기댓값(Expected Value)분산(Variance)에 대해서 알아보겠습니다.

기댓값 (Expected Value)

기댓값 (Expected Value)어떤 확률 과정을 무한히 반복했을 때 얻을 수 있는 값들의 평균으로 기대하는 값으로 중심적 성향 또는 분포의 무게중심을 알려줍니다.

 

기대값은 모집단이나 표본이나 표기법에 약간 차이가 있을 뿐 수식은 동일합니다. 

 

수식으로는 각각 다음과 같습니다.

이 수학기호를 말로 설명하면 변수 X의 기댓값은 X라는 행위를 했을 때 나오는 결괏값과 그것의 확률들의 곱들의 합입니다.

 

예시로 또 한번 주사위 던지기를 생각해보겠습니다. 주사위를 던졌을 때 나올 수 있는 값들은 1부터 6까지의 숫자이고 각각 같은 확률을 같죠. 그렇다면 주사위를 던졌을 때의 기댓값은 무엇일까요?

 

(주사위를 던졌을 때 나오는 결괏값(1,2,...,6)과 각각의 확률 (⅙)의 곱들의 합 = 3.5)

 

아래 간단한 시뮬레이션으로도 위와 같은 결과를 확인할 수 있었습니다. 가장 왼쪽 그래프는 주사위 한 개를 약 7000번 던졌을 때의 분포입니다. 1에서 6까지의 값이 고르게 퍼져있고 무게 중심이 3.5 주위에 있음을 알 수 있습니다. 두 번째, 세 번째, 네 번째 그래프는 각각 두 개, 세 개, 네 개의 주사위를 던져 나온 값들의 평균을 기록한 그래프인데요. 역시 마찬가지로 무게 중심은 3.5 주위에 있으며 주사위 개수가 많아질수록 좀 더 단단하게 3.5 주위에 뭉치는 것을 볼 수가 있습니다. 우리가 소위 말하는 벨 커브(Bell Curve) 모양으로 말이죠.

 

 

분산 (Variance)

앞서 이야기했듯이 기대값은 우리가 흔히 알고 있는 분포의 평균, 또는 무게중심이라고도 표현합니다. 여기서 나아가 분포에 대해서 기댓값으로 표현할 수 있는 중요한 지표가 또 있습니다. 바로 분산인데요.

 

분산이란 변수의 흩어진 정도를 계산하는 지표로 통계에서 주어진 변량이 평균으로부터 떨어져있는 정도를 나타내는 값의 한 종류입니다. 쉽게 말해 분포가 얼마나 퍼져 있는지를 알려 주는 수치죠.

 

수식으로는 다음과 같습니다.

분산이 기대값 수식 모양으로 표현이 되었죠? 자세한 증명과정이 궁금하시다면 여기에 정리가 잘 되어 있습니다. 

 

그럼 다시 위에서 다루었던 주사위 예시로 돌아가 보겠습니다. 우리는 주사위를 던졌을 때의 기댓값이 3.5인 것을 확인할 수 있었습니다. 

X 제곱의 기대값 또한 같은 방법으로 계산해보겠습니다.

이제 필요한 것은 모두 알아냈으니 위 공식에 대입해보면 다음과 같습니다.

표본 분산 역시 비슷한 원리로 계산할 수 있습니다. 다만 분모가 N이 아닌 N-1이 됩니다. 이것을 베셀 보정(Bessel’s Correction)이라고 하는데 왜 이렇게 해야 되냐? 물으신다면... 보통 교과서나 강의들에서는 자유도 (degree of freedom)이라는 개념으로 설명합니다. 샘플링 한 표본들은 평균적으로 모집단 기댓값보다는 표본 기댓값에 더 가깝게 형성되어 있기 때문에 표본 분산 값은 모집단 분산 값보다 낮게 측정됩니다. 그거를 약간 조정하기 위해 N-1을 이용하여 표본 분산 값을 톡 쳐서 올려준다는 논리입니다. 조금 더 수학적 접근이 궁금하신 분들께서는 여기에 잘 성명되어 있으니 참고하시기 바랍니다.

 

아무튼… 그래서 분모를 N-1을 이용한 표본 분산은 수식으로 다음과 같이 표현됩니다.

 

Good to Know

표준편차 (Standard Deviation)

 

분산의 제곱근은 표준편차라고 하며 역시 평균으로부터 얼마나 퍼져 있는가를 알려주는 수치로 사용됩니다. 표준편차의 장점데이터와 같은 단위로 해석이 가능하다는 점이겠죠. 위 분산 공식에서 보았듯이 분산은 제곱 단위로 표현되기 때문에 데이터가 얼마나 퍼져있는 건지 딱 알기 힘들 수 있죠.

 

평균의 표준오차 (Standard Error of Mean)

 

위 주사위 기댓값 시뮬레이션에서 보았듯이 주사위를 무한정 많이 던진다고 하더라도 정확히 기댓값이 3.5가 나오지는 않았었죠. 하지만 확실히 그 주위에 가깝게 분포되어 있었습니다. 다시 말하면 확률변수의 기댓값과 분산 역시 어떤 분포를 가진 확률변수라는 뜻입니다. 

따라서 평균의 표준오차는 표본 기댓값이 모평균으로부터 얼마나 떨어져있는가, 표본 기댓값이 얼마나 정확한가를 보여주는 수치입니다. 수식으로는 다음과 같습니다.

 

 

댓글