본문 바로가기
데이터 노트 (Data Note)/통계학

[통계학] 7. 신뢰 구간(Confidence Interval)이란?

by 맨 앞자리 학생 2019. 11. 24.

이번 포스트에는 신뢰구간(Confidence Interval)에 대해서 알아보도록 하겠습니다.

 

지난 두 포스트에서는 가설검정을 통해 모수치가 특정한 값을 갖는 지에 대한 가설을 기각 또는 채택하는 방법에 대해 알아보았습니다. 하지만 가설검정만으로는 그 값이 얼마나 정확한지 알 수 없다는 단점이 있죠. 예를 들어 서울대학교 학생들의 평균 IQ가 115이라는 점추정값(point estimate)은 단지 수 많은 숫자들 중 하나일 뿐 반복 실험했을 때, 표본 크기가 달라질 때 등 상황에 따라 그 값이 맞을수도 틀릴 수도 있죠. 그렇기 때문에 통계학자들은 신뢰구간을 이용해 이러한 단점을 극복합니다. 맞을지 틀릴지 모르는 하나의 값을 던져놓기보다는 특정 범위의 값들을 이용해 데이터를 설명하죠.

 

쉽게 생각하면 신뢰구간은 가설검정의 기각역에 반대되는 구간 또는 채택역에 이라고 생각하시면 되겠습니다. 가설검정의 유의수준($\alpha$)은 귀무분포일 때의 데이터들이 기각역에 떨어질 확률이죠. 그 반대로 신뢰수준(Confidence Level)은 데이터 값들이 채택역에 떨어질 확률($1-\alpha$)이죠.

 

그럼 몇 가지 예시로 더 자세히 알아보겠습니다.

검정 통계량 $Z$의 신뢰구간 ($z$-confidence interval)

서울대학교 학생들의 IQ가 있다고 생각해보죠. 그 데이터는 평균이 $\mu$이고 분산이 $\sigma^2$인 정규분포를 따른며 $\mu$값은 알 수 없다고 가정해보겠습니다. 이 데이터를 이용해서 서울대학교 학생들의 평균 IQ를 추정해보고자 합니다. 이 때 점추정값은 데이터의 평균인 $\overline{x}$이겠죠. 따라서 신뢰구간은 다음과 같습니다.

 

$\left[\overline{x} \pm \frac{z_{\alpha/2} * \sigma}{\sqrt{n}}\right]$

 

점추정값 $\overline{x}$를 중심으로 양 옆으로 ( 임계점( $z_{\alpha/2}$ ) * 표준오차($\frac{\sigma}{\sqrt{n}}$) )만큼의 범위가 우리가 찾는 95% 신뢰수준의 신뢰구간이 됩니다. 여기서 표준오차는 표본 기댓값이 모평균으로부터 얼마나 떨어져있는가, 표본 기댓값이 얼마나 정확한가를 보여주는 수치입니다. 여기서는 모분산 $\sigma$를 알기 때문에 직접 계산이 가능하죠.

 

만약 우리가 가진 IQ데이터 표본 크기가 30, 모집단의 분산은 15, 표본 평균이 115일 때의 95% 신뢰구간을 알아볼까요? 위 수식에 그대로 대입하면 신뢰구간은 다음과 같습니다.

 

$\left[115 \pm \frac{1.96 * 15}{\sqrt{30}} \right]= \left[115 \pm 5.37 \right] = \left[ 109.63, 120.37 \right]$

 

이렇게 서울대학교 학생들의 평균 IQ값에 대한 95% 신뢰구간이 설정되었습니다. 이 신뢰구간을 통해 우리는 그들의 평균 IQ값이 95%의 확률로 109.63과 120.37 사이에 떨어질 것이라고 추정할 수 있습니다.

검정 통계량 $t$의 신뢰구간 ($t$-confidence interval)

만약 모집단의 분산 $\sigma$를 알 지 못할 때는 어떻게 할까요? $t$-검정할 때와 마찬가지로 표본으로부터 표본 분산을 구해 위 공식에 모분산 $\sigma$대신 표본분산 $s$로 대체하여 계산합니다. 따라서 이 경우 표준오차는 $\frac{s}{\sqrt{n}}$이 되고 $t$-신뢰구간은 다음과 같습니다.

 

$\left[\overline{x} \pm \frac{t_{\alpha/2} * s}{\sqrt{n}}\right]$

 

 

[Good to Know]

위에 IQ 예시에서 표본 크기가 30이 아니라 300이었다면 새로운 95% 신뢰구간은 어떻게 변할까요?

 

신뢰구간 수식에서 알 수 있듯이 표준오차값은 표본 크기 n과 반비례하죠. 따라서 이용되는 표본의 크기가 크면 클수록 신뢰구간은 점점 더 좁아짐을 알 수 있습니다. 다른 말로는 더 신뢰도 높은 구간추정값을 제공할 수 있겠죠.


 

이번 포스트에서는 신뢰구간 (Confidence Interval)에 대해서 간략하게 알아보았습니다. 보통 실험결과나 통계 수치를 보고할 때 점추정값에 대한 이해를 돕기 위해 신뢰구간을 같이 제공합니다. 하지만 반드시 그 구간 내에 추정값이 떨어진다고 확신하는 것은 아닙니다. 여전히 5%의 확률로 구간 밖의 값을 가질 수도 있기 때문에 신뢰구간을 해석하거나 의미를 전달할 때 그 점을 유의하셔야 하겠습니다.

 

 

댓글