본문 바로가기
데이터 노트 (Data Note)/통계학

[통계학] 5. 가설검증 (Hypothesis testing)이란? Part I

by 맨 앞자리 학생 2019. 11. 12.

이번 포스트에서는 통계학에 흔히 이용되는 귀무가설 유의성 검증 (null hypothesis significance testing/NHST)에 대해서 공부해보겠습니다. 귀무 어쩌고 저쩌고... 말이 길고 어려운데 앞으로 가설 검정이라 부르고 잘게 쪼개서 알아보도록 하겠습니다.

가설검정 (Hypothesis Testing)이란?

우리가 관심 있는 특정 모집단의 특성에 대한 가설이 있다고 생각해봅시다. 예를 들면 서울대학교 학생들의 아이큐는 대한민국 평균보다 높다라는 가설을 세웠다고 해봅시다.  이 통계적 가설을 추출한 표본을 사용하여 검토하는 추론의 과정을 가설 검정이라고 합니다. 

 

이제 가설검정의 구성을 알아 보록 하겠습니다.

표기 개념 정의
$H_0$ 귀무가설 (Null Hypothesis) 디폴트(default) 가설로도 이해할 수 있는데 특별한 사유가 없다면 받아들여지는 가설
$H_a$ 대립 가설 (Alternative Hypothesis) 귀무가설이 기각되었을 때 이 대립 가설을 데이터를 설명하는 가설로써 채택
$X$ 검정 통계량(test statistics) 가설검정을 위해  확률분포를 결정하는 데 사용되는 통계량
$f(x|H_0)$ 귀무 분포(Null distribution)

귀무가설을 가정했을 때의 확률 분포

  기각 역(Rejection region)

검정 통계량의 표집 분포 상에서 귀무가설이 기각되는 영역

  채택역 (Non-rejection region)

기각역에 반대되는 개념인데 한국말로 번역된 단어는 찾을 수가...

$x_\alpha$ 임계치 (Critical Value)

 가설 검정에서 기각 역과 채택 역의 경계가 되는 값

  유의확률(P-values) 귀무가설을 지지하는 정도


앞선 시리즈에서 보았던 동전 던지기 실험을 예로 들어 각각의 구성을 살펴보도록 하겠습니다.

 

우리가 동전을 10번 던졌는데 앞면이 생각보다 많이 또는 적게 나왔을 때 우리는 동전이 어느 한쪽으로 편향된 건 아닌지 의심하게 됩니다. 그래서 우리는 가설검정을 통해 이것이 사실인지 확인하기로 합니다. 이때 $\theta$는 동전을 던졌을 때 앞면이 나올 확률이라 정의하겠습니다.  

 

  1. 귀무가설 : $H_0 =$ 공정한 동전 (fair coin)이다 ($\theta = 0.5$)
  2. 대랍가설 : $H_a =$ 편향되어 있는 동전 (unfair coin)이다 ($\theta \neq 0.5$)
  3. 검정 통계량 : $X =$ 동전을 10번 던지고 앞면이 나오는 횟수
  4. 귀무 분포 : 공정한 동전이라 가정했을 때 앞면이 나올 확률은 이항 분포를 따르기 때문에 귀무 분포는 아래와 같습니다.
  5. 기각역 : 귀무가설이 사실이라 가정했을 때 우리는 대강 10번 중 5번이 앞면이 나올 거라 기대합니다. 따라서 앞면이 너무 적게 또는 많이 나왔을 때 우리는 동전에 문제가 있다고 판단하여 대립 가설을 채택하게 되죠. 아래 표에서는 빨간 부분이 이에 해당하겠습니다. 

$p(x|\theta = 0.5) \sim Bin(10, 0.5)$

 

$x$ 0 1 2 3 4 5 6 7 8 9 10
$p(x|H_o)$ 0.001 0.01 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.01 0.001

 

제1종 오류/ 제2종 오류란?

제1종 오류 (Type I Error) : 귀무가설이 실제로 옳은데도 불구하고 틀린 것으로 받아들여 그 가설을 기각하는 오류

제2종 오류 (Type II Error) : 귀무가설이 실제로는 틀린데도 불구하고 옳은 것으로 잘못 받아들인 오류

의사결정 $H_0$의 진위
$H_0$ $H_a$
$H_0$ 기각 제 1종 오류 옳은 결정
$H_0$ 기각하지 않음 옳은 결정 제 2종 오류

 

이때 유의 수준(significance level)검정력(Power of Test)은 이를 수치화하기 위해 이용되며 정의는 다음과 같습니다.

 

유의 수준: 가설 검증을 할 때, 표본에서 얻은 표본 통계량이 일정한 기각역에 들어갈 확률

검정력: 가설검정에서 귀무가설이 사실이 아닐 때 이를 기각하여 올바른 결정을 할 수 있는 확률

  • 유의 수준(Significance level) $ = P(reject H_0 |  H_0) = P ( Type I Error ) $
  • 검정력(Power of Test) $ = P(reject H_0 | H_a) = P(Type II Error) $

 

이상적으로 가설검정에서는 0에 가까운 낮은 유의 수준과 1에 가까운 높은 검정력을 원하겠죠? 그래야 제1, 2종 오류를 최대한 덜 범했다는 증거일 테니까요.

 

그래프로 이해하기

이해를 돕기 위해 그래프를 이용해서 위 내용을 복습해보겠습니다. 변수 X는 귀무가설이 사실일 때 표준 정규분포를 따른다고 가정하겠습니다.

 

위 그래프에서 아래 내용들을 알 수 있습니다.

  1. 기각역은 귀무 분포의 중앙값에서 멀리 떨어진 값들로 이루어져 있다.
  2. 기각역은 양쪽 끄트머리에 있다 (다음 시간에는 단측 검정 또한 알아보겠습니다).
  3. 기각역은 귀무 분포에 의해서 정해진다. 
  4. 우리는 귀무가설을 기각하거나 기각하지 못하거나, 이 둘 중 하나의 결론만을 도출해낼 수 있다. 귀무가설이 사실이라 증명할 수는 없다.

 

 

이제 위 그래프에 대립 가설이 사실일 때의 확률분포를 나타내는 그래프를 얹어보겠습니다.

 

$ f(x|H_0) $ 그래프에 빨간색으로 칠해진 부분은 유의 수준입니다. 마찬가지로 $ f(x|H_a) $에 보라색으로 칠해진 부분은 검정력입니다.

 

유의 수준은 귀무 분포에 의해 정해지기 때문에 위쪽 그래프와 아래쪽 그래프 둘 다 같은 유의 수준을 같게 됩니다. 하지만 위 그래프에서 확인할 수 있듯이 검정력은 확연하게 다르죠. 귀무 분포와 대립 분포가 겹치는 부분이 늘어날수록 검정력은 작아지게 됩니다. 다른 말로는 제2종 오류가 늘어나 대립 가설을 따름에도 불구하고 귀무가설을 기각하지 못하는 것이죠.

 

위에서 언급된 동전 던지기 사례를 이어서 살펴보겠습니다. 일단 귀무가설이 $ \theta = 0.5 $이고 유의 수준이 0.05라고 정의하고 대립 가설은 $\theta = 0.6$과 $\theta = 0.7$인 두 가지 경우를 확인해보겠습니다. 이때 확률 분포는 다음과 같습니다.

 

$x$ 0 1 2 3 4 5 6 7 8 9 10
$H_0 : p(x|\theta = 0.5)$ 0.001 0.01 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.01 0.001
$H_a : p(x|\theta = 0.6)$ 0.000 0.002 0.011 0.042 0.111 0.201 0.251 0.215 0.121 0.040 0.006
$H_a : p(x|\theta = 0.7)$ 0.000 0.0001 0.001 0.009 0.037 0.103 0.200 0.267 0.233 0.121 0.028

 

이때 유의 수준 (귀무가설이 사실이지만 기각역에 포함되어 있을 확률)은 귀무 분포 값에서 빨간 부분들의 합 (0.11)이겠죠.

그럼 검정력은 어떨까요? 마찬가지로 빨간 값들의 합이 되겠지요? 따라서 2, 3번 행의 빨간 부분들의 합은 다음과 같습니다.

 

Power 1 (when $ \theta = 0.6$) $= 0.180$ 

Power 2 (when $ \theta = 0.7$) $= 0.384$

 

따라서 대립 가설의 분포가 귀무 분포에서 멀어질수록 검정력은 올라가게 됩니다. 반대로 만약 대립 가설이 $ \theta = 0.51 $이었다면 동전 던지기 실험이 공정했는지 더더욱 알기 어려웠겠죠.

 

가설검정 디자인

  1. 귀무가설 설정 : 귀무가설과 대립 가설을 세우는 것은 수학적 근거를 필요로 하지 않습니다. 다만 실제로 증명될 수 있는 명제를 귀무가설로 정해야 하므로 쉽고 단순하게 설정합니다. 많은 경우에 통계적으로 검정하기 어렵거나 곤란한 경우는 대립 가설로 세우고 진행합니다.
  2. 대립 가설 설정 : 양측 검정인지, 한 측 검정인지 정합니다. 
  3. 검정 통계량 설정 
  4. 유의 수준과 기각역 설정: 유의 수준은 $\alpha$로 표기하며 통상적으로 제1종 오류의 결과에 의해 0.1, 0.05, 또는 0.01의 값을 갖게 됩니다. 예를 들면 귀무가설이 사실일 때 잘못 기각했을 때의 비용이 클 때 유의 수준을 낮춰 기각역의 폭을 줄이는 선택을 할 수 있겠죠.
  5. 검정력 설정 : 유의 수준과 기각역이 설정되면 검정력 도한 설정할 수 있게 됩니다.

 

예시로 알아보기

대한민국 평균 IQ가 정규분포$N(100, 15^2$) 를 따른다고 가정해봅시다. 우리는 서울대학교 학생들의 IQ가 대한민국 평균보다 높다는 가설을 위 과정을 통해 검정해보도록 하겠습니다.

 

  • $H_0$ = 서울대학교 학생들의 평균 IQ는 $N(100, 15^2)$ 분포를 따른다.
  • $H_a$ = 서울대학교 학생들의 평균 IQ는 대한민국 평균보다 높다. (단측 검정)

 

이 가설을 검정하기 위해 9명의 학생들을 조사했고 평균 IQ $\overline {x} = 112$이고 유의 수준을 $\alpha = 0.05$ 로 설정했을 때 귀무가설을 기각할 수 있을까요.

 

귀무가설을 사실이라 가정했을 때 $\overline {x} \sim N(100,15^2/9)$이며 이를 표준화시키면 다음과 같습니다.

 

$ z = \frac { \overline {x} - 100 }{ 15/\sqrt {9} } = \frac {36}{15} = 2.4 \sim N(0,1) $

 

즉, 표준화된 귀무 분포는 표준 정규분포를 따르게 됩니다. 여기서 z는 검정 통계량으로써 표준 정규분포의 평균, 즉 0에서부터 얼마나 떨어져있는지를 나타냅니다. 이때 임계치(critical value)는 유의 수준 0.05일 때 1.64입니다. 이미 검정 통계량이 기각역 내에 있기 때문에 귀무 분포를 기각하게 되지만 p-value 계산까지 해 보록 하겠습니다.

 

이제 유의 확률을 계산하겠습니다. 

 

$ p-value = P(Z \underline {>} 2.4 | H_0) = 0.0081975 $ 

 

유의 확률(p-value)이 유의 수준($\alpha$) 보다 낮기 때문에 우리는 귀무가설을 기각하게 됩니다. 

 


 

 

이번 포스트에서는 가설검정의 구성요소, 실험 디자인, 그리고 간단한 예시로 어떻게 적용될 수 있는지 알아보았습니다. 이어지는 Part 2에서는 오늘 공부한 가설검정과 같은 원리를 이용하여 다른 응용법 또한 알아보도록 하겠습니다.

댓글