본문 바로가기

데이터 노트 (Data Note)/통계학10

[통계학] 8. 부트스트랩 신뢰 구간(Bootstrap Confidence Interval)이란? 저번 포스트에서는 신뢰구간 (참고 : 신뢰구간(Confidence Interval)이란?)을 구할 때 우리는 데이터가 특정 분포를 따른다는 가정하에 진행했었죠. 근데 우리가 그 분포를 가정할 수 없다면 어떻게 해야 할까요? 부트스트랩은 확률 분포의 가정을 두지 않고 주어진 데이터를 원래의 모집단을 대표하는 독립 표본으로 가정하고 진행합니다. 그리고 데이터를 기반으로 중복을 허용한 무작위 재추출로 복수의 자료를 작성하고 각각에서 얻어진 통계량을 계산합니다. 쉽게 말하면 우리가 가진 데이터를 우리가 알지 못하는 A라는 분포에서 추출되었다고 가정하고 그 안에서 무작위로 재추출하여 통계량을 측정하는 과정을 여러 번 반복합니다. 그리고 그 과정들에서 산출된 통계량들을 통해 통계적 추론을 하죠. 부트스트랩은 여러 .. 2019. 11. 25.
[통계학] 7. 신뢰 구간(Confidence Interval)이란? 이번 포스트에는 신뢰구간(Confidence Interval)에 대해서 알아보도록 하겠습니다. 지난 두 포스트에서는 가설검정을 통해 모수치가 특정한 값을 갖는 지에 대한 가설을 기각 또는 채택하는 방법에 대해 알아보았습니다. 하지만 가설검정만으로는 그 값이 얼마나 정확한지 알 수 없다는 단점이 있죠. 예를 들어 서울대학교 학생들의 평균 IQ가 115이라는 점추정값(point estimate)은 단지 수 많은 숫자들 중 하나일 뿐 반복 실험했을 때, 표본 크기가 달라질 때 등 상황에 따라 그 값이 맞을수도 틀릴 수도 있죠. 그렇기 때문에 통계학자들은 신뢰구간을 이용해 이러한 단점을 극복합니다. 맞을지 틀릴지 모르는 하나의 값을 던져놓기보다는 특정 범위의 값들을 이용해 데이터를 설명하죠. 쉽게 생각하면 신뢰.. 2019. 11. 24.
[통계학] 6. 가설검증 (Hypothesis testing)이란? Part II 저번 시간에 이어 가설 검증 Part II 이어가도록 하겠습니다. 이번 포스트에서는 모집단에 대한 정보가 부족할 때 자주 이용되는 여러 가지 t 검정 방법들에 대해 알아보록하겠습니다. 우선 가설검증 과정을 간략하게 복습해보면 다음과 같습니다 (가설 검증 (Hypothesis testing)이란? Part I). 가설검정 디자인 귀무가설, 대립 가설 설정 검정 통계량 설정 유의 주순과 기각역 설정 대립 분포를 이용해 검정력 측정 가설검정 실행 데이터 수집 및 검정 통계량 측정 검정 통계량이 기각역 내에 떨어지는지 여부 확인 내무 가설 채택/기각 여기서 우리는 데이터가 정규분포를 따른다고 가정했었죠. 저번 시간에 다루었던 IQ 예제에서는 대한민국 평균 아이큐가 평균($\mu$)이 100고 표준편차($\sig.. 2019. 11. 18.
[통계학] 5. 가설검증 (Hypothesis testing)이란? Part I 이번 포스트에서는 통계학에 흔히 이용되는 귀무가설 유의성 검증 (null hypothesis significance testing/NHST)에 대해서 공부해보겠습니다. 귀무 어쩌고 저쩌고... 말이 길고 어려운데 앞으로 가설 검정이라 부르고 잘게 쪼개서 알아보도록 하겠습니다. 가설검정 (Hypothesis Testing)이란? 우리가 관심 있는 특정 모집단의 특성에 대한 가설이 있다고 생각해봅시다. 예를 들면 서울대학교 학생들의 아이큐는 대한민국 평균보다 높다라는 가설을 세웠다고 해봅시다. 이 통계적 가설을 추출한 표본을 사용하여 검토하는 추론의 과정을 가설 검정이라고 합니다. 이제 가설검정의 구성을 알아 보록 하겠습니다. 표기 개념 정의 $H_0$ 귀무가설 (Null Hypothesis) 디폴트(def.. 2019. 11. 12.
[통계학] 4. 대표적인 확률분포 정리 확률분포 (Probability Distribution) 확률분포란 간단하게 말해 확률변수 X의 함수라고 할 수 있습니다. 확률변수 X는 특정한 값을 가지게 되는데, 그 값을 가질 확률들은 일종의 함수와 같이 어떤 분포를 갖게 됩니다. 가능한 모든 확률변수와 이 변수가 일어날 확률을 나타낸 것을 확률분포라 한다. 이번 포스트에서는 대표적인 네 가지 확률 분포에 대해서 알아보겠습니다. 베르누이 분포(The Bernoulli distribution) 베르누이 분포는 이산 확률분포 중 하나로 확률변수 n는 0 또는 1 값을 갖게 되며 각각의 독립된 시행(trial)에서 1 (‘성공')은 p의 확률을, 0 (‘실패')은 q = 1 - p의 확률로 일어나고 다음과 같이 표현합니다. X가 베르누이 분포를 따를 때 .. 2019. 8. 18.
[통계학] 3. 기대값과 분산(Expected Value & Variance) 이번 포스트에서는 기댓값(Expected Value)과 분산(Variance)에 대해서 알아보겠습니다. 기댓값 (Expected Value) 기댓값 (Expected Value)은 어떤 확률 과정을 무한히 반복했을 때 얻을 수 있는 값들의 평균으로 기대하는 값으로 중심적 성향 또는 분포의 무게중심을 알려줍니다. 기대값은 모집단이나 표본이나 표기법에 약간 차이가 있을 뿐 수식은 동일합니다. 수식으로는 각각 다음과 같습니다. 이 수학기호를 말로 설명하면 변수 X의 기댓값은 X라는 행위를 했을 때 나오는 결괏값과 그것의 확률들의 곱들의 합입니다. 예시로 또 한번 주사위 던지기를 생각해보겠습니다. 주사위를 던졌을 때 나올 수 있는 값들은 1부터 6까지의 숫자이고 각각 같은 확률을 같죠. 그렇다면 주사위를 던졌을.. 2019. 8. 18.
[통계학] 2. 조건부 확률 (Conditional Probability)와 베이즈 정리 (Bayes' Theorem)의 이해와 응용 저번 시간에는 확률에 대한 기본적인 정의를 알아보았습니다. 이번에는 이어서 조건부 확률 (Conditional Probability)에 대해서 간략하게 알아보겠습니다. 조건부 확률 (Conditional Probability) 말 그대로 특정 조건 하에 사건이 일어날 확률인데요. 예를 들어 친구가 주사위를 던지고 우리가 맞추는 게임을 하는 상황이라고 생각해보죠. 주사위를 던지면 1, 2, 3, 4, 5, 6 중 한 가지 숫자가 나옵니다. 이때 숫자 1이 나올 확률은 1/6이죠. 근데 옆에서 다른 친구가 슬쩍 보더니 “홀수야 홀수”라고 슬쩍 알려줍니다. 그렇다면 이제 숫자 1이 나올 확률은 무엇일까요? 친구가 알려준 정보. 즉 숫자가 홀수라는 전제하에 숫자 1일이 나올 확률은 1/3이죠. 친구 덕분에 선택.. 2019. 7. 28.
[통계학] 1. 확률 (Probability)의 이해 이번 포스트에서 다룰 주제는 ‘확률’입니다. 통계학적 추론 과정의 기초가 되는 확률. 이 주제로만 평생 연구하시는 분들이 계실 정도로 논리적이지만 동시에 추상적이고 철학적인 분야인데요. 하지만 우리의 목적은 어디까지나 실무응용에 목적을 두고 있으므로 이후에 다루어질 주제들의 이해를 돕는 정도까지만… 아주 얕게 발만 담갔다 빼겠습니다. 우선 사전적 정의부터 살펴보시죠. - 하나의 사건이 일어날 수 있는 가능성을 수로 나타낸 것 - 모든 경우의 수에 대한 특정 사건이 발생하는 비율 - 일정한 조건 아래에서 어떤 사건이나 사상(事象)이 일어날 가능성의 정도. 가장 이해하기 쉬운 정의는 두번째라 생각되는데요. 여기서 제가 더하고 싶은 것은 기간 또는 반복 횟수입니다. 보통 확률은 충분한 기간 동안 지속되었을 때.. 2019. 7. 22.
[통계학] 0.통계적 추론과 통계적 문해력의 중요성 조금 있으면 21대 총선이죠? 국회의원들은 물론이고 우리들도 누가 당선이 될지 궁금합니다. 뉴스에도 심심치 않게 나오는 지지율 분석 차트와 보고서들은 무엇을 근거로 작성되었고 그들이 들이미는 결괏값들은 정확할까요? 실제로 투표가 완료된 것이 아니기 때문에 전체 투표권이 있는 인구의 표본을 추출해서 그들의 성향을 분석한 결과겠죠. 이것을 통계적 추론 (statistical inference)라고도 하는데 관측된 표본 데이터를 기초하여 모집단에 대해서 추측 또한 파악하는 조사입니다. 통계적 추론이 이용되는 몇 가지 예를 소개드리자면 다음과 같습니다. - 모집단 통계치의 불확실성에 대한 추정 및 수치화 - 데이터 상의 잡음의 수치화 - 새 정책이나 캠페인의 효과 측정 - 어떤 현상이 일어날 확률 측정 (e.g.. 2019. 7. 9.