본문 바로가기

분류 전체보기16

[통계학] 8. 부트스트랩 신뢰 구간(Bootstrap Confidence Interval)이란? 저번 포스트에서는 신뢰구간 (참고 : 신뢰구간(Confidence Interval)이란?)을 구할 때 우리는 데이터가 특정 분포를 따른다는 가정하에 진행했었죠. 근데 우리가 그 분포를 가정할 수 없다면 어떻게 해야 할까요? 부트스트랩은 확률 분포의 가정을 두지 않고 주어진 데이터를 원래의 모집단을 대표하는 독립 표본으로 가정하고 진행합니다. 그리고 데이터를 기반으로 중복을 허용한 무작위 재추출로 복수의 자료를 작성하고 각각에서 얻어진 통계량을 계산합니다. 쉽게 말하면 우리가 가진 데이터를 우리가 알지 못하는 A라는 분포에서 추출되었다고 가정하고 그 안에서 무작위로 재추출하여 통계량을 측정하는 과정을 여러 번 반복합니다. 그리고 그 과정들에서 산출된 통계량들을 통해 통계적 추론을 하죠. 부트스트랩은 여러 .. 2019. 11. 25.
[통계학] 7. 신뢰 구간(Confidence Interval)이란? 이번 포스트에는 신뢰구간(Confidence Interval)에 대해서 알아보도록 하겠습니다. 지난 두 포스트에서는 가설검정을 통해 모수치가 특정한 값을 갖는 지에 대한 가설을 기각 또는 채택하는 방법에 대해 알아보았습니다. 하지만 가설검정만으로는 그 값이 얼마나 정확한지 알 수 없다는 단점이 있죠. 예를 들어 서울대학교 학생들의 평균 IQ가 115이라는 점추정값(point estimate)은 단지 수 많은 숫자들 중 하나일 뿐 반복 실험했을 때, 표본 크기가 달라질 때 등 상황에 따라 그 값이 맞을수도 틀릴 수도 있죠. 그렇기 때문에 통계학자들은 신뢰구간을 이용해 이러한 단점을 극복합니다. 맞을지 틀릴지 모르는 하나의 값을 던져놓기보다는 특정 범위의 값들을 이용해 데이터를 설명하죠. 쉽게 생각하면 신뢰.. 2019. 11. 24.
[통계학] 6. 가설검증 (Hypothesis testing)이란? Part II 저번 시간에 이어 가설 검증 Part II 이어가도록 하겠습니다. 이번 포스트에서는 모집단에 대한 정보가 부족할 때 자주 이용되는 여러 가지 t 검정 방법들에 대해 알아보록하겠습니다. 우선 가설검증 과정을 간략하게 복습해보면 다음과 같습니다 (가설 검증 (Hypothesis testing)이란? Part I). 가설검정 디자인 귀무가설, 대립 가설 설정 검정 통계량 설정 유의 주순과 기각역 설정 대립 분포를 이용해 검정력 측정 가설검정 실행 데이터 수집 및 검정 통계량 측정 검정 통계량이 기각역 내에 떨어지는지 여부 확인 내무 가설 채택/기각 여기서 우리는 데이터가 정규분포를 따른다고 가정했었죠. 저번 시간에 다루었던 IQ 예제에서는 대한민국 평균 아이큐가 평균($\mu$)이 100고 표준편차($\sig.. 2019. 11. 18.
[통계학] 5. 가설검증 (Hypothesis testing)이란? Part I 이번 포스트에서는 통계학에 흔히 이용되는 귀무가설 유의성 검증 (null hypothesis significance testing/NHST)에 대해서 공부해보겠습니다. 귀무 어쩌고 저쩌고... 말이 길고 어려운데 앞으로 가설 검정이라 부르고 잘게 쪼개서 알아보도록 하겠습니다. 가설검정 (Hypothesis Testing)이란? 우리가 관심 있는 특정 모집단의 특성에 대한 가설이 있다고 생각해봅시다. 예를 들면 서울대학교 학생들의 아이큐는 대한민국 평균보다 높다라는 가설을 세웠다고 해봅시다. 이 통계적 가설을 추출한 표본을 사용하여 검토하는 추론의 과정을 가설 검정이라고 합니다. 이제 가설검정의 구성을 알아 보록 하겠습니다. 표기 개념 정의 $H_0$ 귀무가설 (Null Hypothesis) 디폴트(def.. 2019. 11. 12.
마인드셋 (Mindset) : 사고방식이 당신의 성취를 결정한다 마인드 셋 (Mindset) 참 유명한 책이죠. 예전에 선물 받은 책인데 손이 안 가서 책꽂이에 장식으로 자리하고 있다가 여기저기서 추천 도서로 올라오는 걸 보고 저도 한 번 집어 들어 읽기 시작했습니다. 저자인 캐럴 드웩 교수는 태생적으로 타고난 지적, 육체적 능력. 우리가 소위 말하는 재능의 존재는 인정합니다. 하지만 그 재능을 타고나지 못한 사람들 역시 꾸준한 연습을 통해 그 능력을 개발할 수 있다고 이야기합니다. 드웩 교수는 우리가 갖는 사고방식을 크게 천부적인 재능의 유무에 따라 운명이 결정된다고 믿는 '고정형 사고방식'과 의식적인 노력과 연습을 통해 꾸준히 나아갈 수 있다고 믿는 '성장형 사고방식' 이 두 가지로 분류합니다. 책에는 그 증거로 수많은 실험을 통해 성장형 사고방식을 가진 사람들과.. 2019. 11. 7.
[통계학] 4. 대표적인 확률분포 정리 확률분포 (Probability Distribution) 확률분포란 간단하게 말해 확률변수 X의 함수라고 할 수 있습니다. 확률변수 X는 특정한 값을 가지게 되는데, 그 값을 가질 확률들은 일종의 함수와 같이 어떤 분포를 갖게 됩니다. 가능한 모든 확률변수와 이 변수가 일어날 확률을 나타낸 것을 확률분포라 한다. 이번 포스트에서는 대표적인 네 가지 확률 분포에 대해서 알아보겠습니다. 베르누이 분포(The Bernoulli distribution) 베르누이 분포는 이산 확률분포 중 하나로 확률변수 n는 0 또는 1 값을 갖게 되며 각각의 독립된 시행(trial)에서 1 (‘성공')은 p의 확률을, 0 (‘실패')은 q = 1 - p의 확률로 일어나고 다음과 같이 표현합니다. X가 베르누이 분포를 따를 때 .. 2019. 8. 18.
[통계학] 3. 기대값과 분산(Expected Value & Variance) 이번 포스트에서는 기댓값(Expected Value)과 분산(Variance)에 대해서 알아보겠습니다. 기댓값 (Expected Value) 기댓값 (Expected Value)은 어떤 확률 과정을 무한히 반복했을 때 얻을 수 있는 값들의 평균으로 기대하는 값으로 중심적 성향 또는 분포의 무게중심을 알려줍니다. 기대값은 모집단이나 표본이나 표기법에 약간 차이가 있을 뿐 수식은 동일합니다. 수식으로는 각각 다음과 같습니다. 이 수학기호를 말로 설명하면 변수 X의 기댓값은 X라는 행위를 했을 때 나오는 결괏값과 그것의 확률들의 곱들의 합입니다. 예시로 또 한번 주사위 던지기를 생각해보겠습니다. 주사위를 던졌을 때 나올 수 있는 값들은 1부터 6까지의 숫자이고 각각 같은 확률을 같죠. 그렇다면 주사위를 던졌을.. 2019. 8. 18.
일취월장 - 일을 잘하기 위한 8가지 원리 최근에 읽은 '일취월장'이라는 책의 요약 및 리뷰입니다. 개인적으로 술술 읽히고 전달하려는 메시지가 명확하고 그걸 뒷받침해주는 예시도 적절하여 이해하기도 용이한 책이었다고 생각합니다. 대중서인만큼 난이도를 낮추고 독자의 이해를 도우려는 시도가 돋보이는 반면에 오히려 인용구가 너무 많아서 집중력을 떨어뜨린 다던가, 저자의 의도가 헷갈리는 부분도 간혹 나오곤 했습니다. 그래도 재미있게 읽을 수 있었던 것은 다른 책들에서 많이 다루지 않는 주제들. 운이라던가 뇌의 작동원리 등 느낌적으로 알고는 있지만 이해하지는 못하는 부분들을 글로써 체계적으로 설명한 내용들이 굉장히 흥미로웠습니다. 이 책은 디딤돌 정도로 생각하시면 될 거같습니다. 넓은 범위의 주제를 다루기 때문에 이것저것 맛보기로 경험해볼 수 있었습니다. .. 2019. 7. 28.
[통계학] 2. 조건부 확률 (Conditional Probability)와 베이즈 정리 (Bayes' Theorem)의 이해와 응용 저번 시간에는 확률에 대한 기본적인 정의를 알아보았습니다. 이번에는 이어서 조건부 확률 (Conditional Probability)에 대해서 간략하게 알아보겠습니다. 조건부 확률 (Conditional Probability) 말 그대로 특정 조건 하에 사건이 일어날 확률인데요. 예를 들어 친구가 주사위를 던지고 우리가 맞추는 게임을 하는 상황이라고 생각해보죠. 주사위를 던지면 1, 2, 3, 4, 5, 6 중 한 가지 숫자가 나옵니다. 이때 숫자 1이 나올 확률은 1/6이죠. 근데 옆에서 다른 친구가 슬쩍 보더니 “홀수야 홀수”라고 슬쩍 알려줍니다. 그렇다면 이제 숫자 1이 나올 확률은 무엇일까요? 친구가 알려준 정보. 즉 숫자가 홀수라는 전제하에 숫자 1일이 나올 확률은 1/3이죠. 친구 덕분에 선택.. 2019. 7. 28.