조금 있으면 21대 총선이죠? 국회의원들은 물론이고 우리들도 누가 당선이 될지 궁금합니다. 뉴스에도 심심치 않게 나오는 지지율 분석 차트와 보고서들은 무엇을 근거로 작성되었고 그들이 들이미는 결괏값들은 정확할까요?
실제로 투표가 완료된 것이 아니기 때문에 전체 투표권이 있는 인구의 표본을 추출해서 그들의 성향을 분석한 결과겠죠.
이것을 통계적 추론 (statistical inference)라고도 하는데 관측된 표본 데이터를 기초하여 모집단에 대해서 추측 또한 파악하는 조사입니다.
통계적 추론이 이용되는 몇 가지 예를 소개드리자면 다음과 같습니다.
- 모집단 통계치의 불확실성에 대한 추정 및 수치화
- 데이터 상의 잡음의 수치화
- 새 정책이나 캠페인의 효과 측정
- 어떤 현상이 일어날 확률 측정 (e.g. 날씨)
정리하면 우리에게 주어진 정보로 전체를 파악하려는 노력이라고 볼 수 있겠습니다.
근데 각 연구기관별로 숫자가 다 조금씩 다른걸 보신 적 있으시죠? 그게 그럴 수밖에 없는 것이 연구방법론부터 데이터 수집 방식, 사용된 통계학적 기법이 조금조금씩 전부 다르기 때문인데요. 그렇기 때문에 제대로 된 절차를 따른 통계분석의 결과인지 제대로 확인해야 합니다.
그런데 이게 쉽지만은 않습니다. 실제 분석에 들어가기 전에 우리에게 주어진 데이터의 양과 질을 모두 확인해야 하는데요.
여기서도 우리가 확인해야 하는 몇 가지를 알아보겠습니다.
- 주어진 표본이 추론하고자 하는 모집단을 대변할 수 있는 데이터 포인트들인가
- 우리가 경험이나 상식을 통해 알고 있고 데이터도 존재하나, 우리가 알고는 있지만 데이터가 존재하지 않는가, 우리가 모르고 있고 데이터도 존재하지 않는가
- 손실자료나 연구 방법론이 체계적 편향을 가져올 수 있는가
- 데이터 상의 무작위성 (randomness)가 있는가
어떤 ‘도구’를 사용해 분석을 할지에 따라 때로는 더 많고 적은 확인 절차가 있겠지만 이 과정이 간과된다면 그 분석 자체가 가지는 신뢰도가 많이 떨어지겠죠.
그렇다면 이제 어떤 ‘도구’를 이용하여 통계적 추론을 할 것인가를 알아보겠습니다. 여기서 ‘도구’란 통계학적 기법 정도로 생각하시면 되겠습니다.
무선화(Randomization) | 실험적인 상황에서 독립변수와 종속변수의 관계를 엉뚱하게 만드는 모든 변수들을 통제하는 기법 |
무작위 추출법(Random sampling) | 표본을 모집단 전체의 경향을 정확하게 나타낼 수 있도록 완전 무작위로 추출하는 방법 |
가설검정(Hypothesis testing) | 모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적 추론 |
신뢰구간(Confidence intervals) |
표본집단에서 얻은 통계치를 가지고 모집단의 모수치를 추리하기 위하여 모수치가 놓여 있으리라고 자신하는 값의 구간 |
확률 모델(Probability models) |
확률 변수 혹은 확률 변수 군에 대하여 상정하는, 일정한 특성을 갖는 확률 구조 |
물론 이것들 외에도 무지하게 많지만 제 역량과 이해도가 떨어지는 관계로 제가 생각하기에 실무적으로 이용이 가능하고 이해도 가능한 부분에 대해서만 다루겠습니다.
보통 통계학이 어려워하시는 이유는 이론적인 부분이 온통 알아볼 수 없는 수식으로 되어있기 때문인데요. 통계를 응용하는 실무분야에서는 그 이론을 다 이해할 필요는 없습니다. 다만 어떠한 방법론을 따라 결과를 도출했는지, 그 도출 결과가 정확한지, 결과를 보고 무엇을 알 수 있으며 어떠한 방향성을 제시할 수 있을지에 집중하시는 게 좋습니다. 그리고 그것이 곧 '통계적 문해력'입니다.
위에 정의들이 지금은 이해하지 않으셔도 상관없습니다. 앞으로 아주 기초적인 개념들부터 시작해서 점차 확장해나가면서 하나씩 건드려볼 예정이니 함께 천천히 공부해 나가면서 통계적 문해력을 쌓아나가 보아요.
'데이터 노트 (Data Note) > 통계학' 카테고리의 다른 글
[통계학] 4. 대표적인 확률분포 정리 (1) | 2019.08.18 |
---|---|
[통계학] 3. 기대값과 분산(Expected Value & Variance) (1) | 2019.08.18 |
[통계학] 2. 조건부 확률 (Conditional Probability)와 베이즈 정리 (Bayes' Theorem)의 이해와 응용 (0) | 2019.07.28 |
[통계학] 1. 확률 (Probability)의 이해 (0) | 2019.07.22 |
[통계학] 들어가며... (0) | 2019.07.08 |
댓글