본문 바로가기
데이터 노트 (Data Note)/통계학

[통계학] 들어가며...

by 맨 앞자리 학생 2019. 7. 8.

데이터는 새로운 기름이라고 할 만큼 오늘날 우리는 매일매일 엄청난 양의 데이터를 생산하고 있습니다. 

하지만 기하급수적으로 불어나고 있는 데이터 양에 비해 이걸 분석할 인력과 역량은 엄청나게 부족한 상황이죠.

 

최근에 손정의 일본 소프트뱅크 회장이 방한해 첫째도 둘째도 AI… 한국이 AI 인력양성에 집중할 것을 강조했는데요. 

 

중동처럼 기름이 나지도 않고, 하다못해 북한처럼 천연자원이 풍부하지 않은 우리나라를 지금까지 먹여 살려왔던 반도체, 철강, 자동차 산업처럼 우리가 또 노려볼 수 있는 것은 AI 기술이라는 점에서 크게 공감했습니다.

 

하지만 IT강국이라는 말이 무색하게 AI분야의 최강국은 미국이고 이미 20년 전부터 비즈니스에 접목시켜 그 효과를 톡톡히 보았죠. 이제 실리콘 벨리에서는 AI를 접목시키지 않은 스타트업을 보기 힘들 정도로 이제는 그 역량이 기본이 되고 있는 시대이기도 합니다. 

 

조금 늦은 출발이지만 삼성, KT를 비롯한 여러 대기업들이 AI 인력양성에 힘쓰고 있는데… 사실 우리 한국인들 뭐하나 시작하면 금세 따라잡고 되려 1등 먹어버리는 민족이기 때문에 걱정스럽진 않습니다.

 

다만 저는 머신러닝이나 AI의 가치에 대해서만 강조되고 있고 그것들의 기본이 되는 통계와 프로그래밍에 대한 기초적인 이해는 간과하고 있다는 점에서 조금 아쉬웠습니다. 그리고 많은 분들이 ‘데이터 분석 = 머신러닝’이라고 생각하시는 것 같아 조금 이해시켜 드리고 싶기도 합니다.

 

제가 관련 학원이나 기업 프로그램을 이수한 적이 없어서 자세한 커리큘럼은 모르지만… 많은 부분 예측 분석(predictive analysis)에 초점을 맞춘 교육프로그램이라 예상이 됩니다. 데이터를 기존에 짜인 알고리즘에 넣어서 결과값을 얻는… 사실 이게 제일 멋있는 일이죠. 현재 주어진 데이터로 미래를 예측하는 일. 저 역시도 아주 매력적인 일이라고 생각합니다. 

 

하지만 예측 분석은 데이터 분석을 이루는 여러 분석들의 일부입니다. 필요에 따라서는 기술적 분석(descriptive analysis)나 처방 분석(prescriptive analysis) 등 다양한 방법론이 존재합니다. 실제 비즈니스 상황에서 대부분의 분석은 ‘현재 상황이 어떤가’ 그리고 ‘왜 그런가’에 대한 분석이기도 하고요. 

 

그렇다고 해서 이 분석들이 서로 아예 관련이 없는 것은 아닙니다. 오히려 서로 상호보완적인 관계이죠. 하지만 저 개인적으로는 데이터를 이해하는 부분이 우선이고 예측 모형 만들기는 그 다음 일이라 생각합니다. 

 

그래서 실무에 필요한 통계학개론 시리즈를 준비해보았습니다. 

 

데이터 요약부터 분석을 통한 의사결정. 나아가 기본적인 예측 분석까지 차례대로 공부해볼 예정입니다. 

 

수학 공식이 포함된 포스트들이 갈수록 많아질 수 밖에 없는 시리즈입니다. 하지만 모두 말로 풀어서 설명드릴 테니 수학이 싫으신 분들께서는 문자만 읽으셔도 무방할 듯합니다.

 

또한 약간의 프로그래밍이 들어갈 예정입니다. 주로 R이나 Python이 코드들이 등장할 텐데 이것 또한 필요하지 않으신 분들께서는 넘어가셔도 되시겠습니다.

 

자! 그럼 시작해보겠습니다.





댓글