[만화와 함께 하는 즐거운 통계학] 책의 1부를 정리한 글이다.
관련글:
- 2014/01/08 - [통계/데이터] - [만화와 함께 하는 즐거운 통계학] 12장, 13장 요약
- 2014/01/08 - [통계/데이터] - [만화와 함께 하는 즐거운 통계학] 7장, 8장, 9장, 10장 요약
- 2014/01/07 - [통계/데이터] - [만화와 함께 하는 즐거운 통계학] 4장, 5장, 6장 요약
들어가며: 통계는 언제나 우리 곁에
우리는 항상 통계를 마주한다. 맞선 사이트의 매칭 상대 검색, TV시청률, 추신수 선수의 출루율, 투표의 출구조사, 고압선이 지나가는 곳의 암발병률 등 다양한 곳에서 통계를 보여준다. 통계에는 다양한 숫자가 출현하는데, 통계가 유용한 이유는 '중요한 일을 설명하는 과정에서 등장하는 큰 수를 쉽게 이해시켜 준다'는 것이다. 예를 들어, 시청률이 40%를 넘기면 국민드라마 반열에 올랐다고 판단할 수 있으며, 출구조사를 통해 투표 완료 전에 어느 후보가 이길 지 예측해준다.
통계는 세상을 이해하는데 도움이 되지만, 실제로 통계를 사용하는 진짜 이유는 '한정된 정보만 가지고 확실한 결정을 하도록 돕기' 때문이다. 예를 들어, 전체 TV 시청 인구를 조사하지 않고도 시청률을 알아낼 수 있으며, 이를 바탕으로 방송국은 광고를 더 좋은 가격에 수주할 수 있다. 또한, 투표한 전체 유권자가 아닌 일부 유권자만 조사해도 실제 투표 결과를 (상당 수준에서) 맞출 수 있다. 통계는 전체(모집단)에 관해 신뢰할 만한 진술을 하기 위해 일부(표본)를 사용하는 방법을 알려주는데, 1부에서는 통계의 기본은 표본을 모으고, 조사하는 방법에 대해 배운다.
1부: 통계치 모으기
1장: 숫자
통계는 기본적으로 숫자를 다룬다. 숫자는 다양한 의미를 갖기 때문에, 그것을 이해하는 것은 항상 쉬운 것은 아니다. 같은 숫자라도 긍정적인 경우(평균 급여가 7% 인상)와 부정적인 경우(실업률 7% 증가)가 있으며, 수의 값과 실제 체감 크기는 다를 수도 있다. (태양에서 지구까지의 거리는 0.0000185 광년) 이런 이유로 숫자는 남을 속이는데 잘 쓰이고(정부의 실업률 발표), 그래서 숫자에 대해 많은 의심을 하게 된다. 하지만, 건전한 의심을 품고 숫자를 다룬다면 숫자로부터 유용한 정보를 얻어낼 수 있으며, 통계를 도구로 사용하면 숫자를 제대로 이해하는 데 도움을 받을 수 있다.
항상 숫자를 보면 이런 질문을 하도록 하자. "이 숫자는 어디서 나왔지? 누가 그 숫자를 만들어 냈지? 그리고 왜?"
2장: 처리되지 않은 임의의 자료
인류의 문명이 시작된 이래, 사람들은 물건을 세고자 하는 욕구가 있었다고 한다. 문명이 커짐에 따라 세어야 할 것들도 많아졌는데, 알고 싶은 모든 것을 세는 것은 불가능한 것이었다. 그래서, 전체 모집단에 대해 알기 위해 표본을 연구하는 전략을 발전시켰다. 즉, 표본만으로 모집단을 설명하는 방법을 찾아낸 것이다.
하지만, 표본을 사용하기 전에 기억해야 할 사실이 있다. 첫째, 표본만으로 모집단에 대한 절대적 확신을 얻기는 불가능하다. 통계는 가장 좋은 추측을 제공할 뿐이다. 둘째, 표본은 매우 신중하게 채집해야 한다는 것이다. 출구조사에서 노인들만 조사한다면 예측 결과는 실제 결과와는 완전히 달라질 것이다.
표본을 채집하는 것은 매우 어려운데, 그 중에 가장 어려운 점은 정확하게 무엇을 표본 안에 포함해야 하는지 찾아내는 것이다. 표본을 잘못 모으면, 모집단에 편향된 결과를 만들어낸다. 편향된 결과를 만들어내지 않는 신뢰할만한 방법이 있는데, 그것은 바로 표본을 임의로 채집하는 것이다.
임의표본 채집방법은 실제로는 매우 어려운 일이될 수 있다. 예를 들어, 집전화를 이용한 채집 방법은 요즘처럼 젊은 층이 집에 전화를 놓지 않는 비율이 높아지는 상황에서 편향된 표본을 채집할 가능성을 높인다. 따라서, 임의 표본을 제대로 채집하는 것은 매우 중요하며, 이는 통계 조사에서 핵심이 된다.
문명이 시작된 이래 데이터의 양은 한없이 증가하고 있지만, 통계의 목표는 여전히 같다. 임의표본을 채집하고, 임의표본으로 모집단에 관해 추측하는 것이다.
3장: 정렬
자료에는 크게 범주(category)형 자료와 수치 자료가 존재한다. 범주형 자료는 말로만 설명할 수 있는 특징(예, 피부색)이나, 선택할 수 있는 것(지지하는 정당)들이 속한다. 이런 자료는 히스토그램이나 비율을 보여주는 원그래프 등으로 표본에 대한 감각을 얻을 수 있다. 수치 자료는 나이나 키처럼 숫자를 사용해서 비교할 수 있는 특징을 연구할 때 사용한다. 수치 자료에는 수학을 쓸 수 있기 때문에(예, 평균키와 표준편차), 통계학자는 수치자료를 선호한다.
인간은 커다란 숫자 목록을 잘 처리하지 못하기 때문에, 수치 자료를 모은 뒤에 하는 첫 번째 일은 숫자들로 그림을 그리는 거다. (즉, 시각화) 수치 자료에 대한 가장 기본적인 그림은 히스토그램이다.
[히스토그램]
히스토그램은 일정 간격으로 숫자가 표시된 수직선(수학의 수직선임, 수평/수직의 그 수직이 아님)으로 시작한다. 이 숫자는 표본에서 측정한 값을 표현한 것으로, 위 그림에서는 '코뿔소'의 허리 둘레를 일정 간격으로 표시하였다. 그리고, 각 구간위에는 그 구간에 해당하는 표본의 개수를 표시한다. 히스토그램을 통해서 우리는 표본 자료 전체에 완전한 분포를 볼 수 있고, 몇 가지 상세 정보-예, 한 코뿔소가 유난히 허리가 크다 등-도 확인할 수 있다.
또 다른 유용한 그림으로 상자그림(boxplot)가 있다.
상자그림도 수직선으로 시작한다. 수직선을 그리면, 최솟값과 최댓값 위치에 막대기를 표시하고, 표본의 값 중 중간 50%를 상자로 표시한다. 그리고, 표본의 중간값(평균이 아닌 중간) 위치를 상자 안에 선으로 표시한다. 상자 그림은 자료를 개괄적으로 이해할 때 유용하다. 예를 들어, 상자가 좌측으로 쏠려 있으면 값이 작은 표본의 개수가 상대적으로 더 많다는 것을 알 수 있고, 상자의 크기가 작으면 중간 50%의 표본들이 빽빽하게 뭉쳐 있다는 것을 알 수 있다. 또한, 서로 다른 표본/그룹의 상자그림을 비교할 때 상자기름을 유용하게 사용할 수 있다.
통계는 숫자를 다루지만, 간단한 그림만으로도 자료가 의미하는 바를 빠르게 유추할 수 있도록 해 준다. 이런 의미에서 자료를 모은 뒤 첫 번째로 할 일은 자료에 대한 그림을 만들어보는 것이다.