주요글: 도커 시작하기
반응형

[만화와 함께 하는 즐거운 통계학] 책의 1부의 4-6장을 정리한 글이다. 

관련글:



4장: 조사 작업


자료를 모았다면 기본적인 조사 작업을 해야 하는데, 이때 살펴봐야 할 네 가지 특징은 표본 크기, 모양, 위치, 퍼짐 정도에 대한 것이다.


자료에서 첫 번째로 찾아야 하는 것은 표본 크기이다. 표본 크기는 매우 중요하다. 시청률을 조사하는데 10가구만 조사한다면 이를 통해서 알 수 있는 것은 전체 가수의 시청률 추측이 아닌 일부 가구의 기호일 것이다. 표본 크기가 작으면 알 수 있는 것이 매우 제한되며, 표본 크기가 커질수록 모집단에 대해 더 정확한 추정이 가능(표본의 신뢰 수준과 직결)해진다.


표본의 모양에는, 모양이 그렇게 만들어진 이유가 존재한다. 예를 들어, 모든 값이 나올 확률이 같으면 자료가 균등분포를 가졌다고 하고, 하나의 특정 값 주변에 모이면 자료가 정규분포를 가졌다고 하며, 자료가 한쪽으로 몰려있으면 자료가 비대칭분포를 가졌다고 한다.


위치는 다수의 데이터가 어디에 있는지 측정한다. 주로 위치를 나타내기 위해 평균(mean)을 사용한다. 평균은 수집한 자료의 값을 모두 더하고, 그 합을 자료의 개수로 나눈 값이다. 


평균이 위치를 잡는 정확한 값이긴 하지만, 완벽한 것은 아니다. 아래 그림을 보자. 이 그림을 보면 가구소득 평균은 2012년에 4,475만원이지만, 전체 가구 중 소득 기준으로 가운데 위치한 가구의 소득은 3,600 만원이다. 즉, 절반 이상의 가구가 평균보다 낮은 소득을 갖는 것이다.

따라서, 평균값과 함께 자료의 모양을 고려해서 자료를 이해해야 한다.


퍼짐 정도는 자료 더미의 너비를 재는 측도이며, 변동의 측도이기도 하다. 퍼짐 정도를 측정하는 방법 중 하나는 다음과 같다.

  • 전체를 동일한 크기의 네 덩어리로 나눈다. 즉, 박스상자(boxplot) 그래프를 그린다.
박스상자로 알 수 있는 것은 간 영역에서의 변동과 비대칭 자료를 조사할 때 유용하게 사용할 수 있다. 예를 들어, 가구소득 구간별 가구분포를 보면 중앙값(3,600만원) 아래로 더 많이 압축되어 있고, 중앙값 위로 더 넓게 퍼져 있는 것을 알 수 있다.

퍼짐 정도를 측정하는 가장 흔한 방법은 표준편차(Standard Deviation, SD)다. 표준 편차는 자료들이 평균을 중심으로 얼마나 떨어져 있는지를 나타내는 값으로, 자료가 더 많이 퍼져 있을수록 표준펴차 값이 커진다.


5장: 엄청난 실수


한 개의 변수를 다루는 표본은 비교적 다루기가 쉽다. 예를 들어, 몸무게라든가, 가구원수는 하나의 숫자만 관련되어 있어 자료 분석이 용이하다. 그런데, 변수가 두 개 이상이라면 어떻게 될까? 이 경우, 각 변수 사이에 주는 영향을 조사해야 한다.


책의 예제를 이용해서 변수가 주는 영향에 대해 알아보자. 책에서 나온 재미난 예제는 아래와 같다.

  • 바이킹의 남자들보다 여자들이 용을 더 빠르게 탄다고 주장한다.
  • 그래서, 임의로 남자 50명과 여자 50명을 뽑아서 1킬로미터를 날아간 시간을 측정했다.
  • 이 결과 남자의 평균 시간은 6.3초였고, 여차의 평균 시간은 5.6초였다.
평균만 보면 남자보다 여자가 평균적으로 0.7초 빠른 것으로 보인다. 하지만, 앞서 4장에서 평균값과 함께 모양과 위치를 함께 분석해야 한다고 했던 것을 기억할 것이다. 남자 표본과 여자 표본의 상자그림을 보면 아래와 같다.


이 그림을 보면 남자 라이더의 기록이 오른쪽으로 치우친 데 반해, 여자 라이더의 기록은 왼쪽으로 치우친 것을 알 수 있다. 히스토그램의 결과도 특이하다.



두 히스토그램 모두 정규분포를 따르기 보다는 남자는 빠른 쪽에 작은 봉이 하나 있고, 여자는 느린 쪽에 작은 봉이 하나 있다. 이는 단순히 성별이 속도에 영향을 준다기보다, 속도에 영향을 주는 또 다른 변수가 있을지도 모른다는 것을 암시한다.

책에서 제시하는 또 다른 변수는 용이다. 성별과 속도의 관계에만 집중하는 동안 실제 속도에 영향을 주는 용에 대한 부분을 잊은 것이다. 라이더들은 크지만 느린 용과 작지만 빠른 용의 두 종료의 용을 사용했고, 여자에 비해 남자들이 상대적으로 크지만 느린 용을 선택하는 경우가 많다는 것을 알게 되었다.

실제 용을 고려한 남여 평균을 구한 결과 아래와 같은 표를 얻을 수 있었다.

구분 

작은 용 

큰 용 

남자 라이더 

3.6 

6.9 

여자 라이더 

5.1 

7.9 


최초에 추측한 결과와 완전히 다른데, 이것은 결과에 영향을 줄 수 있는 변수를 놓칠 때 얻게 되는 결과가 잘못될 수 있음을 보여주고 있다. 그래서 올바른 통계를 얻어내기 위해 중요한 일 중 하나가 결과에 영향을 줄 수 있는 변수를 알아내는 것이다. 변수를 찾아내지 못하면 우리는 잘못된 결과를 믿게 될 것이다.



6장: 표본에서 모집단까지


6장에서 몇 가지 용어에 대해 설명하고 있다.


모집단  전체를 히스토그램으로 쌓은 것을 '모집단 분포'라고 말한다. 모집단은 표본과 동일하게 모양, 위치, 퍼짐 정도의 특징(속성)을 갖고 있다. 표본의 속성을 '통계량'이라 부르고, 모집단의 속성을 '모수'라고 부른다. (표본의 평균, 표본 크기 등이 통계량이고 모집단의 평균/크기 등이 모수이다.) 통계로 하려는 것은 통계량을 사용해서 모수를 찾아내는 것이다. (정확히는 추측하는 것) 2부에서는 임의의 표본에서 찾은 통계량을 사용해서 모집단의 평균을 찾는 방법을 알아볼 것이다.





+ Recent posts