저작권 안내: 저작권자표시 Yes 상업적이용 No 컨텐츠변경 No

스프링5 입문

JSP 2.3

JPA 입문

DDD Start

인프런 객체 지향 입문 강의

[만화와 함께 하는 즐거운 통계학] 책의 2부의 12-13장을 정리한 글이다. (책의 내용을 요약할 뿐이며, 난 아직 통계의 '통'자도 모른다.)


관련 글:



12장: 가설 검증


가설 검증은 모집단 평균을 찾기 위한 또 다른 방법으로, 가설이 얼마나 맞을지 여부를 임의표본을 이용해서 추측하는 것이다. 과정은 이렇다.

  1. 가설을 세운다. (영가설/귀무가설, null hyphothesis)
  2. 임의표본을 채집하고, 임의표본의 평균, 표준편차를 구한다.
  3. 가설의 평균과 임의표본의 표준편차를 사용해서 가설용 정규분포를 만든다.
  4. 가설용 정규분포를 기준으로 임의표본 평균이 포함될 확률값(p값)을 구한다. (이 책은 이런게 있다 정도의 책으로 p값을 구하는 자세한 내용은 언급하지 않는다.)
  5. 그 확률값이 5%(0.05) 미만이면 가설이 틀렸을 가능성이 높다고 판단, 즉 영가설을 기각한다.


13장: 격렬한 대림

앞서 말한 가설을 통계에서 영(null)가설이라고 부른다. 영가설을 기준으로 표본이 나올 확률이 5% 미만이면 영가설이 틀릴 가능성이 95%이므로 영가설을 기각한다. 13장에서는 이의 활용 예를 보여준다.

책에서 나오는 예제 중 하나는 기계가 고장 나서 새제품을 사야 할지 여부를 결정하는데 가설검증을 사용하고 있다. 이 예에서는 제품을 생산할 때 평균적으로 제품마다 0.25그램의 원료를 넣는 기계를 사용한다. 그런데, 효과가 약해졌다는 고객들의 항의가 들어오고, 너무 많은 원료가 들어가 있다는 신고도 들어오고 있는 상황이다.

그래서 기계가 이상이 있는지 여부를 판단하고 기계를 바꿔야 할지 여부를 결정해야 한다.

여기서 영가설은 아래와 같다.
  • 기계는 고장나지 않았다. 즉, 평균적으로 0.25그램의 원료를 잘 넣고 있다.
영가설이 맞는지 확인하기 위해 임의로 80개의 제품을 채집해 조사했다. 조사 결과 표본평균은 0.14그램, 표본표준편차는 0.46이 나왔다. 이 수치를 바탕으로 p 값을 구했더니 0.03이나왔다. 이는 5% 미만이니까, 영가설을 기각한다. 즉, 기계가 고장났을 가능성이 높은 것이다. 물론 이는 기계가 고장나지 않았을 가능성 또한 3% 있다는 것을 기억해야 한다.


Posted by 최범균 madvirus

댓글을 달아 주세요

  1. 아라한사 2014.01.20 17:02 신고  댓글주소  수정/삭제  댓글쓰기

    책이 좋아보이네요..

    예전에 통계학 입문 얇은 책 봤는데..이걸로도 한번 더 봐야겠습니다..

    순수학문으로, 실용적 의미로도 요즘 통계학이 참 많이 와닿네요 ㅎㅎ

    저는 jsp 책 독자입니다. 책 잘 보고 있습니다. ㅎㅎ

[만화와 함께 하는 즐거운 통계학] 책의 1부의 4-6장을 정리한 글이다. 

관련글:



4장: 조사 작업


자료를 모았다면 기본적인 조사 작업을 해야 하는데, 이때 살펴봐야 할 네 가지 특징은 표본 크기, 모양, 위치, 퍼짐 정도에 대한 것이다.


자료에서 첫 번째로 찾아야 하는 것은 표본 크기이다. 표본 크기는 매우 중요하다. 시청률을 조사하는데 10가구만 조사한다면 이를 통해서 알 수 있는 것은 전체 가수의 시청률 추측이 아닌 일부 가구의 기호일 것이다. 표본 크기가 작으면 알 수 있는 것이 매우 제한되며, 표본 크기가 커질수록 모집단에 대해 더 정확한 추정이 가능(표본의 신뢰 수준과 직결)해진다.


표본의 모양에는, 모양이 그렇게 만들어진 이유가 존재한다. 예를 들어, 모든 값이 나올 확률이 같으면 자료가 균등분포를 가졌다고 하고, 하나의 특정 값 주변에 모이면 자료가 정규분포를 가졌다고 하며, 자료가 한쪽으로 몰려있으면 자료가 비대칭분포를 가졌다고 한다.


위치는 다수의 데이터가 어디에 있는지 측정한다. 주로 위치를 나타내기 위해 평균(mean)을 사용한다. 평균은 수집한 자료의 값을 모두 더하고, 그 합을 자료의 개수로 나눈 값이다. 


평균이 위치를 잡는 정확한 값이긴 하지만, 완벽한 것은 아니다. 아래 그림을 보자. 이 그림을 보면 가구소득 평균은 2012년에 4,475만원이지만, 전체 가구 중 소득 기준으로 가운데 위치한 가구의 소득은 3,600 만원이다. 즉, 절반 이상의 가구가 평균보다 낮은 소득을 갖는 것이다.

따라서, 평균값과 함께 자료의 모양을 고려해서 자료를 이해해야 한다.


퍼짐 정도는 자료 더미의 너비를 재는 측도이며, 변동의 측도이기도 하다. 퍼짐 정도를 측정하는 방법 중 하나는 다음과 같다.

  • 전체를 동일한 크기의 네 덩어리로 나눈다. 즉, 박스상자(boxplot) 그래프를 그린다.
박스상자로 알 수 있는 것은 간 영역에서의 변동과 비대칭 자료를 조사할 때 유용하게 사용할 수 있다. 예를 들어, 가구소득 구간별 가구분포를 보면 중앙값(3,600만원) 아래로 더 많이 압축되어 있고, 중앙값 위로 더 넓게 퍼져 있는 것을 알 수 있다.

퍼짐 정도를 측정하는 가장 흔한 방법은 표준편차(Standard Deviation, SD)다. 표준 편차는 자료들이 평균을 중심으로 얼마나 떨어져 있는지를 나타내는 값으로, 자료가 더 많이 퍼져 있을수록 표준펴차 값이 커진다.


5장: 엄청난 실수


한 개의 변수를 다루는 표본은 비교적 다루기가 쉽다. 예를 들어, 몸무게라든가, 가구원수는 하나의 숫자만 관련되어 있어 자료 분석이 용이하다. 그런데, 변수가 두 개 이상이라면 어떻게 될까? 이 경우, 각 변수 사이에 주는 영향을 조사해야 한다.


책의 예제를 이용해서 변수가 주는 영향에 대해 알아보자. 책에서 나온 재미난 예제는 아래와 같다.

  • 바이킹의 남자들보다 여자들이 용을 더 빠르게 탄다고 주장한다.
  • 그래서, 임의로 남자 50명과 여자 50명을 뽑아서 1킬로미터를 날아간 시간을 측정했다.
  • 이 결과 남자의 평균 시간은 6.3초였고, 여차의 평균 시간은 5.6초였다.
평균만 보면 남자보다 여자가 평균적으로 0.7초 빠른 것으로 보인다. 하지만, 앞서 4장에서 평균값과 함께 모양과 위치를 함께 분석해야 한다고 했던 것을 기억할 것이다. 남자 표본과 여자 표본의 상자그림을 보면 아래와 같다.


이 그림을 보면 남자 라이더의 기록이 오른쪽으로 치우친 데 반해, 여자 라이더의 기록은 왼쪽으로 치우친 것을 알 수 있다. 히스토그램의 결과도 특이하다.



두 히스토그램 모두 정규분포를 따르기 보다는 남자는 빠른 쪽에 작은 봉이 하나 있고, 여자는 느린 쪽에 작은 봉이 하나 있다. 이는 단순히 성별이 속도에 영향을 준다기보다, 속도에 영향을 주는 또 다른 변수가 있을지도 모른다는 것을 암시한다.

책에서 제시하는 또 다른 변수는 용이다. 성별과 속도의 관계에만 집중하는 동안 실제 속도에 영향을 주는 용에 대한 부분을 잊은 것이다. 라이더들은 크지만 느린 용과 작지만 빠른 용의 두 종료의 용을 사용했고, 여자에 비해 남자들이 상대적으로 크지만 느린 용을 선택하는 경우가 많다는 것을 알게 되었다.

실제 용을 고려한 남여 평균을 구한 결과 아래와 같은 표를 얻을 수 있었다.

구분 

작은 용 

큰 용 

남자 라이더 

3.6 

6.9 

여자 라이더 

5.1 

7.9 


최초에 추측한 결과와 완전히 다른데, 이것은 결과에 영향을 줄 수 있는 변수를 놓칠 때 얻게 되는 결과가 잘못될 수 있음을 보여주고 있다. 그래서 올바른 통계를 얻어내기 위해 중요한 일 중 하나가 결과에 영향을 줄 수 있는 변수를 알아내는 것이다. 변수를 찾아내지 못하면 우리는 잘못된 결과를 믿게 될 것이다.



6장: 표본에서 모집단까지


6장에서 몇 가지 용어에 대해 설명하고 있다.


모집단  전체를 히스토그램으로 쌓은 것을 '모집단 분포'라고 말한다. 모집단은 표본과 동일하게 모양, 위치, 퍼짐 정도의 특징(속성)을 갖고 있다. 표본의 속성을 '통계량'이라 부르고, 모집단의 속성을 '모수'라고 부른다. (표본의 평균, 표본 크기 등이 통계량이고 모집단의 평균/크기 등이 모수이다.) 통계로 하려는 것은 통계량을 사용해서 모수를 찾아내는 것이다. (정확히는 추측하는 것) 2부에서는 임의의 표본에서 찾은 통계량을 사용해서 모집단의 평균을 찾는 방법을 알아볼 것이다.





Posted by 최범균 madvirus

댓글을 달아 주세요

[만화와 함께 하는 즐거운 통계학] 책의 1부를 정리한 글이다.

관련글:




들어가며: 통계는 언제나 우리 곁에


우리는 항상 통계를 마주한다. 맞선 사이트의 매칭 상대 검색, TV시청률, 추신수 선수의 출루율, 투표의 출구조사, 고압선이 지나가는 곳의 암발병률 등 다양한 곳에서 통계를 보여준다. 통계에는 다양한 숫자가 출현하는데, 통계가 유용한 이유는 '중요한 일을 설명하는 과정에서 등장하는 큰 수를 쉽게 이해시켜 준다'는 것이다. 예를 들어, 시청률이 40%를 넘기면 국민드라마 반열에 올랐다고 판단할 수 있으며, 출구조사를 통해 투표 완료 전에 어느 후보가 이길 지 예측해준다.


통계는 세상을 이해하는데 도움이 되지만, 실제로 통계를 사용하는 진짜 이유는 '한정된 정보만 가지고 확실한 결정을 하도록 돕기' 때문이다. 예를 들어, 전체 TV 시청 인구를 조사하지 않고도 시청률을 알아낼 수 있으며, 이를 바탕으로 방송국은 광고를 더 좋은 가격에 수주할 수 있다. 또한, 투표한 전체 유권자가 아닌 일부 유권자만 조사해도 실제 투표 결과를 (상당 수준에서) 맞출 수 있다. 통계는 전체(모집단)에 관해 신뢰할 만한 진술을 하기 위해 일부(표본)를 사용하는 방법을 알려주는데, 1부에서는 통계의 기본은 표본을 모으고, 조사하는 방법에 대해 배운다.


1부: 통계치 모으기


1장: 숫자

통계는 기본적으로 숫자를 다룬다. 숫자는 다양한 의미를 갖기 때문에, 그것을 이해하는 것은 항상 쉬운 것은 아니다. 같은 숫자라도 긍정적인 경우(평균 급여가 7% 인상)와 부정적인 경우(실업률 7% 증가)가 있으며, 수의 값과 실제 체감 크기는 다를 수도 있다. (태양에서 지구까지의 거리는 0.0000185 광년) 이런 이유로 숫자는 남을 속이는데 잘 쓰이고(정부의 실업률 발표), 그래서 숫자에 대해 많은 의심을 하게 된다. 하지만, 건전한 의심을 품고 숫자를 다룬다면 숫자로부터 유용한 정보를 얻어낼 수 있으며, 통계를 도구로 사용하면 숫자를 제대로 이해하는 데 도움을 받을 수 있다.


항상 숫자를 보면 이런 질문을 하도록 하자. "이 숫자는 어디서 나왔지? 누가 그 숫자를 만들어 냈지? 그리고 왜?"



2장: 처리되지 않은 임의의 자료

인류의 문명이 시작된 이래, 사람들은 물건을 세고자 하는 욕구가 있었다고 한다. 문명이 커짐에 따라 세어야 할 것들도 많아졌는데, 알고 싶은 모든 것을 세는 것은 불가능한 것이었다. 그래서, 전체 모집단에 대해 알기 위해 표본을 연구하는 전략을 발전시켰다. 즉, 표본만으로 모집단을 설명하는 방법을 찾아낸 것이다.


하지만, 표본을 사용하기 전에 기억해야 할 사실이 있다. 첫째, 표본만으로 모집단에 대한 절대적 확신을 얻기는 불가능하다. 통계는 가장 좋은 추측을 제공할 뿐이다. 둘째, 표본은 매우 신중하게 채집해야 한다는 것이다. 출구조사에서 노인들만 조사한다면 예측 결과는 실제 결과와는 완전히 달라질 것이다.


표본을 채집하는 것은 매우 어려운데, 그 중에 가장 어려운 점은 정확하게 무엇을 표본 안에 포함해야 하는지 찾아내는 것이다. 표본을 잘못 모으면, 모집단에 편향된 결과를 만들어낸다. 편향된 결과를 만들어내지 않는 신뢰할만한 방법이 있는데, 그것은 바로 표본을 임의로 채집하는 것이다.


임의표본 채집방법은 실제로는 매우 어려운 일이될 수 있다. 예를 들어, 집전화를 이용한 채집 방법은 요즘처럼 젊은 층이 집에 전화를 놓지 않는 비율이 높아지는 상황에서 편향된 표본을 채집할 가능성을 높인다. 따라서, 임의 표본을 제대로 채집하는 것은 매우 중요하며, 이는 통계 조사에서 핵심이 된다.


문명이 시작된 이래 데이터의 양은 한없이 증가하고 있지만, 통계의 목표는 여전히 같다. 임의표본을 채집하고, 임의표본으로 모집단에 관해 추측하는 것이다.



3장: 정렬

자료에는 크게 범주(category)형 자료와 수치 자료가 존재한다. 범주형 자료는 말로만 설명할 수 있는 특징(예, 피부색)이나, 선택할 수 있는 것(지지하는 정당)들이 속한다. 이런 자료는 히스토그램이나 비율을 보여주는 원그래프 등으로 표본에 대한 감각을 얻을 수 있다. 수치 자료는 나이나 키처럼 숫자를 사용해서 비교할 수 있는 특징을 연구할 때 사용한다. 수치 자료에는 수학을 쓸 수 있기 때문에(예, 평균키와 표준편차), 통계학자는 수치자료를 선호한다.


인간은 커다란 숫자 목록을 잘 처리하지 못하기 때문에, 수치 자료를 모은 뒤에 하는 첫 번째 일은 숫자들로 그림을 그리는 거다. (즉, 시각화) 수치 자료에 대한 가장 기본적인 그림은 히스토그램이다.


[히스토그램]


히스토그램은 일정 간격으로 숫자가 표시된 수직선(수학의 수직선임, 수평/수직의 그 수직이 아님)으로 시작한다. 이 숫자는 표본에서 측정한 값을 표현한 것으로, 위 그림에서는 '코뿔소'의 허리 둘레를 일정 간격으로 표시하였다. 그리고, 각 구간위에는 그 구간에 해당하는 표본의 개수를 표시한다. 히스토그램을 통해서 우리는 표본 자료 전체에 완전한 분포를 볼 수 있고, 몇 가지 상세 정보-예, 한 코뿔소가 유난히 허리가 크다 등-도 확인할 수 있다.


또 다른 유용한 그림으로 상자그림(boxplot)가 있다.



상자그림도 수직선으로 시작한다. 수직선을 그리면, 최솟값과 최댓값 위치에 막대기를 표시하고, 표본의 값 중 중간 50%를 상자로 표시한다. 그리고, 표본의 중간값(평균이 아닌 중간) 위치를 상자 안에 선으로 표시한다. 상자 그림은 자료를 개괄적으로 이해할 때 유용하다. 예를 들어, 상자가 좌측으로 쏠려 있으면 값이 작은 표본의 개수가 상대적으로 더 많다는 것을 알 수 있고, 상자의 크기가 작으면 중간 50%의 표본들이 빽빽하게 뭉쳐 있다는 것을 알 수 있다. 또한, 서로 다른 표본/그룹의 상자그림을 비교할 때 상자기름을 유용하게 사용할 수 있다.


통계는 숫자를 다루지만, 간단한 그림만으로도 자료가 의미하는 바를 빠르게 유추할 수 있도록 해 준다. 이런 의미에서 자료를 모은 뒤 첫 번째로 할 일은 자료에 대한 그림을 만들어보는 것이다.


Posted by 최범균 madvirus

댓글을 달아 주세요