주요글: 도커 시작하기
반응형

[만화와 함께 하는 즐거운 통계학] 책의 2부의 12-13장을 정리한 글이다. (책의 내용을 요약할 뿐이며, 난 아직 통계의 '통'자도 모른다.)


관련 글:



12장: 가설 검증


가설 검증은 모집단 평균을 찾기 위한 또 다른 방법으로, 가설이 얼마나 맞을지 여부를 임의표본을 이용해서 추측하는 것이다. 과정은 이렇다.

  1. 가설을 세운다. (영가설/귀무가설, null hyphothesis)
  2. 임의표본을 채집하고, 임의표본의 평균, 표준편차를 구한다.
  3. 가설의 평균과 임의표본의 표준편차를 사용해서 가설용 정규분포를 만든다.
  4. 가설용 정규분포를 기준으로 임의표본 평균이 포함될 확률값(p값)을 구한다. (이 책은 이런게 있다 정도의 책으로 p값을 구하는 자세한 내용은 언급하지 않는다.)
  5. 그 확률값이 5%(0.05) 미만이면 가설이 틀렸을 가능성이 높다고 판단, 즉 영가설을 기각한다.


13장: 격렬한 대림

앞서 말한 가설을 통계에서 영(null)가설이라고 부른다. 영가설을 기준으로 표본이 나올 확률이 5% 미만이면 영가설이 틀릴 가능성이 95%이므로 영가설을 기각한다. 13장에서는 이의 활용 예를 보여준다.

책에서 나오는 예제 중 하나는 기계가 고장 나서 새제품을 사야 할지 여부를 결정하는데 가설검증을 사용하고 있다. 이 예에서는 제품을 생산할 때 평균적으로 제품마다 0.25그램의 원료를 넣는 기계를 사용한다. 그런데, 효과가 약해졌다는 고객들의 항의가 들어오고, 너무 많은 원료가 들어가 있다는 신고도 들어오고 있는 상황이다.

그래서 기계가 이상이 있는지 여부를 판단하고 기계를 바꿔야 할지 여부를 결정해야 한다.

여기서 영가설은 아래와 같다.
  • 기계는 고장나지 않았다. 즉, 평균적으로 0.25그램의 원료를 잘 넣고 있다.
영가설이 맞는지 확인하기 위해 임의로 80개의 제품을 채집해 조사했다. 조사 결과 표본평균은 0.14그램, 표본표준편차는 0.46이 나왔다. 이 수치를 바탕으로 p 값을 구했더니 0.03이나왔다. 이는 5% 미만이니까, 영가설을 기각한다. 즉, 기계가 고장났을 가능성이 높은 것이다. 물론 이는 기계가 고장나지 않았을 가능성 또한 3% 있다는 것을 기억해야 한다.


+ Recent posts