주요글: 도커 시작하기
반응형

[만화와 함께하는 즐거운 통계학] 책의 2부의 7-10장을 정리한 글이다. (책의 내용을 요약할 뿐이며, 난 아직 통계의 '통'자도 모른다.)


관련글:



2부 모수를 찾아서


7장: 중심 극한 정리

동일 크기를 갖는 임의 표본을 엄청 많이 모은다고 상상해보자. 각 표본은 서로 다른 평균을 갖고 있을 것이다. 어떤 표본은 상대적으로 작은 평균값을 갖고, 어떤 표본은 상대적은 큰 평균값을 가질 것이다. 하지만, 표본들의 평균은 전반적으로 한군데로 모이기 시작한다. 많은 수의 표본들을 평균값을 기준으로 히스토그램을 그리게 되면, 정규분포에 해당하는 모양을 갖게 된다. 1인당 통신요금이든, 자동차의 수명이든, 모집단이 무엇이냐에 상관없이 모집단의 임의표본 평균을 많이 모을수록 임의표본 평균들의 모양은 정규분포에 가까워진다.


여기에서 우리는 두 가지를 얻게 된다. 첫 번째는 임의표본 개수가 많을수록 임의표본 평균들의 중앙값은 모집단의 평균과 같아진다는 점이다. 모집단의 모양이 한 쪽으로 치우져있든 평평하든지에 상관없이 임의표본 평균들의 중앙값은 모집단의 평균에 가까워진다..


두 번째로 알 수 있는 점은, 임의표본 평균들의 표준편차가 모집단의 표준편차보다 폭이 좁다는 것이다. 표본 크기가 커질수록, 임의표본 평균 더미의 모양은 낮고 넓은 모양에서 높고 좁은 모양에 가까워진다.



이 이론을 중심 극한 정리(CTL, Central Limit Theorem)라고 하는데, 이 이론이 성립하려면 표본이 무작위로 추출되고 표본의 크기가 충분히 커야(일반적으로 30이상) 한다.


CTL을 기억하는 쉬운 방법은 결국 임의표본평균들은 모집단 평균을 중심으로 모이는 경향이 있다는 점을 기억하는 것이다.


8장: 확률


임의표본의 개수가 엄청 많다면, 흥미로운 결과를 얻을 수 있는데, 그것은 바로  임의표본 평균들로부터 전체 모집단에 관한 확률을 계산할 수 있다는 점이다. 이는, 책의 예처럼 전체 표본의 평균 값 중에서 가운데 50%의 값의 범위가 3.74인치와 4.25인치 사이에 있다면, 모집단위에 무작위로 채집한 표본의 평균이 3.74인차와 4.25인치 사이에 있을 확률이 50%라는 사실을 의미한다.


임의표본평균들은 종모양의 정규분포 모양을 갖기 때문에, 중심값과 표준편차만 알면 다음의 수식을 도출할 수 있다.

  • 중심에서 표준편차만큼 떨어진 범위 안에 68%가 속한다.
  • 중심에서 표준편차의 2배만큼 떨어진 범위 안에 95%가 속한다.
  • 중심에서 표준편차의 3배만큼 떨어진 범위 안에 99.7%가 속한다.

이는 모집단에서 임의로 추출한 표본이 평균에서 표준편차의 2배만큼 떨어진 범위 안에 포함될 확률이 95%임을 의미한다. 즉, 임의표본 평균들의 중심값과 표준편차를 알면, 모집단에 대한 확률을 구할 수 있다.


* 확률은 장기적 관점에서의 확률을 말한다. 99%의 확률이라고 하더라도 1%에 해당하는 값이 최초 100번 중에서 5번 이상 나올 수도 있는 것이다. 하지만, 1만번, 1백만번과 같이 빈도수를 증가하면 실제로 99%의 확률에 가까워진다.


9장: 추론


정규분포 모양이 될 정도로 임의표본을 모을 수 있다면, 모집단의 평균을 찾는 것은 쉬울 것이다. 하지만, 실제로 많은 수의 임의표본을 수집하는것은 (거의) 불가능하다. 그래서, 우리는 작은 수의 임의 표본으로부터 모집단에 대한 정보를 알아내야 하는데, 이를 추론이라고 한다. (맞나...?)


한 개의 임의표본으로 시작한다. 표본의 크기, 평균, 편차를 구하고, 이 값으로부터 정규분포 모양을 갖는 추정표집분포를 그린다. 이 추정표집분포로부터 모집단의 평균 찾기를 시작한다.



10장: 신뢰구간


표본으로부터 정규분포를 갖는 추정표집분포를 구했는데, 이것으로부터 신뢰도를 구하는 것은 매우 쉽다. 단순히 중심값(평균)에서 표준편차의 2배만큼 떨어진 곳의 위치를 구한다. 그러면, 95% 신뢰수준에서 모집단 평균이 (중심값-표준편차*2)에서 (중심값+표준편차*2) 범위 안에 위치한다고 추정할 수 있다. 여기서 중심값에서 표준편차의 2배만큼 떨어진 범위를 신뢰구간이라고 한다. 물론, 표준편차의 3배만큼 떨어진 곳을 신뢰구간으로 잡으면 신뢰수준은 99.7%로 올라간다. 하지만, 구간이 그 만큼 커지기 때문에, 모집단 평균의 근사치가 위치할 수 있는 범위도 커지게된다.


어떤 임의 표본으로도 95% 신뢰도를 갖는 신뢰구간을 구할 수 있는데, 95%라는 말은 반대로 5%의 확률로 실제 모집단 평균이 신뢰구간에 포함되지 않을수도 있다는 것을 의미한다. 이는 임의 표본 20개 중 1개는 표본의 신뢰구간안에 모집단 평균이 속하지 않음을 뜻한다. 확률이 100%가 아니기 때문에, 추출한 표본이 모집단 평균에서 완전히 벗어날 수도 있다. 하지만, 실제로 이런 가능성은 매우 적게 일어난다.



+ Recent posts