출처: https://3months.tistory.com/307 [Deep Play]

두번째 이야기 - 모집단과 표본 그리고 통계의 불확실성에 대하여

2019. 7. 28. 00:07통계학이론/통계학개론

안녕하세요 리그레션입니다! 오늘은 두 번째 이야기로 모집단과 표본에 대해 알아보겠습니다.

 

모집단은 어미 모()와 집단을 합친 단어로, 조사될 수 있는 모든 관측값들을 말합니다.

 

표본 또는 표본 집단은 이 모집단에서 몇개의 관측값들을 선정한 집단을 말하죠. 즉 모집단 안에 표본이 들어가 있는 겁니다.

 

또한 모집단(population) 전체를 일일이 조사하는 것을 전수조사(census)라 하고

전체를 조사하지 않고 표본을 뽑아 조사하는 것을 표본조사(sample survey)라고 일컫습니다.

 

왜 표본을 뽑나요?

 

그 이유는 바로 모집단이 너무 클 경우, 일일이 조사하기엔 경제적 문제와 시간, 인력 문제가 있기 마련입니다. 그래서 그 모집단의 성질을 잘 대표할 수 있는 표본을 뽑아 조사하면 어느 정도 100%는 아니지만 모집단과 거의 동일한 성질을 구할 수 있습니다.

 

설문조사에선 오히려 표본조사법이 조사원들의 교육, 관리의 집중, 효율성 증대로 양질의 자료를 얻어 더 나은 분석이 가능해집니다. 모집단 조사는 간혹 육체가 피로해 잘못 조사할 수도 있으니까요.

 

또 표본을 뽑는 다른 이유는 물리적으로 그렇게 밖에 할 수 없는 상황도 존재하기 때문인데요,

예를 들어 삼성에서 새로운 갤럭시 폰의 충격실험을 할 때 모집단 전체(공장에서 양산된 폰 전체)를 조사하면 어떻게 될까요? 아마 흠집 없는 폰을 받는 구매자가 없을 겁니다.

이럴 땐 적당한 숫자의 폰을 뽑아서 실험을 한 후 전체의 성질이 이와 비슷할 것이다라고 추측을 하는 수밖에 없죠

어떤 표본이 좋은 표본인가요?

 

이는 굉장히 좋은 질문입니다.

 

표본은

첫째, 모집단의 성질, 즉 대표성이 잘 유지가 되어야 합니다. 식당에서 국물을 만들고 한 국자만 떠서 요리사가 맛을 모는 행동과 같습니다. 그 한 국자의 맛이 국물 전체의 맛이어야 맛을 본 보람이 있겠죠?

둘째, 납득할만한 통계적 방법으로 적당한 숫자가 뽑혀야 합니다. 너무 작거나(대표성의 결여) 크면(전수조사하는데 드는 경제적, 인력감축 효과를 제대로 못 봄) 표본을 안 뽑느니만 못한 결과를 초래하니까요.

 

그러면 표본을 동반한 조사는 늘 불확실한 거잖아요?

 

맞습니다. 통계학을 다른 말로 불확실성의 학문이라고도 불립니다.

 

하지만 불확실성을 포함한 학문이 논리성이 결여된 학문이라고 생각하면 안됩니다.

오히려 불확실한 확률을 나타내줌으로써 더 나은 객관적인 판단의 근거를 제공할 수 있기 때문이지요. 가령 통계학적 사고가 없는 세상에선 매일매일은 비가 올 확률이 0% 아니면 100%입니다. 하지만 통계학이 있는 세상에선 90%의 강수확률과 10% 안 올 확률이 있을 때 10%의 미련 때문에 우산을 두고 갈 바보를 말릴 수 있는 세상이지요.

 

냉정히 말해서 통계학에서 100%와 0%는 없다고 보셔도 무방합니다. 우리 통계학도는 이 틀릴 확률을 보다 낮게, 표본을 보다 더 모집단의 대표성을 잘띄게 뽑는 방법을 연구하고 또 연구한답니다.

 

이상 리그레션이었습니다~ 다음 이야기에서 만나요.