출처: https://3months.tistory.com/307 [Deep Play]

열번째 이야기 - 확률표본과 임의선택

2019. 8. 2. 01:01통계학이론/통계학개론

안녕하세요! 리그레션입니다 오늘은 통계학에서 쓰는 확률 표본과 임의 선택에 대해 알아보겠습니다.

 

확률은 그 사건이 일어날 가능성을 나타낸 수치적 척도입니다. 이 척도는 실험 또는 관측의 결과가 나타나는 상황에 자연스럽게 사용됩니다.

 

여기서 실험은 다양한 결과를 갖는 하나의 현상을 관찰하는 행위입니다. 실험이라는 용어는 과학에서만 사용되는 게 아니라 넓은 의미에서 자료수집 또는 행위를 포함하는 단어입니다. 주사위를 던지는 것도, 여론 조사를 하는 것도, 모두 결과들이 나타나는 행위에 실험이라는 용어를 쓸 수가 있죠.

 

표본 공간(Sample space)은 바로 이 실험에서 나올 수 있는 모든 결과들의 집합입니다.

 

예를 들어 주사위를 던지는 실험에서 표본 공간은 1부터 6이 됩니다.

우리는 보통 주사위 윗면에 나오는 수가 6분의 1로 모든 숫자가 공평한 비율로 나오리라고 예상을 합니다. 이처럼 실험에 적용된 확률이 비슷한 것을 균일 확률 모형이라고 부릅니다.

 

여기서 출발하는 것이 바로 임의 추출(random selection)입니다. 유한한 모집단으로부터 같은 확률의 선택될 기회를 가지는 공정한 추출방법입니다. 그리고 이렇게 임의 추출로 나온 표본을 우리는 확률 표본이라고 합니다.

 

확률 표본 : 크기가 n인 모든 묶음들이 똑같은 확률

을 갖는다면, N개의 서로 다른 객체를 가지고 있는 한 모집단으로부터 뽑힌 크기 n의 표본.

 

이 정의는 수식적인 정의라기보다는 개념적인 정의입니다. 이해가 잘 안 되시죠? 예시와 함께 설명드리겠습니다.

 

우리는 사람들에게 1부터 9까지의 정수 중 한수를 선택하라고 제안하면 보통 7을 많이 뽑게 되는데요 그 이유는 여러 가지 편견으로 인해 사람들의 생각에 7이 행운의 숫자라는 개념이 있기 때문입니다. 이렇게 된다면 진정한 임의 추출이라고 보기가 어렵습니다.

 

 마찬가지로 한 고등학교의 졸업생의 월 수입을 조사하고자 할 때 동창회에 등록된 번호를 가지고 조사하는 것 또한 잘못된 방법입니다. 동창회에 등록한 졸업생들은 보통 사회에서 동기들에게 보이기 부끄럽지 않을 정도의 수입을 가지고 있는 사람일 확률이 높습니다. 따라서 수입이 적은 졸업생들을 누락시킬 위험이 큽니다. 이럴 땐 컴퓨터의 랜덤 뽑기 기능으로 졸업생 전체 리스트 중 표본을 몇 개 뽑는 것이 정확한 임의 추출 방법입니다.

 

덤으로 확률은 추론의 중요한 구성원입니다. 한 모집단으로부터 확률 표본을 얻고자 하는 상황에서, 확률이라는 도구는 추출하는 과정에서 여러 가지 중요한 사건의 우도(매개 변수 각각에 대해 특정 값을 취할 확률을 가지는 함수)를 측정 가능하게 합니다. 여기서 확률의 계산에는 모집단의 구성이 알려져 있다는 게 전제조건으로 깔려있어야 합니다.

 

 반대로 통계적으로 추론을 한다는 것은 확률을 구하는 것과 정확히 상반됩니다. 확률 표본으로 자료는 가지고 있지만 모집단의 구성을 모를 때 모집단의 구성을 표본자료를 가지고 설명하는 것이지요.

 

이상 오늘은 확률 표본과 임의 선택에 대해 알아보았습니다. 특히 임의 선택은 중요하니 꼭 기억해두시길 바랍니다. 감사합니다 리그레션이었습니다.