통계학개론(7)
-
열네번째 이야기 - 이항분포
안녕하세요 리그레션입니다! 날씨가 많이 덥네요 ㅠㅠ 더불어 내일부터 태풍이 상륙한다 합니다. 몸 관리 잘하시길 바랍니다. 오늘은 통계학하면 이론적으로 많이 쓰이고 대표적으로 떠오르는 이항 분포에 대해 알아보려 합니다. 우리는 각 시행에서 성공할 확률이 p인 베르누이 시행을 n번 할 때 성공한 횟수를 확률변수 X로 나타내면 X의 확률분포를 이항 분포(Binomial distribution)라고 부릅니다. 즉 이항 분포는 n과 p에 의해서 정의가 됩니다. n은 베르누이 시행(이분법적이고, 각 시행들이 독립적)의 횟수, p는 각 시행에서 성공할 확률 X=n번 시행에서 성공한 횟수라고 할 수 있겠습니다. 여기서 X를 이항 확률변수라고도 하며 X의 분포가 이항 분포이죠. 이 논리를 n번의 베르누이 시행으로 봤을 ..
2019.08.06 -
열세번째 이야기 - 모수,통계량,베르누이 시행,표본추출법
안녕하세요~ 리그레션입니다. 오늘은 모수(Parameter)와 통계량(Statistics)에 대한 정의를 설명해드리려고 합니다. 모수란 모집단 전체를 설명하는 측도입니다. 표본 통계량과 구분하기 위해 모수는 대부분 그리스 문자로 나타냅니다. 예를 들어, 모평균은 그리스 문자 뮤(μ)로 나타내며 모집단 표준 편차는 그리스 문자 시그마(σ)로 나타냅니다. 앞선 포스트에서 제가 언급했었죠~ 이게 사실은 모수의 한 종류였습니다. 다시 말하면, 모수(Parameter)는‘모집단의 대푯값’입니다. 즉 모집단의 평균, 모집단의 분산, 모집단의 표준편차, 모집단의 중앙값 등등 앞서 설명 들어 드렸던 모두 모수라는 이름으로 묶일 수 있습니다. 반면 통계량(Statistics)은 ‘표본의 대푯값’입니다. 표본의 평균, 표..
2019.08.05 -
열번째 이야기 - 확률표본과 임의선택
안녕하세요! 리그레션입니다 오늘은 통계학에서 쓰는 확률 표본과 임의 선택에 대해 알아보겠습니다. 확률은 그 사건이 일어날 가능성을 나타낸 수치적 척도입니다. 이 척도는 실험 또는 관측의 결과가 나타나는 상황에 자연스럽게 사용됩니다. 여기서 실험은 다양한 결과를 갖는 하나의 현상을 관찰하는 행위입니다. 실험이라는 용어는 과학에서만 사용되는 게 아니라 넓은 의미에서 자료수집 또는 행위를 포함하는 단어입니다. 주사위를 던지는 것도, 여론 조사를 하는 것도, 모두 결과들이 나타나는 행위에 실험이라는 용어를 쓸 수가 있죠. 표본 공간(Sample space)은 바로 이 실험에서 나올 수 있는 모든 결과들의 집합입니다. 예를 들어 주사위를 던지는 실험에서 표본 공간은 1부터 6이 됩니다. 우리는 보통 주사위 윗면에..
2019.08.02 -
아홉번째 이야기 - 선형관계의 척도, 상관계수
안녕하세요! 리그레션입니다 오늘은 상관계수에 대한 이야기를 가져왔습니다. 상관계수(Correlation Coefficient)는 자료를 그래프로 나타내었을 때 선형에 얼마나 가까운지를 나타내는 척도로 사용됩니다. 상관계수는 r로 표기를 하는데요, 조사된 n개의 자료쌍이 (X1,Y1),(X2,Y2), .... ,(Xn,Yn)일때 다음의 식을 생각해 볼까요? 여기서 xbar와 ybar는 각각 Xi와 Yi값들의 평균입니다. Sxy는 두 변수의 자료쌍 각각의 편차들의 곱을 합한형태를 하고 있는데요, 이는 다음의 성질을 가집니다. 첫째, Xi 값이 크면 Yi값도 크고, Xi 값이 작으면 Yi값도 작다면, Sxy값은 양의 값을 가지게 됩니다. 둘째, Xi 값이 크면 Yi값이 작고, Xi 값이 작고 Yi값이 크다면,..
2019.08.01 -
여덟번째 이야기 - 사분위수와 이변량 자료
안녕하세요 리그레션입니다! 오늘은 사분위수로 이야기를 시작할까 합니다. 사분위수(quantile 또는 quartile)는 개념이 약간 헷갈리는 수가 있는데요 차이를 명확히 알고 계셔야 합니다. quartile은 첫 번째, 두 번째, 세 번째, 네 번째 같은 등위 개념을 뜻하고 quantile은 25%, 50%, 75%와 같이 백분율을 뜻할 때 씁니다. 자료 전체를 크기순으로 정렬하고, 가장 작은 수부터 순서를 정해서 네 부분으로 나눕니다. 이때 처음 나눈 곳을 Q1(제1사분위수), 두 번째로 나눈 곳은 Q2(제2사분위수), 세 번째로 나눈 곳은 Q3(제3사분위수)로 명명합니다. 참고로 제2 사분위수는 자료의 중앙값과 같습니다. 사분위수로 대강의 자료 구조를 쉽게 파악할 순 있지만 정확도는 많이 떨어집니다..
2019.07.31 -
일곱번째 이야기 - 분산과 편차
안녕하세요 리그레션입니다! 오늘은 분산과 편차 사분위수 이야기입니다. 먼저 분산과 편차에 대해 말씀드리자면, 이 두 가지는 저번 시간에 배웠던 평균과 더불어 통계학에서 매우 중요한 개념으로 꼽힙니다. 우리가 자료의 퍼짐정도(산포도)를 나타내는 척도가 필요할 때가 있습니다. 그리고 이 척도는 특정 자료 값과 중심 척도 간의 차이에 의하여 나타내는 것이 효율적입니다. 우리는 이렇게 표본의 평균을 중심으로 차이를 나타낸 것을 편차(deviation)이라고 합니다. 편차 = 자료값 - 표본 평균 그럼 모든 특정값들(모집단)에서 한 번씩 표본 평균을 뺀 편차들의 총합은 얼마가 될까요? 바로 0입니다. 표본에선 이야기가 다릅니다. 서로 상쇄되는 값이 안 들어갔을 수도 있어서 표본의 편차합은 0이 안 나올 수도 있거..
2019.07.30