통계학이론/통계학개론(28)
-
열여섯번째 이야기 - 연속 확률변수의 확률모형
안녕하세요 리그레션입니다! 오늘은 연속 확률변수의 확률 모형에 대해 알아볼 건데요~ 지금까지 주로 제가 이산 확률분포의 확률변수를 다루었었죠. 이번에는 임의 값을 갖는 연속 확률변수의 분포를 설명하려고요. 연속적인 척도로 측정된 변수로 무게, 힘, 온도 등이 있습니다. 히스토그램을 직사각형이 아니라 수없이 많은 개수로 밑변을 잘랐다고 생각하시면 쉬울 것 같습니다. x의 값을 특정해서 딱딱 자연수처럼 나누지 못하고, 무게(소수 무한 대자리까지 나타낼 수 있는) 같은 것을 나타낼 때를 떠올리세요 히스토그램을 정교화하는 과정은 직사각형을 그림과 같이 곡선 형태에 근사하게 그리는 겁니다. 이 곡선을 연속 확률변수 X의 확률 밀도 곡선(probability density curve)이라고 합니다. 이 곡선의 수학..
2019.08.09 -
열다섯번째 이야기 - 모비율의 가설검정(기각역, 검정통계량,유의수준, 귀무가설,제 1,2종 오류)
안녕하세요! 리그레션입니다. 오늘은 모비율의 가설검정을 해볼 건데요, 통계적 가설 검정이란 모집단의 어떤 성향에 관한 추측이 표본자료로부터 얻어지는 정보에 의해서 얼마나 많이 뒷받침되는지를 결정하는 것입니다. 가설 검정 전체의 문제를 다루는 데는 많은 정의와 개념이 요구되므로 본격적인 논의는 나중에 다뤄드리겠습니다~ 오늘은 이항 확률 모형이 적용되는 특수한 문제를 가지고 통계적 가설검정의 기초적 지식을 다루겠습니다. 문제를 하나 예시로 들겠습니다. 경험적으로 약물처리에 의한 병의 치료율은 40% 정도로 알려져 있는데, 실험되고 있는 신약이 높은 치료율을 보인다고 가정합니다. 실험 대상 환자 20에게 투여했을 때 치료된 환자 수를 X라고 두고, 이 신약의 치료율이 40%보다 높다는 실질적인 증거를 대보시오..
2019.08.07 -
열네번째 이야기 - 이항분포
안녕하세요 리그레션입니다! 날씨가 많이 덥네요 ㅠㅠ 더불어 내일부터 태풍이 상륙한다 합니다. 몸 관리 잘하시길 바랍니다. 오늘은 통계학하면 이론적으로 많이 쓰이고 대표적으로 떠오르는 이항 분포에 대해 알아보려 합니다. 우리는 각 시행에서 성공할 확률이 p인 베르누이 시행을 n번 할 때 성공한 횟수를 확률변수 X로 나타내면 X의 확률분포를 이항 분포(Binomial distribution)라고 부릅니다. 즉 이항 분포는 n과 p에 의해서 정의가 됩니다. n은 베르누이 시행(이분법적이고, 각 시행들이 독립적)의 횟수, p는 각 시행에서 성공할 확률 X=n번 시행에서 성공한 횟수라고 할 수 있겠습니다. 여기서 X를 이항 확률변수라고도 하며 X의 분포가 이항 분포이죠. 이 논리를 n번의 베르누이 시행으로 봤을 ..
2019.08.06 -
열세번째 이야기 - 모수,통계량,베르누이 시행,표본추출법
안녕하세요~ 리그레션입니다. 오늘은 모수(Parameter)와 통계량(Statistics)에 대한 정의를 설명해드리려고 합니다. 모수란 모집단 전체를 설명하는 측도입니다. 표본 통계량과 구분하기 위해 모수는 대부분 그리스 문자로 나타냅니다. 예를 들어, 모평균은 그리스 문자 뮤(μ)로 나타내며 모집단 표준 편차는 그리스 문자 시그마(σ)로 나타냅니다. 앞선 포스트에서 제가 언급했었죠~ 이게 사실은 모수의 한 종류였습니다. 다시 말하면, 모수(Parameter)는‘모집단의 대푯값’입니다. 즉 모집단의 평균, 모집단의 분산, 모집단의 표준편차, 모집단의 중앙값 등등 앞서 설명 들어 드렸던 모두 모수라는 이름으로 묶일 수 있습니다. 반면 통계량(Statistics)은 ‘표본의 대푯값’입니다. 표본의 평균, 표..
2019.08.05 -
열두번째 이야기 - 분산과 표준편차
안녕하세요 리그레션입니다! 오늘은 분산과 표준편차에 대해 얘기해보고자 합니다. 원래 저번 시간에 언급했던 기댓값은 평균과 함께 도박의 연구에서 유래되었습니다. 포커 같은 게임에서 기대되는 기대 이익을 구하는 방식에서 기댓값이라는 단어가 나왔죠. 그럼 기댓값의 개념에서 확률 분포의 퍼짐을 나타내는 자료가 필요하지 않을까요? 이를 나타내는 척도를 표준편차라고 합니다. 평균 뮤가 X에 대한 분포의 중심이기 때문에 편차(X-뮤)의 형태로 X의 변동을 표현합니다. 그리고 제곱 편차의 기댓값으로 X의 분산을 정의합니다. (X-뮤)의 제곱의 기댓값은 X관측치인 Xi에서 평균을 뺀 값의 제곱에 확률을 곱하여 더하면 얻을 수 있습니다. X의 분산은 간단히 Var(X)로 쓰고 X의 표준편차는 분산의 양의 제곱근이고 sd(..
2019.08.04 -
열한번째 이야기 - 확률변수와 기댓값
안녕하세요 리그레션입니다! 와우 어느새 열한 번째 이야기까지 왔네요^^ 하루 1포 스팅을 원칙으로 하고 있는데 어느새 이렇게 많이 썼다는 게 실감이 안 납니다 ㅎㅎ 이 포스트를 꾸준히 읽어주시는 여러분들도 꾸준히 공부하시길 바랍니다. 오늘은 확률변수(Random variable)에 대해 알아볼 건데요! 매우 중요한 개념입니다. 확률변수 X는 실험의 결과들에 수치를 대응시킨 것을 말합니다. 수학적 용어로, 확률변수 X란 표본 공간상에서 정의되며, 실수 값에 대응하는 함수입니다. 예를 들어 동전을 세 번 던지는 실험을 들어 볼까요? 앞면이 나오는 횟수를 X라고 하겠습니다. H, T를 각각 앞뒷면으로 두겠습니다. X = 근원사상 : 사상(시행의결과 생겨난 내용, 현상을 말합니다)의 하나하나를 말한다. 이 이상..
2019.08.04