전체 글(28)
-
스물여덟번째 이야기 - 소표본에서의 Mu의 추론
안녕하세요 리그레션입니다 오늘은 소표본에서의 모평균 추론에 관해 다뤄보겠습니다. 날씨가 이제 선선해지려고 하니 다행입니다. 더위로 두통이 있었는데 이제 좀 살 것 같네요. 여러분도 몸조심하시기 바랍니다. T=(Xbar-Mu)/(S/루트 n)의 분포를 이용하여 정규 모집단의 모평균 뮤에 대한 신뢰구간을 구할 수 있습니다. 구체적으로 말하자면, 자유도 n-1인 t-분포의 상위 100a/2백 분 위수 t_a/2(n-1)을 이용하여 뮤의 100(1-a)% 신뢰구간을 구할 수 있습니다. T=(Xbar-Mu)/(S/루트 n)는 자유도 n-1인 t분포를 따르므로 P [-t_a/2
2019.09.04 -
스물일곱번째 이야기 - 소표본에서의 추론, t분포 유래, 소개
안녕하세요 리그레션입니다. 앞서 다루었던 포스트들은 대표본에서의 모평균과 모비율에 대한 추론을 다루었습니다. 이 추론 방법들은 분포가 근사적으로 정규분포임을 말해주는 중심 극한 정리에 의해 가능했습니다. 중심 극한 정리가 모집단의 아주 다양한 분포에 대해 잘 적용되기 때문에 모집단의 분포 모양에 관한 구체적인 정보 없이도 추론을 할 수 있었습니다. 그러나, 많은 통계적 조사, 특히 비용이나 시간이 많이 소요되는 실험의 경우에는 소표본(일반적으로 30 이하)으로부터 통계적 추론을 해야 합니다. 모평균의 추론을 위하여 여전히 표본평균을 사용하긴 할 것입니다. n이 크지 않을 때 중심 극한 정리를 사용 못할 때 표본 분포가 무엇인가?라는 문제를 해결해야 하는데 대표본의 경우와 달리, 이 질문에 대한 절대적인 ..
2019.09.02 -
스물여섯번째 이야기 - 모비율에 관한 추론
안녕하세요 리그레션입니다! 이제 날씨가 조금씩 풀리려나 봅니다. 다들 몸 관리 철저하게 하고 계시죠? 감기에 지지 말고 다 같이 건강하게 공부해요~ 전 오늘 몸이 안좋아서 집에서 하루 일을 쉬고 숙면을 취했습니다. 더위먹어서 감기에 걸리긴 처음인것 같네요. 전 실패했지만 여러분들 만이라도 더위 먹지 않으시길 바랍니다. 오늘은 모비율에 관한 추론에 대해 다뤄보려고 합니다. 평균의 추정에서 사용한 이론들은 모비율의 추정 문제에도 적용할 수가 있는데요, 예를 들어 모집단 크기 500명의 사람들 중 표본을 뽑아 실업률에 관한 추론을 하고 있다고 하면요, 모집단으로부터 n개의 원소를 임의로 추출하여 표본 중 어떤 속성을 가진 것의 개수를 X라고 합니다. 이때 모비율 p의 가장 자연스러운 추정량은 표본비율 P_ha..
2019.08.31 -
스물다섯번째 이야기 - 단측가설과 양측가설
안녕하세요 리그레션입니다. 오늘은 단측 가설과 양측 가설에 대해 다룰 텐데요, 많은 분들이 왜 이런 일이 일어나는지, 어떤 때 양측, 단측을 써야 하는지를 헷갈려하십니다. 언제 한쪽이 a/2 인지 a인지, 언제 이걸 정확히 적재적소에 맞게 쓰는지도요. 오늘 한번 제대로 알아볼까요? 이제까지의 포스트에서 대부분 제가 단측 가설(one-sided hypothesis)이라고 하는데, 그 이유는 대립 가설에서의 모수 Mu의 값들이 귀무가설에서 주어진 값 Mu0의 한쪽에만 놓여 있기 때문입니다. 그리고, 이 가설들의 검정을 단측 검정이라고 합니다. 그러나, 귀무가설이 Mu=Mu0이고 대립 가설은 Mu와 Mu0가 다르다인 양측 대립 가설(Two-sided alternative)의 검정을 필요로 할 때도 있습니다. ..
2019.08.29 -
스물네번째 이야기 - 모평균의 가설검정 대립가설, 귀무가설 다시 한번 정리 -2
안녕하세요 리그레션입니다. 앞서 설명하던 것을 계속해볼까요~ 검정 문제에서 귀무가설은 Mu가 270이고 대립 가설은 Mu < 270입니다. 귀무가설을 기각할 것인가 말 것인가를 결정하는 기준으로 임의로 추출된 38개 계란의 콜레스테롤 함량 측정값으로부터 계산된 표본 평균을 사용하는 것이 당연해 보입니다. 그렇다면 표본 평균이 어떤 값일 때 귀무가설을 기각할 것인가?라는 문제를 해결해야 합니다. 양계 학자에 의하여 제기된 주장은 Mu가 작다는 것이므로 표본 평균의 값이 작을 때 귀무가설을 기각하고 따라서 대립 가설이 맞다고 할 수 있을 겁니다. 그러므로 적절한 결정 법칙은 다음과 같은 형태가 되어야 합니다. 이 결정법칙의 편리한 표현으로 R : Xbar
2019.08.28 -
스물세번째 이야기 - 모평균의 가설검정 대립가설, 귀무가설 다시 한번 정리 -1
안녕하세요 리그레션입니다. 한번 더 가설검정을 정리하는 글을 몇 편 써볼까 합니다. 어려워하시는 분들이 있어서요. 그럼 시작해 볼까요? 어떤 모수에 관한 주장이나 추측 등을 표본자료로부터의 증거에 의하여 증명하고자 할 때 통계적 가설검정의 문제가 제기됩니다. 예시를 들어 설명드릴게요. 어떤 양계학자는 건강식품 개발의 일환으로 콜레스테롤의 양이 적은 계란의 생산을 위한 새로운 닭 사료 개발을 연구하는 중입니다. 기존의 표준 사료를 사용했을 때 1등급 계란의 콜레스테롤의 양은 평균 270mg, 표준편차 24mg을 가진다고 알려져 있습니다. 이 양계 학자는 새로 개발된 사료를 사용하면 평균 콜레스테롤을 줄일 수 있을 것이라고 믿고 있습니다. 이를 증명하기 위하여, 새로운 사료를 먹인 닭으로부터 생산된 계란 중..
2019.08.27 -
스물두번째이야기 - 대표본에서의 Mu의 신뢰구간
안녕하세요 리그레션입니다. 스물한 번째 이야기, 앞에서 신뢰구간의 기본적인 개념들을 설명드렸는데요, 오늘은 대표 본에서의 Mu의 신뢰구간에 대해 다뤄보고자 합니다. 다시 말하면, 이제 좀 더 현실적인 상황을 설명해 볼게요. 보통 현실에선 99% 모 표준편차를 모르는 상태에서 신뢰구간을 구합니다. 모집단의 분포가 정규분포라는 가정을 없애기 위해서 표본 크기 n이 커야 하겠죠. 이 경우, 앞서 배웠던 중심 극한 정리에 의하면 모집단의 분포에 관계없이 Xbar의 분포는 정규분포에 가깝습니다. 따라서 구간 이 Mu를 포함할 확률이 약 1-a이지만 이 구간은 미지의 모수인 Sigma를 포함하고 있으므로 신뢰구간이 될 수 없습니다. 그러나, n이 클 때는 이야기가 다릅니다. 시그마/루트 n을 s/루트 n으로 바꾸어..
2019.08.26 -
스물한번째 이야기 - 모평균의 신뢰구간
안녕하세요 리그레션입니다. 오늘은 모평균의 신뢰구간을 다뤄보려 합니다. 점추 정에서 표준오차를 함께 구하기는 하지만 주된 관심은 모수를 추정하기 위하여 사용되는 하나의 수 값에 있습니다. 그러나, 하나의 수 값으로 모수를 정하는 대신에 모수의 참값이 포함될 것으로 기대되는 구간을 구하는 것이 더 바람직할 때가 많답니다. 이때 가장 이상적인 것은 표본을 추출하고 이 표본을 이용하여 모수의 참값이 언제나 포함되는 구간을 구하는 것이겠죠? 하지만 이는 표본이 뽑힐 때마다 달라서 불가능하고 그 대신 계산된 구간이 모수의 참값을 포함할 확률을 저희는 명시하고 어느 정도 신뢰할 수 있는지를 보게 됩니다. 이 확률을 신뢰 수준이라고 부르고 통상 0.9, 0.95, 0.99를 택합니다. 제일 많이 쓰이는 것은 0.95..
2019.08.25 -
스무번째 이야기 - 표본크기의 결정
안녕하세요 리그레션입니다. 오늘은 표본의 크기를 결정하는 것에 대해 논의하려고 합니다. 오늘 포스팅해서 알려드릴 내용은 굉장히 쉽고 간단합니다. 집중해주세요. 표본의 크기를 얼마만 한 크기로 할 것인가 하는 문제는 표본조사의 계획을 짜는 단계에서 아주 중요한 부분을 차지합니다. 표본추출에는 대부분 많은 경비와 시간이 소요되므로 원하는 정밀도를 얻기 위하여 필요한 표본의 크기를 사전에 결정할 필요가 있습니다. 먼저 표본의 크기를 결정하기 위해서는 'd=원하는 오차한계'와 '1-a=오차한계에 관계된 확률'을 명확히 해야 합니다. 앞선 포스트에서 설명드린 100(1-a)% 오차한계의 식을 이용하면, Za/2 곱하기 시그마 / 루트 n 한 것이 d가 나오겠죠. 그러므로 표본의 크기는 n에 관하여 이 식을 풀면 ..
2019.08.22 -
열아홉번째 이야기 - 모평균의 점추정
안녕하세요~ 리그레션입니다. 오늘은 모평균의 점추 정에 대해서 다룰 건데요, 앞선 포스트에서 약간 언급했던 내용도 있을 테니 부담 없이 들어주셨으면 좋겠습니다. 그럼 시작할게요. 점추 정의 목적은 표본자료를 이용하여 미지의 모수에 가까울 것으로 기대되는 하나의 수 값을 구하는 것입니다. 이 경우 표본자료로부터 계산된 통계량의 값이 모수에 가능한 가깝게 되도록 통계량을 결정해야 좋은 것이겠죠. 모수를 추정하기 위해 사용된 통계량을 점추 정량(point estimator) 혹은 간단히 추정량이라고 부르는데요, 이 추정량의 표준편차를 표준오차(standard error)라고 합니다. S.E.라고도 표기를 합니다. 앞서 게시했던 포스트에서 공부했던 결과를 다시 한번 살펴볼까요? 특히 3번째 줄의 성질을 살펴보면..
2019.08.17 -
열여덟번째 이야기 - 중심극한정리
안녕하세요! 리그레션입니다. 오늘은 중심 극한 정리에 관한 내용을 다뤄보려 합니다. 모집단이 정규분포를 따르지 않으면 어떻게 할까요? 이런 경우엔, 표본 평균의 분포는 모집단의 분포가 무엇이냐에 따라 달라집니다. 중심 극한 정리(central limit theorem)라고 불리는 정리는 표본의 크기가 크면 모집단의 분포에 상관없이 표본 분포의 분포는 근사적으로 정규분포를 따른다는 정리입니다. 가르치는 사람들, 책마다 다르기는 하지만 표본의 크기가 특정 숫자로 되어있습니다. 저의 경우엔 그 숫자를 30으로 정의하는데요, 표본 n의 크기가 30 이상이면 이 정규 근사는 대부분의 경우에 잘 들어맞습니다. 40으로 하는 사람도 있습니다. 다시 정의해 볼까요? 중심 극한 정리는 매우 중요한 정리입니다. 모집단의 ..
2019.08.14 -
열일곱번째 이야기 - 정규분포와 표준 정규분포
안녕하세요 리그레션입니다. 오늘은 정규분포와 표준 정규분포에 관한 이야기를 할 건데요, 아마 역대 가장 의미 있는 포스트가 될 것 같네요 ㅠㅠ 그만큼 매우 중요한 개념이니 이해해주세요^^. 정규분포(normal distribution)는 종모양의 곡선으로 이미 잘 알려져 있습니다. 먼저 역사적으로 피에르 라플라스와 칼 가우스에 의해 발견되었고, 특히 가우스는 오차의 정규 법칙이라고 불렸던 측정오차의 확률 분포로부터 정규분포를 수리적으로 유도해내는 데에 성공했습니다. 덕분에 정규분포는 여러 학문에 걸쳐 없어서는 안 될 존재로 자리매김했죠. 하지만 부정적 측면에서는, 초기의 통계학은 한때 정규분포를 지나치게 숭배했습니다. 모든 현실은 자료가 종모양의 정규곡선을 나타내어야 한다고 믿었고, 그렇지 않으면 자료 ..
2019.08.10 -
열여섯번째 이야기 - 연속 확률변수의 확률모형
안녕하세요 리그레션입니다! 오늘은 연속 확률변수의 확률 모형에 대해 알아볼 건데요~ 지금까지 주로 제가 이산 확률분포의 확률변수를 다루었었죠. 이번에는 임의 값을 갖는 연속 확률변수의 분포를 설명하려고요. 연속적인 척도로 측정된 변수로 무게, 힘, 온도 등이 있습니다. 히스토그램을 직사각형이 아니라 수없이 많은 개수로 밑변을 잘랐다고 생각하시면 쉬울 것 같습니다. x의 값을 특정해서 딱딱 자연수처럼 나누지 못하고, 무게(소수 무한 대자리까지 나타낼 수 있는) 같은 것을 나타낼 때를 떠올리세요 히스토그램을 정교화하는 과정은 직사각형을 그림과 같이 곡선 형태에 근사하게 그리는 겁니다. 이 곡선을 연속 확률변수 X의 확률 밀도 곡선(probability density curve)이라고 합니다. 이 곡선의 수학..
2019.08.09 -
열다섯번째 이야기 - 모비율의 가설검정(기각역, 검정통계량,유의수준, 귀무가설,제 1,2종 오류)
안녕하세요! 리그레션입니다. 오늘은 모비율의 가설검정을 해볼 건데요, 통계적 가설 검정이란 모집단의 어떤 성향에 관한 추측이 표본자료로부터 얻어지는 정보에 의해서 얼마나 많이 뒷받침되는지를 결정하는 것입니다. 가설 검정 전체의 문제를 다루는 데는 많은 정의와 개념이 요구되므로 본격적인 논의는 나중에 다뤄드리겠습니다~ 오늘은 이항 확률 모형이 적용되는 특수한 문제를 가지고 통계적 가설검정의 기초적 지식을 다루겠습니다. 문제를 하나 예시로 들겠습니다. 경험적으로 약물처리에 의한 병의 치료율은 40% 정도로 알려져 있는데, 실험되고 있는 신약이 높은 치료율을 보인다고 가정합니다. 실험 대상 환자 20에게 투여했을 때 치료된 환자 수를 X라고 두고, 이 신약의 치료율이 40%보다 높다는 실질적인 증거를 대보시오..
2019.08.07 -
열네번째 이야기 - 이항분포
안녕하세요 리그레션입니다! 날씨가 많이 덥네요 ㅠㅠ 더불어 내일부터 태풍이 상륙한다 합니다. 몸 관리 잘하시길 바랍니다. 오늘은 통계학하면 이론적으로 많이 쓰이고 대표적으로 떠오르는 이항 분포에 대해 알아보려 합니다. 우리는 각 시행에서 성공할 확률이 p인 베르누이 시행을 n번 할 때 성공한 횟수를 확률변수 X로 나타내면 X의 확률분포를 이항 분포(Binomial distribution)라고 부릅니다. 즉 이항 분포는 n과 p에 의해서 정의가 됩니다. n은 베르누이 시행(이분법적이고, 각 시행들이 독립적)의 횟수, p는 각 시행에서 성공할 확률 X=n번 시행에서 성공한 횟수라고 할 수 있겠습니다. 여기서 X를 이항 확률변수라고도 하며 X의 분포가 이항 분포이죠. 이 논리를 n번의 베르누이 시행으로 봤을 ..
2019.08.06