출처: https://3months.tistory.com/307 [Deep Play]

열다섯번째 이야기 - 모비율의 가설검정(기각역, 검정통계량,유의수준, 귀무가설,제 1,2종 오류)

2019. 8. 7. 01:00통계학이론/통계학개론

안녕하세요! 리그레션입니다. 오늘은 모비율의 가설검정을 해볼 건데요,

 

통계적 가설 검정이란 모집단의 어떤 성향에 관한 추측이 표본자료로부터 얻어지는 정보에 의해서 얼마나 많이 뒷받침되는지를 결정하는 것입니다. 가설 검정 전체의 문제를 다루는 데는 많은 정의와 개념이 요구되므로 본격적인 논의는 나중에 다뤄드리겠습니다~ 오늘은 이항 확률 모형이 적용되는 특수한 문제를 가지고 통계적 가설검정의 기초적 지식을 다루겠습니다.

 

문제를 하나 예시로 들겠습니다.

경험적으로 약물처리에 의한 병의 치료율은 40% 정도로 알려져 있는데, 실험되고 있는 신약이 높은 치료율을 보인다고 가정합니다. 실험 대상 환자 20에게 투여했을 때 치료된 환자 수를 X라고 두고, 이 신약의 치료율이 40%보다 높다는 실질적인 증거를 대보시오.라는 문제를 받았을 때, 먼저 우리는 모집단에 대한 신약의 치료율을 p=0.4라고 둡니다.

이 경우 확률변수 X가 n이 20인 이항 분포를 따르므로 치료될 기댓값은 20 곱하기 0.4 즉, 8명입니다.

만약에 실제로 실험을 했을 때 치료된 환자 수가 8명 이하라면 신약이 좋다는 결론을 내리는 것은 맞지 않는 결론입니다. 

그리고 설사 8명보다 많은 9,10,11명이 나왔더라도 이런 변동은 우연에 의해 생길 확률이 많아서 신뢰가 충분히 가지 않는 결론입니다.

 

그 대신, 20명의 환자 중 19명이 치료되었다면 어떨까요? 아직도 주관적이긴 하지만 기준값이 8보다 충분히 크면 연구 가설이 옳다는 게 높은 확률로 증명이 됩니다.

 

우리는 [X>=19]는 주장을 매우 지지하는 영역이라고 부르며 이를 기각 역(rejection region)이라고 부릅니다. X는 여기서 검정 통계량(test statistic)이 됩니다.

 

이해가 잘 안 가시는 분을 위해 좀 더 설명드리자면, 실험 중 설사 정확하지 않더라도(100% 효능을 안보이더라도) 20명 중 19명 이상이 효과를 보이면 이 약은 새로운 약으로써 100% 효능을 보인다고 치자!라고 결정해버리는 겁니다. 19명이 바로 이 통계량이 유효하다고 검증해 줄 수 있는 기준, 검정 통계량이 되는 겁니다.

 

기각역은 기각(타당성이 없으니 믿지 않는다)을 할 수 있는 영역을 뜻합니다. 이 예시에선 기각을 하고 싶은 내용이 뭘까요? 네, 신약을 개발한 제약회사 입장에선 자신이 공들여 개발한 약이 아무 효능이 없다는 사실을 기각하고 싶겠죠. [X>=19]인 영역이 바로 기각역이 됩니다. 19명 이상이 효과를 보이면 신약이 아무 효능이 없다는 가정이 거짓이 되니까요.

 

기각역을 많이들 헷갈리시는 이유가... 기각을 하고 싶은 가설을 제대로 파악하지 못하고 있기 때문입니다.

 

이 실험을 통해서 도출해내고 싶은 결론을 기각하는 게 아니라, 틀린 내용을 기각해야 함을 잊지 마세요. 그리고 뒤에 따라오는 귀무가설이 바로 이 틀린 내용입니다. 기각역에 들어가서 귀무가설을 기각을 할수록 좋은 겁니다. 원하는 가설이 증명되는 것이니까요.

 

귀무가설(null hypothesis)은 한자어로 돌아갈 귀, 없을 무, 거짓 가, 말씀 설 자를 써서 '돌아갈 곳이 없는 거짓말'을 뜻하는데요, 이는 이 가설이 거짓말이 아닌 참일 경우, 아무 결론도 도출해 낼 수 없다는 뜻입니다. 그러니까 보통 통계학에서 귀무가설은 직감적으로 아, 이건 가설이지만 틀릴 것이 분명해! 하는 사실을 잡습니다. 보통 H0로 표기합니다. 이 예시에선 '신약은 40%의 치료율을 넘지 못한다'가 되겠네요.

 

대립 가설(alternative hypothesis)은 귀무가설의 반대말입니다. H1으로 나타내며, 실험을 통해 증명하고픈 가설입니다. 여기선 '신약이 효과가 40% 이상 있다'가 되겠네요^^

 

유의 수준(level of significance)귀무가설 H0가 참일 경우, (실험 결과, 전혀 예상치 못했던 결과가 나온 겁니다 호전된 환자가 8명도 안된 것이죠.) 이를 거짓말로 착각(기각)하는 확률을 의미합니다. 즉, 분명 20명 실험을 해서 40%가 안 되는 7명만이 호전 증세를 보였는데, 치료율이 40%를 넘는다고 착각해서 결론을 내버리는 확률입니다.

 

왜 이런일이 일어나나요?

 

그 원인은 여러가지가 될 수 있습니다. 

 

1)조작 미숙, 실험 방법상의 오류로 실험자의 data에 문제가 있고

2)그 잘못된 data를 통해 실험자가 귀무가설을 기각하고 

3)자신이 주장하고자 했던 대립가설을 참이라고 채택하는 1종 오류를 저질렀을 "확률"이 5% 미만인 것입니다.

 

비슷한 개념으로 유의 확률(p-value)이 있는데요, 처음에 유의수준( α)을 얼마로 잡아야 가설검증 시 귀무가설을 기각할 수 있는지를 계산한 값입니다. 예를 들어 유의 확률이 0.07이 나오면, 유의수준을 0.05로 잡았을 때를 넘으므로, 대립가설을 틀렸다고 보고, 귀무가설을 받아들입니다.

 

 

보통 알파(a)로 표기되는 이 유의 수준은 0.01, 0.05, 0.1과 같이 작은 값이 사용됩니다. 유의 수준이 작으면 작을수록 귀무가설을 옳다고 할 확률이 커져버립니다. 유의 수준에 걸려버리면 큰일 나죠... 치료제가 아닌 신약이 치료제라고 잘못 공표가 되니까요.. 아아 아주 작은 확률로요 0.05 같은... 

만약 이런 일이 실제로 일어난다면 우리는 제1종 오류를 범했다고 말합니다.

 

1종 오류는 귀무가설이 실제로는 옳은데도 불구하고 표본오차로 인해 검정 결과 그 가설을 기각하는 오류(바로 위에 있는 예시)입니다. 유의수준은 1종 오류를 범할 확률의 최댓값이죠.

 

2종 오류는 귀무가설이 실제로는 틀린데도 불구하고 표본오차에 근거하여, 검정결과 그 가설을 옳은 것으로 받아들이는 오류를 말합니다.

 

유의 수준을 0.05로 잡았을때, 

"대립가설이 주장하는 바가 95% 정도 맞다"

"귀무가설이 주장하는 바가 5% 정도 맞다"

라고 주장하면 큰일납니다.

 

"귀무가설이 옳으나 귀무가설을 기각하고

 

대립가설을 연구자가 채택할 확률이

 5% 미만이다"

 

라고 해석하셔야 합니다. 통계학은 딱 정확히 추정하는것이 궁극적 목표입니다만, 어디까지나 예외적인 가능성도 알려줘야합니다.   

 

오늘은 가설검정의 기본개념을 쭉 훑었는데요, 논문을 준비하시는 분들이라면 아마 이 개념을 심심찮게 보실 겁니다. 헷갈리는 내용(귀무가설, 기각 역)이 많으니 잘 새겨두시길 바랍니다. 감사합니다 이상 리그레션이었습니다.