2019. 7. 31. 10:30ㆍ통계학이론/통계학개론
안녕하세요 리그레션입니다! 오늘은 사분위수로 이야기를 시작할까 합니다.
사분위수(quantile 또는 quartile)는 개념이 약간 헷갈리는 수가 있는데요
차이를 명확히 알고 계셔야 합니다.
quartile은 첫 번째, 두 번째, 세 번째, 네 번째 같은 등위 개념을 뜻하고 quantile은 25%, 50%, 75%와 같이 백분율을 뜻할 때 씁니다.
자료 전체를 크기순으로 정렬하고, 가장 작은 수부터 순서를 정해서 네 부분으로 나눕니다. 이때 처음 나눈 곳을 Q1(제1사분위수), 두 번째로 나눈 곳은 Q2(제2사분위수), 세 번째로 나눈 곳은 Q3(제3사분위수)로 명명합니다. 참고로 제2 사분위수는 자료의 중앙값과 같습니다. 사분위수로 대강의 자료 구조를 쉽게 파악할 순 있지만 정확도는 많이 떨어집니다.
참고로 4분 위수뿐만 아니라 100분 위수(percentile)도 있는데요, 이는 마찬가지로 전체를 백 부분으로 나누어 계산하는 것을 뜻합니다. 제25백 분 위수는 제1사분위수 제50백 분 위수는 중앙값이자 제2사분위수, 제75백 분 위수는 제3사분위수에 해당합니다.
이변량 자료(bivariate data)는 조사 대상인 변수가 둘인 경우를 말합니다.
더 많은 경우엔 다변량 자료(multivariate data)라고 표현합니다
앞에서는 저희가 하나의 변수가 있는 단일 변량 자료(univariate data)를 다뤘지만 보통 사회에서 쓰이는 통계는 다변량입니다. 다변량을 알기 전에 이변량을 반드시 알고 넘어가야 합니다. 먼저 이변량 자료의 표현부터 알아봅시다.
1. 이변량 범주형 자료의 구조와 표현(질적 자료)
예를 들면 문제에서 400명의 학생들에게 시험을 본 후 문제 수준에 대하여 조사했을 때, 다음과 같이 나왔습니다.
남자 :1, 여자:2 / 어렵다 : A 보통이다 : B 쉽다 : C
A | B | C | |
1 | 112 | 36 | 28 |
2 | 84 | 68 | 72 |
단순히 남자/여자로 나눈 게 아니라 또 하나의 변수 난이도로 ABC까지 나눈 것을 위의 표처럼 정리하였습니다. 이를 분할표(contingency table) 또는 결합 도수분포표(joint frequency table 또는 cross table)이라고 합니다. 위의 표를 보면 남자가 여자보다 문제를 다소 어렵게 느끼고 있다는 것을 한 번에 알기가 쉽습니다.
2. 이변량 양적 자료의 표현
두 양적 변수 간의 관계를 수치적으로 나타낼 수 있을까요? 정답은 할 수 있습니다.
두 양적 변수로 이 로어진 자료상(x, y)를 이차원 평면상에 표현하는 방법이죠. 이것이 바로 산점도(scatter diagram)의 시작입니다. 예로 들어드린 산점도를 보면 몸무게가 클수록 키가 커지는 경향을 바로 볼 수 있는 멋진 이변량 양적 자료의 표현이 있지 않나요? 이때에는 두 변수가 서로 양의 관계가 있다고 표현을 합니다. 만약 반비례하는 관계면 음의 관계를 가지고 있다고 하고, 양인지 음인지 구분이 안 가는 경우에는 서로 관계가 거의 없다고 본답니다.
산점도와 관련된 중요한 성질로는 상관계수(correlation coefficient)가 있는데요, 그건 다음 시간에 천천히 다룰게요^^ 이상 리그레션이었습니다.
'통계학이론 > 통계학개론' 카테고리의 다른 글
열번째 이야기 - 확률표본과 임의선택 (0) | 2019.08.02 |
---|---|
아홉번째 이야기 - 선형관계의 척도, 상관계수 (0) | 2019.08.01 |
일곱번째 이야기 - 분산과 편차 (0) | 2019.07.30 |
여섯번째 이야기 - 평균과 중앙값 (0) | 2019.07.29 |
다섯번째 이야기 - 도수분포표, 히스토그램 (0) | 2019.07.29 |