출처: https://3months.tistory.com/307 [Deep Play]

세번째 이야기 - 자료의 종류(질적,양적자료 / 명목,서수,구간,비율자료)

2019. 7. 28. 18:12통계학이론/통계학개론

안녕하세요 리그레션입니다! 오늘은 자료의 종류에 대해 다룰 겁니다.

 

보통 통계학에서 자료 분석을 한다면 크게 이렇게 단계를 거치게 되는데요,

1) 조사의 목적을 명확히 한다.

2) 목적에 알맞은 모집단을 정한다.

3) 전수조사 또는 표본조사를 하여 관측값을 모은다.

4) 자료를 정리 요약 후 구조를 살핀다.

5) 조사의 목적에 알맞은 결과를 추론한다.

6) 추론된 결과를 바탕으로 의사결정을 한다.

 

그리고 오늘 다룰 자료의 종류는 4번째인 '자료 정리 요약 후 구조를 살핀다' 연관이 있습니다.

 

통계분석을 목적으로 조사된 자료는 크게 두 가지로 나뉩니다.

 

질적 자료(qualitative data)

양적 자료(quantitative 또는 measurement data)입니다.

 

질적 자료는 다른 말로 범주형 자료(categorical data)라고도 하는데요, 관측 대상이 어느 범위에 들어가는지를 나타내는 자료를 말합니다. 예시로는 성별(남자, 여자) 혈액형(A, B, AB, O)이 있습니다.

 

양적 자료는 양을 나타내는 수치로 표현할 수 있는 자료를 말합니다. 예시로는 나이, 키, 몸무게가 있겠죠?

 

하지만 여기서 조심해야 될 것이 무조건 성별 데이터는 질적 자료이고 양적 자료는 될 수 없어!라는 이분법적인 사고는 틀립니다.

 

통계학에서는 질적 자료도 대부분 숫자로 나타내는 경향이 있는데 예를 들면 성별 중 남자를 1, 여자를 2로 표기한다던가, 혈액형 A, B, AB, O를 순서대로 1,2,3,4로 표현하는 경우도 있죠.

 

또 양적 자료가 질적 자료가 되는 경우도 있죠 학교에서 학생들의 성적을 상,중,하로 분류하는 순간 질적자료가 되어버립니다. 이처럼 자료를 어떻게 다루냐에 따라 질적, 양적 자료가 뒤바뀔 수가 있습니다.

 

그래서 우리는 통계적 자료를 다음과 같이 4개로 구분하고 있습니다.

 

1) 명목 척도 자료(nominal scaling data)

- 질적 자료와 같이 단지 구분하기 위한 자료, 숫자가 더 크다고 해서 더 낫다고 말할 수 없는 자료입니다. ex 남자, 여자를 각각 1,2로 나타냄

 

2) 서수 척도 자료(ordinal scaling data)

- 자료 사이의 크기를 비교하여 내림 또는 오름차순으로 순위를 부여한 자료 즉, 실제 값보다는(크기가 상관없단 말입니다.) 순서를 나타낸 것에 의미를 두는 자료입니다. ex 학점 A+부터 D-에 4.5부터 0.5까지 차등 배점을 두는 것

 

3) 구간 척도 자료(interval

- 자료들 사이의 크기가 의미를 갖습니다. 하지만 절대 기준이 없어서 비율을 논하지는 못하는 자료입니다. ex 학생의 성적 중 10점과 40점을 맞은 학생 둘이 있을 때 40점을 맞은 학생이 더 뛰어난 것은 사실이나, 4배 더 뛰어나다고는 말을 못 하죠.

 

4) 비율 척도 자료(ratio scaling data)

- 절대 0점이 있어서 비율을 이야기할 수 있는 자료입니다. ex 아빠의 몸무게가 70kg, 아들이 35kg일 때, 아빠가 아들의 2배의 몸무게를 갖고 있다고 말할 수 있죠.

 

* 4번째로 예를 든 몸무게는 비율 척도 자료가 됨과 동시에 구간 척도 자료도 되고(70,35kg 대소 관계 확인 가능) 서수 척도 자료(75와 35를 내림, 오름차순으로 정리할 수 있음)이자 명목 척도 자료가 될 수 있습니다.(아버지-70/아들-35로 나타내도 됨, 자료가 2개밖에 없으므로)

 

이상 자료들의 종류 중 크게 2개(질적 자료와 양적 자료) 그리고 4개로 나눈 종류(명목, 서수, 구간, 비율)를 살펴보았는데요, 갑자기 난이도가 올라간 듯싶지만 자료를 숫자로만 보지 말고 숫자의 의미를 살핀다면 자연스럽게 구분 지을 수 있습니다. 감사합니다. 리그레션이었습니다.