변수와 자료
◆ 변수: 연구자의 관심 대상이 되는 성격 또는 속성. (변하는 수)
'변수'란 키, 몸무게, 지능지수, 나이 등과 같이 연구대상들이 서로 다르게 나타나는 속성을 말한다.
◆ 자료: 관찰이나 연구의 목적에 따라 변수를 관찰하여 기록한 결과
자료 그 자체만으로는 의미 있는 정보를 제공해 주지 못하기 때문에, 수집된 자료를 의미 있는 방식으로 분류 및 정리하는 것이 중요하다. 단, 자료를 정리하는 방법이나 정리된 자료를 분석하는 방법은 자료의 종류에 따라 다르다.
변수와 자료의 종류
- 양적 변수(quantitative variable): 수치로 나타낼 수 있는 것. (기업의 매출액, 시험 점수 등)
- 질적 변수(qualitative variable): 수치로 나타낼 수 없는 것. (종교, 성별, 직업 등)
- 양적 자료: 양적 변수를 기록한 자료
- 질적 자료: 질적 변수를 기록한 자료.
※ 질적 자료를 숫자로 나타낼 수는 있으나, (남자는 1, 여자는 2 처럼) 이때의 숫자는 숫자보다는 기호에 불과할 뿐이며, 일반적인 숫자의 개념과는 다르다.
※ 양적 자료 역시 질적 자료의 형태로 나타낼 수 있다. (국민들의 월 수입액을 기준으로 상.중.하 분류, 자격증 시험의 합격 불합격 여부 등)
양적 변수는 다시 이산형 변수(discrete variable)과 연속형 변수(continuous variable)로 구분된다.
- 이산형 변수: 정숫값을 취할 수 있는 변수 (각 세대별 자녀 수, 월간 자동차 판매대수 등)
▶ 이산형 자료: 이산형 변수의 관찰결과
- 연속형 변수: 길이, 무게, 온도변화와 같이 연속적인 모든 실숫값을 취할 수 있는 변수 (길이)
▶ 연속형 자료: 연속형 변수의 관찰결과
변수의 수준
명복변수 < 서열변수 < 등간변수 < 비율변수
- 명목변수(nomonal variable): 가장 낮은 수준의 정보를 가지고 있는 변수. (성별, 종교, 출생지, 운동선수들의 등번호 등)
측정대상의 특성을 분류하기 위하여 숫자를 부여하는데, 이 경우 숫자는 크기를 가지는 것이 아니라 단순히 구분 기호로 사용된다.
- 서열변수(ordinal variable): 측정대상 간의 순서를 매기기 위하여 사용되는 변수. (석차, 선호도 등)
측정대상 간의 크고 작음, 높고 낮음 등의 순서를 부여하는 변수다. (서열변수의 자료는 사칙연산이 포함되는 분석은 불가능)
- 등간변수(interval variable): 측정대상의 순서뿐만 아니라 순서 사이의 간격을 알 수 있는 변수. (온도, 지능지수, 대학 학년 등)
등간변수의 자료는 그 차이를 계산할 수는 있지만 차이의 비율은 큰 의미가 없다.
- 비율변수(ratio variable): 가장 높은 수준의 정보를 가지고 있는 변수.
등간변수의 특성 + 측정자료 간의 비율 계산이 가능한 변수. (연령, 무게, 시간, 거리 등)
등간변수의 경우 0은 단순히 상대적인 위치를 나타내는 것이지만, 비율변수인 무게의 경우 0은 무게가 전혀 없는 상태를 나타내는 것이다.
비율 변수의 자료는 모든 통계적 분석이 가능하다.
똑같은 변수라고 해도 연구의 목적에 따라 변수의 수준을 달리하여 사용할 수 있다.
[예 - 학생들의 신체발달 연구를 위한 체중 측정 시, 체중의 변수 수준 변화]
체중의 변수 수준 | 예 |
비율변수 | 90kg인 학생은 45kg 학생보다 2배 무겁다 |
등간변수 | 체중의 분포를 알기 위해 체중에 대한 표준점수 Z를 구한 경우 |
서열변수 | 각 학생의 Z 점수를 기초로 체중의 순서 부여 |
명목변수 | 체중을 기준으로 일정 등수끼리 집단 형성 예.) 1-10등: 과체중 집단, 11-20등: 정상체중집단, 21-30등: 저체중집단 |
★ 변수의 수준은 높은 것은 낮은 것으로 변환될 수 있으나, (극히 예외적인 경우 제외하고) 그 반대는 불가능하다.
예. 비율변수 → 명목변수: 가능 / 명목변수 → 등간변수: 불가
또한 등간 및 비율 변수의 경우 대부분의 통계적 처리를 해도 변수의 성격이 달라지지 않으나, 명목 및 서열 변수는 여러 가지 통계적 처리에서 제한을 받는다.
도수분포표
도수분포표(frequency distribution table): 수집된 자료를 적절한 등급(또는 범주)으로 분류하고 각 등급에 해당되는 빈도수 등을 정리한 도표. 통계적 분석을 하기 위한 기초자료로 사용되는 것이 보통이다.
숫자형 자료로 도수분포표를 만들기 위해서는 우선 자료의 전체 범위를 몇 개의 구간으로 나눠야 한다.
이를테면, 과거 학교에서 '수,우,미,양,가' 로 등급을 매겼던 것을 생각해보면 여기서 '수,우,미,양,가'는 등급(class)이라 하고 보통 X로 나타낸다.
명목형 자료나 순서형 자료와 같이 관찰값 X의 특성상 구간을 나누기 힘든 경우에는 범주(category)를 사용한다. (예 - 직업, 종교 등)
- 등급구간(class interval): 등급의 간격
- 도수(frequency) 또는 빈도수: 각 구간에 해당되는 관철된 수(인원수), 보통 f로 나타낸다.
◆ 도수분포표 작성 방법
도수분포표를 작성하는 방법은 변수의 성격에 따라 달라진다.
1) 질적 자료의 정리
아파트 A에 특정 직업을 가진 사람들이 얼마나 살고 있는가를 알기 위해 세대주들의 직업을 조사한 후, 직업의 분포상태를 쉽게 알아보기 위해 직업을 구분하여 도수분포표를 만들었다.
직업(X) | 빈도수(f) |
전문직 | 6 |
상업 | 8 |
사무직 | 4 |
기타 | 2 |
합계 | 20 |
각 직업이 전체 아파트 세대 중에서 어느 정도만큼을 차지하고 있는지 알기 위해 상대적 빈도(relative frequency)를 구했다.
★ 상대적 빈도: 한 범주에 속하는 빈도가 전체 관찰 수에 비하여 어느 정도의 비중을 차지하고 있는가를 파악하는 것.
(n: 전체 관찰 수, fc: 각 범주에 속하는 빈도수)
앞서, 세대주들 직업의 도수분포표를 상대적 빈도와 백분율로 표시하면 아래와 같다.
직업 | 상대적 빈도 | 백분율(%) |
전문직 | 0.3(6/20) | 30 |
상업 | 0.4(8/20) | 40 |
사무직 | 0.2(4/20) | 20 |
기타 | 0.1(2/20) | 10 |
합계 | 1.0 | 100 |
상대적 빈도는 한 집단에서 각 범주의 빈도를 비교하는 데도 사용될 수 있지만, 그보다는 크기가 서로 다른 집단을 비교하는 데 더욱 유용하다.
만약, 아파트 B에 살고 있는 세대주들 30명의 직업을 추가로 조사해서 A, B 두 아파트 주민들의 직업을 비교한다고 하면
직업 | 아파트 A | 아파트 B | ||||
구분 | 수 | 상대적 빈도 | 백분율(%) | 수 | 상대적 빈도 | 백분율(%) |
전문직 | 6 | 0.3 | 30 | 3 | 0.1 | 10 |
상업 | 8 | 0.4 | 40 | 9 | 0.3 | 30 |
사무직 | 4 | 0.2 | 20 | 12 | 0.4 | 40 |
기타 | 2 | 0.1 | 10 | 6 | 0.2 | 20 |
합계 | 20 | 1.0 | 100 | 30 | 1.0 | 100 |
만약 상대적 빈도 없이 수만 보고 판단했다면, 상업에 종사하는 세대가 상대적으로 어느 아파트에 많은지 결론을 내릴 수가 없었을 것이다. 이렇게 각 아파트 세대주들의 직업에 대한 상대적 빈도나 백분율로 표시한다면, 각 집단에 대한 특성을 더 잘 알 수도 있을 뿐만 아니라 두 집단에 대한 비교도 쉽게 할 수 있을 것이다.
2) 양적 자료의 정리
양적 자료는 이산형 자료와 연속형 자료로 구분되는데, 양적 자료 중에서도 자료가 이산형일 때보다는 연속형일 때의 정리방법이 더 다양하다.
2-1) 이산형 자료
유제품 배송 업체 H는 아파트 A에 살고 있는 각 세대들의 지난 일주일간의 배송 건수를 조사하여 아래와 같이 도수분포표로 작성하였다.
배송 건수(X) | 빈도수(f) | 상대적 빈도 |
0 | 4 | 0.2 |
1 | 8 | 0.4 |
2 | 4 | 0.2 |
3 | 2 | 0.1 |
4 | 2 | 0.1 |
합계 | 20 | 1.0 |
배송 건수는 소수(예. 1.1, 2.5 등)로 표시할 수 없고 정수로만 표시 가능하므로 이산형 자료에 해당된다.
이때 때에 따라서는 어떤 등급 이하 또는 어느 등급 이상에 해당되는 빈도수가 얼마나 되는가를 알아볼 필요가 있다.
(예. 배송 건수가 2번 이상인 세대수) 이때에는 누적빈도(cumulative frequency)를 계산하면 된다.
누적빈도란 어떤 등급에 해당되는 빈도를 포함해서 그 이하 또는 그 이상에 있는 모든 빈도를 합한 것이다.
또한, 상대적 누적빈도는 누적빈도가 전체 관찰 대상 중 얼마만큼의 비율을 차지하고 있는 가를 말해주며, 총 관찰 수가 다른 두 개 이상의 집단 간 누적빈도를 비교할 때에 유용하다.
[세대별 배송 건수의 누적빈도와 상대적 누적빈도]
배송 건수(X) | 빈도(f) | 상대적 빈도 | 누적빈도 | 상대적 누적빈도 |
0 | 4 | 0.2 | 4 | 0.2 |
1 | 8 | 0.4 | 12 | 0.6 |
2 | 4 | 0.2 | 16 | 0.8 |
3 | 2 | 0.1 | 18 | 0.9 |
4 | 2 | 0.1 | 20 | 1.0 |
합계 | 20 | 1.0 |
★ 질적 자료에서는 누적빈도, 상대적 누적빈도를 사용할 수 없다는 점을 유의해야 한다.
왜냐하면 질적 자료에서의 각 범주는 단지 명칭만을 표시할 뿐이므로 더하거나 빼는 계산은 아무런 의미가 없기 때문이다.
(예. 상업 이라는 직업 이상을 가진 세대수를 구할 수는 없다.)
2-2) 연속형 자료
쿠팡플레이에서는 어느 대학의 학생 50명을 대상으로 연간 쿠팡플레이 시청 시간을 조사했다.
연간 시청 시간과 같은 시간의 경우, 시간은 소수점 이하로 한없이 표시할 수 있는 연속형인 성격을 가지고 있다.
시청 시간을 나열만 해놓은 자료는 학생들의 분석이 어려울 수 있으므로,
(이를테면, 연간 시청 시간이 어느정도인지, 가장 많이 보는 학생이 몇 시간인지, 중간 값이 몇 인지 등)
이 관찰값들의 분포를 의미 있는 자료로 만들기 위한 과정이 필요하다.
1차적으로 시청 시간을 오래 시청한 순서대로 나열해볼 수 있다.
시청시간(X) | 빈도(f) | 시청시간(X) | 빈도(f) | 시청시간(X) | 빈도(f) |
26 | 1 | 47 | 1 | 61 | 1 |
27 | 1 | 49 | 1 | 62 | 1 |
36 | 1 | 50 | 1 | 63 | 1 |
37 | 2 | 51 | 2 | 64 | 2 |
38 | 1 | 52 | 3 | 65 | 1 |
39 | 1 | 53 | 2 | 66 | 1 |
40 | 1 | 55 | 2 | 67 | 1 |
41 | 2 | 56 | 1 | 69 | 1 |
42 | 1 | 57 | 3 | 70 | 1 |
43 | 2 | 58 | 2 | 71 | 1 |
44 | 1 | 59 | 2 | 73 | 2 |
45 | 1 | 60 | 1 | 74 | 1 |
이 표를 통해 제일 많이 시청한 시간(74시간), 제일 적게 시청한 시간(26시간), 각 시청 시간에 해당되는 사람의 수 등을 알 수 있으나, 전체 학생들의 연간 시청 시간이 어떤 모양의 분포를 이루고 있는지 등에 대한 정보는 알기 어렵다.
이럴때 적당한 크기의 등급(등급의 간격)으로 자료를 묶어서 정리하면 더 나은 분석을 할 수 있다.
시청시간(X) | 정확한계 | 중간점 | 빈도 |
25~29 | 24.5~29.5 | 27 | 2 |
30~34 | 29.5~34.5 | 32 | 0 |
35~39 | 34.5~39.5 | 37 | 5 |
40~44 | 39.5~44.5 | 42 | 7 |
45~49 | 44.5~49.5 | 47 | 3 |
50~54 | 49.5~54.5 | 52 | 8 |
55~59 | 54.5~59.5 | 57 | 10 |
60~64 | 59.5~64.5 | 62 | 6 |
65~69 | 64.5~69.5 | 67 | 4 |
70~74 | 69.5~74.5 | 72 | 5 |
정확한계(exact limit): 관찰값이 포함되어 있는 정확한 범위
연속형 변수는 그 정확한 값을 나타내기가 어렵기 때문에 어떤 편리한 단위로 반올림해서 표시하게 되고, 따라서 정확한계라는 개념이 추가로 필요하게 된다.
중간점(mid-point)은 하한계와 상한계의 중간에 해당하는 수치를 말한다.
다음 글
'[파이썬 Projects] > <파이썬 - 수학 | 통계학>' 카테고리의 다른 글
[개발자를 위한 수학] 확률 (+파이썬) (3) | 2024.10.04 |
---|---|
[통계학] 자료 정리 - 2 (1) | 2024.10.03 |
[개발자를 위한 수학] 미분, 적분 (+파이썬) (5) | 2024.10.02 |
[개발자를 위한 수학] 로그, 자연로그, 오일러 수 (+파이썬) (6) | 2024.10.02 |
[개발자를 위한 수학] 기초수학 (+파이썬) (0) | 2024.10.02 |