이전 내용
등급의 수와 구간의 결정
질적 자료의 경우에는 도수분포표를 만들 때에는 등급의 수를 몇 개로 할 것인지, 등급의 구간을 어떻게 정할 것인지는 문제가 되지 않는다.
그러나, 양적 자료에서는 분석자의 목적에 따라 등급의 수와 구간의 수를 무한히 다양한 방법으로 정할 수 있기 때문에, 등급의 수와 구간을 얼마로 설정할 것이냐의 문제가 언제나 제기된다.
- 등급의 수: 자료의 성격을 정확하게 파악하기 위해서는 등급의 수가 많아야 하며, 개략적으로 전체적인 양상을 보려면 등급의 수가 적은 것이 더 유용하다. 등급의 수가 너무 적을 경우엔 자료의 분포 파악이 어렵고, 너무 많으면 자료를 해석할 때 쉽게 파악이 되지 않는 어려움이 따른다.
- 등급의 구간: 등급의 구간이 작으면 등급의 수가 많아져서 기초자료에 가까운 도수분포표가 작성되고, 너무 크면 등급 수가 너무 적어져서 그 도수분포표는 보다 자세하고도 필요한 정보는 주지 못할 수도 있다. 등급의 구간을 결정 시에는 모든 등급의 구간이 동일해야 한다. (물론 예외상황도 있다)
도수분포표 작성을 위한 유의사항
- 모든 자료는 빠짐없이 도수분포표에 포함되어야 한다. (극단적 수치가 있을 경우에도 포함.)
- 극단적 수치를 포함하는 양끝의 등급을 제외한 나머지 등급의 구간은 모두 같아야 한다
- 등급은 서로 중복되지 않아야 한다
- 등급은 연속적으로 표시되어야 한다. (해당 사례가 없다고 제외시키면 안된다)
- 등급의 구간은 홀수로 정하는 것이 좋다. (중간점을 쉽게 정할 수 있다)
- 맨 첫 번째 등급구간의 첫 번째 숫자는 가능한 한 눈에 잘 띄는 숫자로 시작하는 것이 좋다.
도표에 의한 도수분포표
도수분포표 만으로 자료의 특성을 이해하기가 곤란한 경우에는 도표에 의한 도수분포표를 사용한다.
도표는 도수분포표의 특성을 일목요연하게 보여줄 수도 있고, 통계적 방법에 익숙치 않은 사람들에게 자료를 설명할 때도 유용할 뿐만 아니라, 자료의 분포가 어떤 형태를 이루는지 파악하기에도 유용하다.
도표에 의한 도수분포표의 분석에서도 변수의 성격이 질적인지, 양적인지 또는 양적이라 하더라도 이산형 성격인지, 연속형 성격인지에 따라서 도표를 그리는 방법이 상이하다.
◆ 질적 자료의 도표 - 막대 그래프
막대 그래프(Bar graph)는 질적 자료에 가장 많이 쓰인다.
도표를 끄릴 때에는 수평축에 범주를 표시하고 수직축에 빈도수나 상대적 빈도를 표시한다.
이때 각 범주 간의 간격은 동일해야 하며, 범주와 범주 사이에는 여유를 두는 것이 좋다.
◆ 양적 자료의 도표: 이산형 자료 - 히스토그램
이산형 자료에도 막대그래프를 자주 사용하는데, 이때에는 '히스토그램(histogram)' 이라고 한다.
히스토그램을 통해 자료에 대한 전체적인 모양을 파악해 볼 수있다.
자료가 대칭적인지 아닌지(비대칭도), 값이 가장 만힝 분포하는 봉우리가 한 개 인지 두 개인지 등을 파악할 수 있다.
★ 막대그래프와 히스토그램의 차이
히스토그램과 막대 차트의 주요 차이점은 그리려는 대상 데이터의 유형에 있다. 히스토그램은 연속형 데이터에 사용되는 반면, 막대 차트는 범주형 또는 명목형 데이터에 사용된다.
히스토그램에서는 막대 사이에 빈 칸이 없다. 막대들은 가로 축에 지정된 범위 내에서 발생하는 값들의 개수를 나타낸다. 막대 차트에서는 막대 사이에 빈 칸을 둘 수 있다. 막대들은 각 범주에 대한 측정값을 나타낸다.
◆ 양적 자료의 도표: 연속형 자료 - 꺾은선그래프
연속형 자료에서도 막대그래프(히스토그램)이 사용되지만 꺾은선그래프(polygon)가 더 자주 사용된다.
특히 꺾은선그래프는 각 등급의 빈도수 변화를 잘 보여주는 특징을 갖고 있다.
꺾은선그래프는 막대그래프의 각 중간점을 이어서 그린 것으로 자료가 연속형인 성격을 가졌을 때에만 사용한다.
각 등급구간의 중간점에 해당되는 점 위에서 그 등급의 빈도수에 점을 찍어 그 점들을 연결하면 꺾은선그래프가 된다. 꺾은선그래프는 막대그래프에 비하여 다음과 같은 장점을 갖고 있다.
- 분포의 윤곽을 훨씬 명확히 드러내 보여 각 등급 사이의 빈도수의 증감이 선명하게 나타난다.
- 어떤 등급을 중심으로 고나찰값이 많이 집중하고 있는지를 쉽게 관찰할 수 있다
- 두 집단 이상의 서로 다른 도수분포를 같은 그림 위에 놓고 비교할 수 있다.
또한, 꺾은선그래프는 선의 모양이나 색깔만 달리하면 세 집단 이상을 비교하는 것도 가능하다.
◆ 양적 자료의 도표: 연속형 자료 - 누적백분율곡선
누적백분율곡선(cumulative percentage curve, ogive)은 연속형 자료를 도표로 그릴 때 자주 사용되며 여러 가지 장점이 있다.
누적백분율곡선은 한 관찰값이 그 집단에서 어떤 위치에 있는가를 알아본다든가, 또는 특정한 위치에 해당되는 사람의 관찰값이 얼마인가 등을 손쉽게 알아볼 수 있다는 장점을 갖고 있다.
또한, 두 개 이상의 집단을 한 도표에서 비교할 수 있다는 장점이 있다.
누적백분율곡선을 이용하면 복잡한 계산을 거치지 않고도 각 백분율에 해당되는 관찰값의 값이나 각 관찰값의 백분율값을 쉽게 알 수 있는 장점이 있다.
[출처]
현대통계학
나무위키
JMP Statistical Discovery
'[파이썬 Projects] > <파이썬 - 수학 | 통계학>' 카테고리의 다른 글
[개발자를 위한 수학] 확률 - 이항 분포, 베타 분포 (+파이썬) (0) | 2024.10.04 |
---|---|
[개발자를 위한 수학] 확률 (+파이썬) (3) | 2024.10.04 |
[통계학] 자료 정리 - 1 (4) | 2024.10.02 |
[개발자를 위한 수학] 미분, 적분 (+파이썬) (5) | 2024.10.02 |
[개발자를 위한 수학] 로그, 자연로그, 오일러 수 (+파이썬) (6) | 2024.10.02 |