728x90
반응형
[목차]
빅데이터 탐색 - 데이터 탐색
<데이터 탐색>
1. 데이터 탐색 기초
(1) 데이터 탐색 개념
- 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법
- 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석 방식
- 도구: 도표, 그래프, 요약 통계 등
(2) 분석 필요성
- 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미처 발생하지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세움
- 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제 발견
(3) 탐색적 데이터 분석(EDA; Exploratory Data Analysis)의 4가지 특징
저항성, 잔차 해석, 자료 재표현, 현시성
특징(주제) | 내용 |
저항성 (Resistance) | - 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질 (탐색적 데이터 분석은 저항성이 큰 통계적 데이터 이용) |
잔차(Residual) 해석 | - 잔차를 구해봄으로써 데이터의 보통과 다른 특징 탐색 - 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업 (잔차: 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도) |
자료 재표현 (Re-expression) | - 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것 - 자료의 재표현을 통하여 분포의 대칭성, 분포의 선형성, 분산의 안정성 등 데이터 구조파악과 해석에 도움을 얻는 경우가 많음 - 로그 변환, 제곱근 변환, 역수 변환 등 |
현시성 (Graphic Representation) | - Display, Visualization, 데이터 시각화 - 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정 - 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악 가능 |
(4) 개별 변수 탐색 방법
범주형 데이터 - 질적 (명목형, 순서형) / 수치형 데이터 - 양적 (이산형, 연속형)
데이터 유형 | 설명 |
범주형 데이터 (질적 데이터) | - 명목 척도와 순위 척도에 대한 데이터 탐색 - 빈도수, 최빈수, 비율, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악 - 시각화는 막대형 그래프(Bar Plot) 주로 이용 |
수치형 데이터 (양적 데이터) | - 등간 척도와 비율 척도에 대한 데이터 탐색 - 평균, 분산, 표준편차, 첨도, 왜도 등을 이용하여 데이터의 분포 특성을 중심성, 변동성, 정규성 측면에서 파악 - 시각화는 박스플롯이나 히스토그램 주로 이용 |
※ 범주형 데이터에는 명목형, 순서형 데이터
- 명목형: 명사형으로 변수나 변수의 크기가 순서와 상관없고, 의미가 없이 이름만 의미를 부여할 수 있는 경우
- 순서형: 변수가 어떤 기준에 따라 순서에 의미를 부여할 수 있는 경우
※ 수치형 데이터에는 이산형, 연속형 데이터
- 이산형: 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우
- 연속형: 변수가 구간 안의 모든 값을 가질 수 있는 경우
(5) 다차원 데이터 탐색 방법
데이터 조합 | 설명 |
범주형-범주형 | - 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석 - 시각화는 막대형 그래프 주로 이용 |
수치형-수치형 | - 수치형 데이터 간에는 산점도와 기울기를 통하여 변수 간의 상관성을 분석 - 수치형 변수 간의 상관성과 추세성 여부는 산점도를 이용하여 시각화 - 공분산을 통하여 방향성 파악 - 피어슨 상관계수를 통하여 방향과 강도 파악 |
범주형-수치형 | - 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통게량 차이를 상호 비교 - 그룹 간 비교를 위하여 주로 박스플롯을 이용하여 시각화 |
2. 상관관계 분석
(1) 개념
- 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법
(2) 변수 사이의 상관관계 종류
종류 | 설명 |
양(+)의 상관관계 | - 한 변수의 값이 증가할 때 다른 변수의 값도 증가하는 경향을 보이는 상관관계 - 강도에 따라 강한 양의 상관관계, 약한 양의 상관관계 |
음(-)의 상관관계 | - 한 변수의 값이 증가할 때 다른 변수의 값은 반대로 감소하는 경향을 보이는 상관관계 - 강도에 따라 강한 음의 상관관계, 약한 음의 상관관계 |
상관관계 없음 | - 한 변수의 값의 변화에 무관하게 다른 변수의 값이 변하는 상관관계 |
(3) 표현 방법
산점도를 이용한 표현 방법
- 변수 사이의 관계를 산점도 그래프를 통하여 표현하는 방법
- 산점도는 직교 좌표계를 이용해 두 개 변수 간의 관계를 나타내는 방법
- 관계 시각화 기법에 해당
3. 기초통계량 추출 및 이해
- 데이터 탐색에서는 통계적인 방법을 통하여 데이터를 여러 각도에서 관찰하므로 기초통계량에 대한 이해 필요
(1) 중심 경향성의 통계량
통계량 | 설명 |
평균값(Mean) | 자료를 모두 더한 후 자료 개수로 나눈 값 |
중위수(Median) | 모든 데이터값을 순서대로 배열하였을 때 중앙에 위치한 데이터 값 |
최빈수(Mode) | 데이터값 중에서 빈도수가 가장 높은 데이터 값 |
사분위수(Quartile) | 모든 데이터값을 순서대로 배열하였을 때 4등분한 지점에 있는 값 |
백분위수(Percentile) | 모든 데이터값을 순서대로 배열하였을 때 100등분한 지점에 있는 값 |
(2) 산포도 통계량
※ 산포도: 데이터의 흩어진 정도
통계량 | 설명 |
분산(Variance) | 평균으로부터 얼마나 떨어져 있는지를 나타내는 값 |
표준편차 (Standard Deviation) | 분산에 양의 제곱근을 취한 값 |
범위(Range) | 데이터값 중에서 최댓값과 최솟값의 차 |
IQR(InterQuartile Range) | 3사분위수와 1사분위수의 차이 값 |
사분편차 (Quartile Deviation) | 3사분위수와 1사분위수 차이인 IQR의 절반 값 |
변동계수 (Coefficient of Variation) | 표준편차를 평균으로 나눈 값 |
(3) 분포 통계량
왜도와 첨도로 데이터의 분포 파악
※ 왜도: 데이터의 분포가 좌-우로 치우친 정도
※ 첨도: 정규분포보다 뾰족한 정도
4. 시각적 데이터 탐색 - 히스토그램 / 막대형 그래프 / 박스플룻 / 산점도
(1) 히스토그램
- 자료 분포의 형태를 직사각형 형태로 시각화하여 보여주는 그래프
- 가로축: 수치형 데이터
- 막대는 서로 붙어 있음
- 막대 너비는 일정
(2) 막대형 그래프
- 여러 가지 항목들에 대한 많고 적음을 비교하기 쉽도록 수량을 막대의 길이로 표현하는 그래프
- 가로축: 수치형 데이터가 아니어도 됨
- 그래프의 막대는 서로 떨어져 있음
- 그래프의 막대 너비는 같지 않을 수 있음
(3) 박스플롯
- 많은 데이터를 그림을 이용하여 집합의 범위와 중위수를 빠르게 확인 가능
- 통계적으로 이상값이 있는지 빠르게 확인 가능
- 상자수염 그림, 상자 그림 등 다양한 이름으로 불림
[구성요소]
- 하위 경계
- 최솟값
- 제1 사분위
- 제2 사분위
- 제3 사분위
- 최댓값
- 상위 경계
- 수염
- 이상
(4) 산점도
- 가로축과 세로축의 자표평면상에서 각각의 관찰점들을 표시하는 시각화 방법
- 2개의 연속형 변수 간의 관계를 보기 위하여 사용
이전글
다음글
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터 분석기사] 2과목 빅데이터 탐색(2-2-1) (0) | 2024.03.13 |
---|---|
[빅데이터 분석기사] 2과목 빅데이터 탐색(2-1-2) (0) | 2024.03.13 |
[빅데이터 분석기사] 2과목 빅데이터 탐색(1-2) (0) | 2024.03.12 |
[빅데이터 분석기사] 2과목 빅데이터 탐색(1-1) (4) | 2024.03.12 |
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-2) (0) | 2024.03.12 |