TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 2과목 빅데이터 탐색(2-1-1)

by 기록자_Recordian 2024. 3. 12.
728x90
반응형

[목차]

[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)

빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이

puppy-foot-it.tistory.com


빅데이터 탐색 - 데이터 탐색

<데이터 탐색>

1. 데이터 탐색 기초

(1) 데이터 탐색 개념

  • 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법
  • 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석 방식
  • 도구: 도표, 그래프, 요약 통계 등

(2) 분석 필요성

  • 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미처 발생하지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세움
  • 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제 발견

(3) 탐색적 데이터 분석(EDA; Exploratory Data Analysis)의 4가지 특징
저항성, 잔차 해석, 자료 재표현, 현시성

특징(주제)내용
저항성 (Resistance)- 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질
(탐색적 데이터 분석은 저항성이 큰 통계적 데이터 이용)
잔차(Residual) 해석- 잔차를 구해봄으로써 데이터의 보통과 다른 특징 탐색
- 주 경향에서 벗어난 값이 왜 존재하는지에 대해 탐색하는 작업
(잔차: 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도)
자료 재표현
(Re-expression)
- 데이터 분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도로 바꾸는 것
- 자료의 재표현을 통하여 분포의 대칭성, 분포의 선형성, 분산의 안정성 등 데이터 구조파악과 해석에 도움을 얻는 경우가 많음
- 로그 변환, 제곱근 변환, 역수 변환 등
현시성
(Graphic Representation)
- Display, Visualization, 데이터 시각화
- 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정
- 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 파악 가능

 
(4) 개별 변수 탐색 방법
범주형 데이터 - 질적 (명목형, 순서형) / 수치형 데이터 - 양적 (이산형, 연속형)

데이터 유형설명
범주형 데이터
(질적 데이터)
- 명목 척도와 순위 척도에 대한 데이터 탐색
- 빈도수, 최빈수, 비율, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성 측면에서 파악
- 시각화는 막대형 그래프(Bar Plot) 주로 이용
수치형 데이터
(양적 데이터)
- 등간 척도와 비율 척도에 대한 데이터 탐색
- 평균, 분산, 표준편차, 첨도, 왜도 등을 이용하여 데이터의 분포 특성을 중심성, 변동성, 정규성 측면에서 파악
- 시각화는 박스플롯이나 히스토그램 주로 이용

 
※ 범주형 데이터에는 명목형, 순서형 데이터

  • 명목형: 명사형으로 변수나 변수의 크기가 순서와 상관없고, 의미가 없이 이름만 의미를 부여할 수 있는 경우
  • 순서형: 변수가 어떤 기준에 따라 순서에 의미를 부여할 수 있는 경우

수치형 데이터에는 이산형, 연속형 데이터

  • 이산형: 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우
  • 연속형: 변수가 구간 안의 모든 값을 가질 수 있는 경우

(5) 다차원 데이터 탐색 방법

데이터 조합설명
범주형-범주형- 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용하여 데이터 간의 연관성을 분석
- 시각화는 막대형 그래프 주로 이용
수치형-수치형- 수치형 데이터 간에는 산점도와 기울기를 통하여 변수 간의 상관성을 분석
- 수치형 변수 간의 상관성과 추세성 여부는 산점도를 이용하여 시각화
- 공분산을 통하여 방향성 파악
- 피어슨 상관계수를 통하여 방향과 강도 파악
범주형-수치형- 범주형 데이터의 항목들을 그룹으로 간주하고 각 그룹에 따라 수치형 변수의 기술 통게량 차이를 상호 비교
- 그룹 간 비교를 위하여 주로 박스플롯을 이용하여 시각화

2. 상관관계 분석

(1) 개념

  • 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법

(2) 변수 사이의 상관관계 종류

종류설명
양(+)의 상관관계- 한 변수의 값이 증가할 때 다른 변수의 값도 증가하는 경향을 보이는 상관관계
- 강도에 따라 강한 양의 상관관계, 약한 양의 상관관계
음(-)의 상관관계- 한 변수의 값이 증가할 때 다른 변수의 값은 반대로 감소하는 경향을 보이는 상관관계
- 강도에 따라 강한 음의 상관관계, 약한 음의 상관관계
상관관계 없음- 한 변수의 값의 변화에 무관하게 다른 변수의 값이 변하는 상관관계

 
(3) 표현 방법
산점도를 이용한 표현 방법

  • 변수 사이의 관계를 산점도 그래프를 통하여 표현하는 방법
  • 산점도는 직교 좌표계를 이용해 두 개 변수 간의 관계를 나타내는 방법
  • 관계 시각화 기법에 해당
출처: https://www.ssacstat.com

3. 기초통계량 추출 및 이해

  • 데이터 탐색에서는 통계적인 방법을 통하여 데이터를 여러 각도에서 관찰하므로 기초통계량에 대한 이해 필요

(1) 중심 경향성의 통계량

통계량설명
평균값(Mean)자료를 모두 더한 후 자료 개수로 나눈 값
중위수(Median)모든 데이터값을 순서대로 배열하였을 때 중앙에 위치한 데이터 값
최빈수(Mode)데이터값 중에서 빈도수가 가장 높은 데이터 값
사분위수(Quartile)모든 데이터값을 순서대로 배열하였을 때 4등분한 지점에 있는 값
백분위수(Percentile)모든 데이터값을 순서대로 배열하였을 때 100등분한 지점에 있는 값

 
(2) 산포도 통계량
※ 산포도: 데이터의 흩어진 정도

통계량설명
분산(Variance)평균으로부터 얼마나 떨어져 있는지를 나타내는 값
표준편차 (Standard Deviation)분산에 양의 제곱근을 취한 값
범위(Range)데이터값 중에서 최댓값과 최솟값의 차
IQR(InterQuartile Range)3사분위수와 1사분위수의 차이 값
사분편차 (Quartile Deviation)3사분위수와 1사분위수 차이인 IQR의 절반 값
변동계수 (Coefficient of Variation)표준편차를 평균으로 나눈 값

 
(3) 분포 통계량
왜도와 첨도로 데이터의 분포 파악
※ 왜도: 데이터의 분포가 좌-우로 치우친 정도
※  첨도: 정규분포보다 뾰족한 정도


4. 시각적 데이터 탐색 - 히스토그램 / 막대형 그래프 / 박스플룻 / 산점도

(1) 히스토그램

  • 자료 분포의 형태를 직사각형 형태로 시각화하여 보여주는 그래프
  • 가로축: 수치형 데이터
  • 막대는 서로 붙어 있음
  • 막대 너비는 일정
출처: 위키백과

 
(2) 막대형 그래프

  • 여러 가지 항목들에 대한 많고 적음을 비교하기 쉽도록 수량을 막대의 길이로 표현하는 그래프
  • 가로축: 수치형 데이터가 아니어도 됨
  • 그래프의 막대는 서로 떨어져 있음
  • 그래프의 막대 너비는 같지 않을 수 있음
출처:&amp;nbsp;https://www.edrawsoft.com/kr/for-beginners/what-is-histogram.html

 
(3) 박스플롯

  • 많은 데이터를 그림을 이용하여 집합의 범위와 중위수를 빠르게 확인 가능
  • 통계적으로 이상값이 있는지 빠르게 확인 가능
  • 상자수염 그림, 상자 그림 등 다양한 이름으로 불림

[구성요소]

  • 하위 경계
  • 최솟값
  • 제1 사분위
  • 제2 사분위
  • 제3 사분위
  • 최댓값
  • 상위 경계
  • 수염
  • 이상
출처;&amp;nbsp;https://velog.io/@oolayla/Data-Visualization-Matplotlib-심화

 
(4) 산점도

  • 가로축과 세로축의 자표평면상에서 각각의 관찰점들을 표시하는 시각화 방법
  • 2개의 연속형 변수 간의 관계를 보기 위하여 사용
출처:&amp;nbsp;https://zhining.tistory.com/59

 


이전글

[빅데이터 분석기사] 2과목 빅데이터 탐색(1-2)

 
다음글

[빅데이터 분석기사] 2과목 빅데이터 탐색(2-1-2)

728x90
반응형