TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 2과목 빅데이터 탐색(2-1-2)

by 기록자_Recordian 2024. 3. 13.
728x90
반응형

[목차]

 

[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)

빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이

puppy-foot-it.tistory.com


빅데이터 탐색 - 데이터 탐색

<데이터 탐색>

2. 고급 데이터 탐색 - 시공간 데이터 / 다변량 데이터

2-1. 시공간 데이터 탐색

  • 시공간 데이터: 공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터
  • 데이터를 공간과 시간의 흐름상에 위치시킬 수 있는 거리속성과 시간 속성을 가짐
  • 이산적 변화: 데이터 수집의 주기가 일정하지 않은 데이터를 이용하여 표현 (시간의 변화에 따라 데이터 추가)
  • 연속적 변화: 일정한 주기로 수집되는 데이터를 이용하여 연속적으로 표현 (연속적인 변화를 일종의 함수를 이용하여 표현)

(1) 시공간 데이터 타입

  • 포인트 타입: 하나의 노드로 구성되는 공간 데이터 타입
  • 라인 타입: 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구성
  • 폴리곤 타입: n개의 노드와 n개의 세그먼트로 구성
  • 폴리라인 타입; n개의 노드와 n-1개의 세그먼트로 구성

(2) 시공간 데이터 탐색 절차

주소를 행정구역으로 변환 → 주소를 좌표계료 변환 →  행정구역 및 좌표계를 지도에 표시 


ㄱ. 주소를 행정구역으로 변환

  • 엑셀 또는 스프레드시트의 문자열 처리 함수를 이용해 쉽게 변환
  • 보통은 공백문자를 기준으로 분할

ㄴ. 주소를 좌표계로 변환

  • 시공간 데이터의 주소를 이용하여 위도와 경도로 변환
  • 지오 코딩 서비스를 이용하여 좌표계로 변환

ㄷ. 행정구역 및 좌표계를 지도에 표시

  • 시공간 데이터에 따라 행정구역 데이터를 지도에 표시하거나 좌표계를 지도에 표시

[코로플레스 지도]

  • 어떤 데이터 수치에 따라 지정한 색상 스케일로 영역을 색칠해서 표현하는 방법 (등치지역도)
  • 데이터값의 크기에 따라 지역별로 색을 다르게 표시
  • 인구밀도가 매우 높은 지역과 낮은 지역에 동일한 척도를 적용할 경우 표시된 지역의 면적이 실제 데이터값의 크기를 반영 못함

코로플레스 지도, 출처: https://www.pxd.co.kr/en/story/detail_05/

 
[카토그램]

  • 특정한 데이터값의 변화에 따라 지도의 면적이 왜곡되로 지도 (변량비례도)
  • 데이터값이 큰 지역의 면적이 시각적으로도 더 크게 표시됨으로써 데이터값의 크기를 직관적으로 인지
  • 지도의 형태를 왜곡시킴으로써 데이터 지각의 왜곡을 방지하도록 보정

출처: 위키백과

 
[버블 플롯맵]

  • 버블차트에 위도와 경도 정보를 적용하여 좌표를 원으로 시각화한 지도
  • 원의 크기, 색깔 등을 반영하여 시각화 표현

출처:&amp;amp;nbsp;http://visualizingrights.org/kit/charts/bubble-map.html


2-2. 다변량 데이터 탐색

 (1) 다변량 데이터
 
[변량]

  • 조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 값
  • 일변량: 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료 (단변량 자료)
  • 이변량: 각 단위에 대해 두 개의 특성을 측정하여 얻어진 두 개의 변수에 대한 자료
  • 다변량: 하나의 단위에 대해 두 가지 이상의 특성을 측정하는 경우 얻어지는 변수에 대한 자료 (이변량 데이터도 다변량 데이터)

(2) 변량 데이터 탐색

  • 일변량 데이터 탐색: 기술통계량(평균, 분산, 표준편차 등), 그래프 통계량(히스토그램, 상자 그림 등)
  • 이변량 데이터 탐색: 조사 대상의 각 개체로부터 두 개의 특성을 동시에 관측 (일반적으로 두 변수 사이의 관계를 밝히려는 것이 관심의 대상)
  • 다변량 데이터 탐색: 데이터 분석을 시행하기 이전에 산점도 행렬, 별 그림, 등고선 그림 등을 통해 시각적으로 자료 탐색

(3) 다변량 데이터 탐색 도구 - 산점도 행렬 / 스타 차트
 
ㄱ. 산점도 행렬

  • 여러 변수 간의 산점도를 행렬로 나타내 변수 간의 연관성 표현한 그래프
  • 그림 행렬과 개별 Y대 개별 X행렬로 2가지 유형

[그림행렬]

  • 최대 20개의 변수를 사용
  • 가능한 모든 조합의 그래프 생성 가능
  • 변수가 여러 개 있을 경우 변수쌍 간의 관계를 보려면 그림 행렬을 사용하는 것이 효율적

출처:&amp;amp;nbsp;https://support.minitab.com/ko-kr/minitab/20/help-and-how-to/graphs/matrix-plot/before-you-start/overview/

 
[개별 Y대 개별 X 산점도 행렬]

  • y축 및 x축 변수를 사용하여 가능한 각 xy 조합의 그래프 생성

출처:&amp;amp;nbsp;https://support.minitab.com/ko-kr/minitab/20/help-and-how-to/graphs/matrix-plot/before-you-start/overview/

 
ㄴ. 스타 차트 (Star Chart; Star Plot)

  • 별 모양의 점을 각각의 변수에 대응되도록 한 뒤 각각의 변숫값에 비례하도록 반경을 나타내도록 하여 관찰 값을 그림으로 표시한 그래프

출처:&amp;amp;nbsp;https://visualize.tistory.com/35

 


3. 비정형 데이터 탐색

 (1) 비정형 데이터

  • 형태와 구조가 다른 구조화되지 않은 데이터 (이미지, 영상, 텍스트)
  • 텍스트 탐색 방법: 소셜 데이터의 텍스트와 같은 스크립트 파일 형태일 경우 데이터를 파싱한 후 탐색
  • 동영상, 이미지 탐색 방법: 이진 파일 형태의 데이터일 때, 데이터의 종류별로 응용소프트웨어를 이용하여 탐색

이전글

[빅데이터 분석기사] 2과목 빅데이터 탐색(2-1)

 

다음글

[빅데이터 분석기사] 2과목 빅데이터 탐색(2-2-1)

728x90
반응형