728x90
반응형
[목차]
빅데이터 탐색 - 데이터 탐색
<데이터 탐색>
2. 고급 데이터 탐색 - 시공간 데이터 / 다변량 데이터
2-1. 시공간 데이터 탐색
- 시공간 데이터: 공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터
- 데이터를 공간과 시간의 흐름상에 위치시킬 수 있는 거리속성과 시간 속성을 가짐
- 이산적 변화: 데이터 수집의 주기가 일정하지 않은 데이터를 이용하여 표현 (시간의 변화에 따라 데이터 추가)
- 연속적 변화: 일정한 주기로 수집되는 데이터를 이용하여 연속적으로 표현 (연속적인 변화를 일종의 함수를 이용하여 표현)
(1) 시공간 데이터 타입
- 포인트 타입: 하나의 노드로 구성되는 공간 데이터 타입
- 라인 타입: 서로 다른 두 개의 노드와 두 노드를 잇는 하나의 세그먼트로 구성
- 폴리곤 타입: n개의 노드와 n개의 세그먼트로 구성
- 폴리라인 타입; n개의 노드와 n-1개의 세그먼트로 구성
(2) 시공간 데이터 탐색 절차
주소를 행정구역으로 변환 → 주소를 좌표계료 변환 → 행정구역 및 좌표계를 지도에 표시
ㄱ. 주소를 행정구역으로 변환
- 엑셀 또는 스프레드시트의 문자열 처리 함수를 이용해 쉽게 변환
- 보통은 공백문자를 기준으로 분할
ㄴ. 주소를 좌표계로 변환
- 시공간 데이터의 주소를 이용하여 위도와 경도로 변환
- 지오 코딩 서비스를 이용하여 좌표계로 변환
ㄷ. 행정구역 및 좌표계를 지도에 표시
- 시공간 데이터에 따라 행정구역 데이터를 지도에 표시하거나 좌표계를 지도에 표시
[코로플레스 지도]
- 어떤 데이터 수치에 따라 지정한 색상 스케일로 영역을 색칠해서 표현하는 방법 (등치지역도)
- 데이터값의 크기에 따라 지역별로 색을 다르게 표시
- 인구밀도가 매우 높은 지역과 낮은 지역에 동일한 척도를 적용할 경우 표시된 지역의 면적이 실제 데이터값의 크기를 반영 못함
[카토그램]
- 특정한 데이터값의 변화에 따라 지도의 면적이 왜곡되로 지도 (변량비례도)
- 데이터값이 큰 지역의 면적이 시각적으로도 더 크게 표시됨으로써 데이터값의 크기를 직관적으로 인지
- 지도의 형태를 왜곡시킴으로써 데이터 지각의 왜곡을 방지하도록 보정
[버블 플롯맵]
- 버블차트에 위도와 경도 정보를 적용하여 좌표를 원으로 시각화한 지도
- 원의 크기, 색깔 등을 반영하여 시각화 표현
2-2. 다변량 데이터 탐색
(1) 다변량 데이터
[변량]
- 조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 값
- 일변량: 단위에 대해 하나의 속성만 측정하여 얻게 되는 변수에 대한 자료 (단변량 자료)
- 이변량: 각 단위에 대해 두 개의 특성을 측정하여 얻어진 두 개의 변수에 대한 자료
- 다변량: 하나의 단위에 대해 두 가지 이상의 특성을 측정하는 경우 얻어지는 변수에 대한 자료 (이변량 데이터도 다변량 데이터)
(2) 변량 데이터 탐색
- 일변량 데이터 탐색: 기술통계량(평균, 분산, 표준편차 등), 그래프 통계량(히스토그램, 상자 그림 등)
- 이변량 데이터 탐색: 조사 대상의 각 개체로부터 두 개의 특성을 동시에 관측 (일반적으로 두 변수 사이의 관계를 밝히려는 것이 관심의 대상)
- 다변량 데이터 탐색: 데이터 분석을 시행하기 이전에 산점도 행렬, 별 그림, 등고선 그림 등을 통해 시각적으로 자료 탐색
(3) 다변량 데이터 탐색 도구 - 산점도 행렬 / 스타 차트
ㄱ. 산점도 행렬
- 여러 변수 간의 산점도를 행렬로 나타내 변수 간의 연관성 표현한 그래프
- 그림 행렬과 개별 Y대 개별 X행렬로 2가지 유형
[그림행렬]
- 최대 20개의 변수를 사용
- 가능한 모든 조합의 그래프 생성 가능
- 변수가 여러 개 있을 경우 변수쌍 간의 관계를 보려면 그림 행렬을 사용하는 것이 효율적
[개별 Y대 개별 X 산점도 행렬]
- y축 및 x축 변수를 사용하여 가능한 각 xy 조합의 그래프 생성
ㄴ. 스타 차트 (Star Chart; Star Plot)
- 별 모양의 점을 각각의 변수에 대응되도록 한 뒤 각각의 변숫값에 비례하도록 반경을 나타내도록 하여 관찰 값을 그림으로 표시한 그래프
3. 비정형 데이터 탐색
(1) 비정형 데이터
- 형태와 구조가 다른 구조화되지 않은 데이터 (이미지, 영상, 텍스트)
- 텍스트 탐색 방법: 소셜 데이터의 텍스트와 같은 스크립트 파일 형태일 경우 데이터를 파싱한 후 탐색
- 동영상, 이미지 탐색 방법: 이진 파일 형태의 데이터일 때, 데이터의 종류별로 응용소프트웨어를 이용하여 탐색
이전글
다음글
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터 분석기사] 2과목 빅데이터 탐색(2-2-2) (0) | 2024.03.13 |
---|---|
[빅데이터 분석기사] 2과목 빅데이터 탐색(2-2-1) (0) | 2024.03.13 |
[빅데이터 분석기사] 2과목 빅데이터 탐색(2-1-1) (0) | 2024.03.12 |
[빅데이터 분석기사] 2과목 빅데이터 탐색(1-2) (0) | 2024.03.12 |
[빅데이터 분석기사] 2과목 빅데이터 탐색(1-1) (4) | 2024.03.12 |