TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 4과목 빅데이터 결과 해석(2)

by 기록자_Recordian 2024. 3. 16.
728x90
반응형

[목차]

 

[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)

빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이

puppy-foot-it.tistory.com


빅데이터 결과 해석 - 분석 결과 해석 및 활용

<분석 결과 해석>

1. 분석 모형 해석

(1) 데이터 시각화

  • 데이터에 대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정
  • 선, 막대, 원, 등의 기하나 도형과 같은 양식을 이용해 데이터의 특징을 설명할 수 있는 모양으로 만들어 냄
  • 색상, 레이블 등 특성을 활용하여 데이터 표현 가능
  • 목적: 시각화 결과물을 이용하는 사용자가 주제에 대해 더 잘 이해하고 느끼게 하는 것 (정보 전달, 설득)
정보 전달 데이터의 진실을 간단하고 정확하게 전달, 분석
(실용적이고 과학적인 측면)
설득 데이터를 통해 전달하고자 하는 메시지에 대한 공감, 설득 등의 반응 유도
(추상적이고 예술적 측면)

 

  • 유형: 시간, 분포, 관계, 비교, 공간
시간 시각화 시간 흐름에 따른 변화를 통해 트렌드를 파악
▶ 막대그래프, 누적 막대 그래프, 선 그래프, 영역 차트, 계단식 그래프, 추세선
분포 시각화 분류에 따른 변화를 최대, 최소, 전체 분포 등으로 구분 (전체에서 부분 간 관계 설명)
▶ 파이 차트, 도넛 차트, 트리맵, 누적 영역 차트
관계 시각화 집단 간의 상관관계를 확인하여 다른 수치의 변화 예측
▶ 산점도, 산점도 행렬, 버블 차트, 히스토그램, 네트워크 그래프
비교 시각화 각각의 데이터 간의 차이점과 유사성 관계도 확인
▶ 플로팅 바 차트, 히트맵, 체르노프 페이스, 스타 차트, 평행 좌표계
공간 시각화 지도를 통해 시점에 따른 경향, 차이 등을 확인
▶ 등치 지역도, 등치선도, 도트 플롯맵, 버블 플롯맵, 카토그램

 

  • 절차: 구조화 → 시각화 → 시각표현
절차 구조화 시각화 시각 표현
설명 - 데이터 시각화 목표 설정
- 분석 결과를 토대로 데이터의 표현 규칙과 패턴 탐색
- 시각화를 위한 요건 정의
- 사용자에 따른 시나리오 작성
- 스토리 구성
- 단순 명료한 메시지 전달을 위해 시각화 과정을 반복적으로 수행
- 구조화 단계에서 정의된 시각화 요건, 스토리를 기반으로 적절한 시각화 도구와 기술 선택
- 데이터 분석 정보의 시각화 구현
- 시각화 단계에서 만들어진 결과물 보정
- 정보 표현을 위한 그래픽 요소를 반영하여 그래픽 품질 향상
- 최종 시각화 결과물이 구조화 단계에서 정한 목적과 의도에 맞게 구현되었는지 확인
세부 단계 - 시각화 목표 설정
- 데이터 표현 규칙과 패턴 탐색 및 도출
- 시각화 요건 정의
- 사용자 시나리오 및 시각화 스토리 작성
- 시각화 도구와 기술 선택
- 시각화 구현
- 그래프 보정
- 전달 요소 강조
- 그래프 품질 향상
- 인터랙션 기능 적용
- 시각화 결과물 검증

 

  • 데이터 유형: 범주, 비율 / 추세, 패턴 / 관계, 연결
범주, 비율 범위 - 값의 범위 파악
분포 - 개별의 변수들, 변수의 조합이 갖는 분포 형태 파악
순위 - 크기를 기준으로 데이터 순서 확인
- 최댓값, 최솟값, 중위수, 사분위수 등
측정 - 값이 갖는 중요성 파악
- 숫자 자체보다 깊이 있는 조사 수행
추세, 패턴 추세 방향 -값이 증가하거나 감소하는 등 변화 확인
추세 패턴 - 선형이나 지수형으로 변화 유무 확인
추세 속도 - 추세가 어느 정도로 급한지 확인
변동 패턴 - 반복되는 패턴, 변동 폭, 무작위 패턴 등 확인
중요도 - 확인한 패턴이 중요한 신호인지, 잡음인지 확인
교차 - 변수 사이에 교차, 중첩 발생 여부
- 교차점이 발생하는지 확인
관계, 연결 예외 - 이상값과 같은 정상범위를 벗어난 변수 파악
상관성 - 변수 간의 관련성이 강하거나 약한 상관관계 존재 확인
연관성 - 변수와 값의 조합 간 의미 있는 관계 파악
계층 관계 - 데이터 범주의 구성, 분포, 관련성 파악

 


<분석 결과 시각화>

1. 시공간 시각화

(1) 시간 시각화

  • 시간에 따른 데이터의 변화를 표현한 시각화 방법
  • 시계열 데이터에서 주요 관심 요소는 경향성(Trend), 추세선과 산점도의 경우 시간의 흐름에 따른 추세 파악 가능
  • 시간 시각화는 시간의 흐름에 따라 변하는 데이터를 표현 ▶ 개별적인 데이터 보다는 전체적인 흐름 파악 필요
  • 유형: 막대그래프, 누적 막대 그래프, 선 그래프, 영역 차트, 계단식 그래프, 추세선

출처: https://ohaengsa.tistory.com

 

 

(2) 공간 시각화

  • 지도상에 해당하는 정보를 표현하는 시각화 방법
  • 지도 위에 위치를 표시하기 위해 대부분 위도와 경도 사용
  • 유형: 등치지역도, 등치선도, 도트 플롯맵, 버블 플롯맵, 카토그램 등

보다 자세한 내용은

 

위치 데이터의 시각적 분석(1) 어떻게 할 수 있을까? - 뉴스젤리 : 데이터 시각화 전문 기업

위치 데이터에서 의미 있는 인사이트를 도출하기 위한 방법으로 위치 데이터의 시각적 분석에 대해 이야기해보고자 합니다. 이번 포스팅은 3회차로 발행될 예정이며 가장 먼저 ① 위치 데이터

newsjel.ly

 


2. 분포 시각화

  • 데이터의 최댓값, 최솟값, 번체 분포 등을 나타내는 시각화 방법
  • 시계열 데이터와 비슷하나, 구분 단위가 시간이 아니라 데이터가 차지하는 영역을 기준으로 한다는 점에서 차이
  • 유형: 파이 차트, 도넛 차트, 트리맵, 누적 영역 차트 등

<트리맵 차트>, 출처:&nbsp;https://www.jmp.com/ko_kr/statistics-knowledge-portal/exploratory-data-analysis/treemap.html

 


3. 관계 시각화

  • 다변량 데이터 사이에 존재하는 변수 사이의 연관성, 분포와 패턴을 찾는 시각화 방법
  • 상관관계: 변수 사이의 연관성
  • 한 가지 요소의 변화가 다른 요소의 변화와 관련 있는지 표현하는 시각화 기법
  • 유형: 산점도, 산점도 행렬, 버블 차트, 히스토그램,네트워크 그래프

<네트워크 그래프>, 출처:&nbsp;https://bioinfoblog.tistory.com/159

 


4. 비교 시각화

  • 다변량 변수를 갖는 자료를 제한된 2차원에 효과적으로 표현하는 시각화 방법
  • 유형: 플로팅 바 차트(간트 차트), 히트맵, 체르노프 페이스, 스타 차트, 평행 좌표 그래프 등

출처: https://ohaengsa.tistory.com

 


5. 인포그래픽

  • 중요 정보를 하나의 그래픽으로 표현해서 보는 사람들이 쉽게 정보를 이해할 수 있도록 만드는 시각화 방법
  • 복잡하고 어려운 데이터를 더 쉽고 명확하게 이해할 수 있도록 그래픽과 텍스트를 균형 있게 조합
  • 정보를 SNS 상에 쉽고 빠르게 전달
  • 유형: 지도형, 도표형, 스토리텔링형, 타임라인형, 비교분석형, 만화형
  • 활용방법
그래픽과 데이터 균형 인포그래픽에 포함된 정보는 깔끔하고 군더더기 없어야 함
퍼블릭 데이터 활용 구글 인사이트, 세계은행에서 나온 데이터 등을 효과적으로 사용
템플릿과 아이콘 배치 단순한 아이콘을 활용하여 데이터 설명에 도움
무료 툴 활용 StatSilk, Many Eyes, Creately, Visual.ly 등 인포그래픽 제작 툴 활용
저작권 설정 홍보를 제한하는 선에서 인포그래픽스에 CCL을 생성하여 게재
인포그래픽스 홍보 메타, 인스타그램, X 등 SNS 를 적극적으로 활용

인포 그래픽의 예. 출처: 그린 컴퓨터 아트 학원 신도림

 


<분석 결과 활용>

1. 분석 결과 활용 시나리오 개발

(1) 분석 결과 활용 시 고려사항

  • 분석 모형 최종 평가 시에는 학습할 때 사용하지 않았던 데이터 사용
  • 정확도, 재현율 등의 평가지표를 분석 모형 성능 지표로 활용
  • 분석 모형 개발과 피드백 적용을 반복적으로 수행하여 분석 모형의 성능 향상

(2) 분석 결과 시나리오 적용 이유

  • 주요 업무 의사결정에 분석 결과가 어떻게 활용되어 업무를 효과적으로 수행할 수 있는지를 명확하게 이해하도록 도움
  • 분석을 업무 운영 프로세스에 반영할 때, 기존 프로세스가 변경되거나 신규 프로세스가 생성되는 등 업무 프로세스의 변화 발생
  • 분석 업무 프로세스 내재화 전: 데이터 분석 필요, 별도의 분석 진행 업무에 분석 참조
  • 분석 업무 프로세스 내재화 후: 운영 업무의 후행 액션이 분석에 의해 자동으로 실행되는 형태로 프로세스 지능화

2. 분석 모형 리모델링

  • 빅데이터 모형의 지속적인 성과모니터링을 통하여 편차가 일정수준 이상으로 지속적으로 하락하는 경우에 기존의 빅데이터 모형에 대하여 데이터 마이닝, 시뮬레이션, 최적화를 적용하는 개조 작업
  • 분석 모형 리모델링은 분기-반기-연 단위로 수행 (데이터 마이닝 - 분기별 / 시뮬레이션 - 반기 / 최적화 - 연 단위)
  • 일-주 단위 리모델링은 부적절 (특수분야 제외)
데이터 마이닝 동일한 데이터를 이용해 학습을 다시 수행하거나 변수를 추가해 학습을 다시 수행
시뮬레이션 이벤트 발생 패턴의 변화, 시간 지연의 볗놔, 이벤트를 처리하는 리소스 증가, 큐잉 우선순위, 자원 할당 규칙 변화 등 처리
최적화 오브젝트 함수의 계수 변형이나 제약조건에 사용되는 제약 값의 변화와 추가

 

  • 절차

 

1) 개선용 데이터 수집 및 처리

  • 빅데이터 분석 모델은 일정 기간이 지나고, 새로운 데이터가 입력되면 기존 모델에 대한 성능 떨어짐
  • 성능 떨어질 때 분석 모델에 대한 필요성 검토 후 개선 계획 수립
  • 절차: 분석 모델 현황 분석 → 성능 검토 → 개선 필요성 결정
  • 개선데이터는 기존 분석 모델을 개발할 때 사용한 데이터와 함께 추가하거나 제외할 데이터가 있는 재점검하여 개선 데이터로 선정
  • 개선 모델을 만들기 위한 데이터의 기본적인 현황 조사 수행
  • 현황 조사된 내역을 기록하고 데이터를 수집 및 정제하여 개선 모델을 수행할 수 있는 데이터의 형태로 변환
  • 고려사항: 데이터 활용도, 데이터 변경도, 신규 영향 데이터, 데이터 오류율, 기타 분석가가 분석 모델엘 영향이 있을 것으로 판단하는 데이터

2) 분석 모델 개선

  • 빅데이터 분석 알고리즘 수행은 빅데이터 분석 모델을 개발할 때와 동일한 절차로 수행
  • 개선 모델은 기존 모델보다 높은 성능을 보이는 모델로 선정될 수 있도록 매개변수를 조정하여 수행
  • 절차: 분석 알고리즘 선정 → 알고리즘 수행 및 분석 결과 기록
분석 알고리즘 선정 - 분석 모델에 대한 명확한 개선 목적 선정
- 개선 데이터 선정 및 유형 구분
- 기존에 빅데이터 분석 모델을 만들 때 활용한 데이터에 대한 변경 내역 조사
알고리즘 수행 및 분석 결과 기록 - 분석 수행 절차는 분석 모델 개발 절차와 동일하게 진행
- 훈련 데이터 및 검증 데이터, 시험 데이터를 구분할 때 신규로 추가된 데이터가 반영될 수 있도록 데이터 구분

 

3) 분석 결과 평가 및 분석 모델 등록

  • 최종 모델 선정 시에는 다양한 이해관계자가 모여 분석 모델에 대한 결과를 리뷰하고 검토 회의를 진행하여 최적의 분석 모델 선정
  • 이해 관계자에는 분석가, 데이터 처리자, 고객 등
  • 절차: 평가 기준 선정 → 분석 결과 검토 → 알고리즘 별 결과 비교
평가 기준 선정 - 최적의 분석 모델 선정을 위해 분석 모델에 대한 평가 기준 선정
분석 결과 검토 - 해당 모델의 실질적인 활용 가능성 검토
- 개선 모델의 구축 목적에 맞는 모델인지 검토
- 현업 적용 가능성 고려
알고리즘 별 결과 검토 - 분석 모델의 알고리즘별로 결과 비교
  • 유의사항
데이터 마이닝 최신 데이터 적용이나 변수 추가 방식으로 분석 모형 재조정
시뮬레이션 업무 프로세스 KPI의 변경 또는 주요 시스템 원칙 변경, 발생 이벤트의 건수 증가에 따라 성능 평가를 하고 필요 시 재조정
최적화 조건 변화나 가중치 변화 시 계수 값 조정 또는 제약조건 추가로 재조정

 

[데이터 시각화 차트 관련 도움되는 글]

 

데이터 시각화 차트 디자인에 필요한 사례와 종류 알아보기

다양한 데이터 시각화 유형 중 가장 적합한 형태를 어떻게 선택하면 좋을지 사례를 통해 알아봅니다.

modulabs.co.kr

 

 

데이터 시각화란? 시각화 툴 추천 등 자주 하는 질문 총정리 [FAQ] - 오픈서베이 블로그

데이터 작업을 처음 하는 실무자는 데이터 시각화 단계를 중요하게 여기지 않거나, 시각화를 잘하는 데 어려움을 겪습니다. 이번 글에서는 데이터 시각화 정의, 목적, 대표적인 데이터 시각화

blog.opensurvey.co.kr

 

 

빅데이터분석기사 필기 - 데이터 시각화 종류와 기출문제

데이터 시각화 데이터에 대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정이다. 선, 막대, 원 등의 기하나 도형과 같은 양식을 이용해 데이터의 특

ohaengsa.tistory.com

 


이전글

[빅데이터 분석기사] 4과목 빅데이터 결과 해석(1-1)

728x90
반응형