728x90
반응형
[목차]
빅데이터 결과 해석 - 분석 결과 해석 및 활용
<분석 결과 해석>
1. 분석 모형 해석
(1) 데이터 시각화
- 데이터에 대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정
- 선, 막대, 원, 등의 기하나 도형과 같은 양식을 이용해 데이터의 특징을 설명할 수 있는 모양으로 만들어 냄
- 색상, 레이블 등 특성을 활용하여 데이터 표현 가능
- 목적: 시각화 결과물을 이용하는 사용자가 주제에 대해 더 잘 이해하고 느끼게 하는 것 (정보 전달, 설득)
정보 전달 | 데이터의 진실을 간단하고 정확하게 전달, 분석 (실용적이고 과학적인 측면) |
설득 | 데이터를 통해 전달하고자 하는 메시지에 대한 공감, 설득 등의 반응 유도 (추상적이고 예술적 측면) |
- 유형: 시간, 분포, 관계, 비교, 공간
시간 시각화 | 시간 흐름에 따른 변화를 통해 트렌드를 파악 ▶ 막대그래프, 누적 막대 그래프, 선 그래프, 영역 차트, 계단식 그래프, 추세선 |
분포 시각화 | 분류에 따른 변화를 최대, 최소, 전체 분포 등으로 구분 (전체에서 부분 간 관계 설명) ▶ 파이 차트, 도넛 차트, 트리맵, 누적 영역 차트 |
관계 시각화 | 집단 간의 상관관계를 확인하여 다른 수치의 변화 예측 ▶ 산점도, 산점도 행렬, 버블 차트, 히스토그램, 네트워크 그래프 |
비교 시각화 | 각각의 데이터 간의 차이점과 유사성 관계도 확인 ▶ 플로팅 바 차트, 히트맵, 체르노프 페이스, 스타 차트, 평행 좌표계 |
공간 시각화 | 지도를 통해 시점에 따른 경향, 차이 등을 확인 ▶ 등치 지역도, 등치선도, 도트 플롯맵, 버블 플롯맵, 카토그램 |
- 절차: 구조화 → 시각화 → 시각표현
절차 | 구조화 | 시각화 | 시각 표현 |
설명 | - 데이터 시각화 목표 설정 - 분석 결과를 토대로 데이터의 표현 규칙과 패턴 탐색 - 시각화를 위한 요건 정의 - 사용자에 따른 시나리오 작성 - 스토리 구성 |
- 단순 명료한 메시지 전달을 위해 시각화 과정을 반복적으로 수행 - 구조화 단계에서 정의된 시각화 요건, 스토리를 기반으로 적절한 시각화 도구와 기술 선택 - 데이터 분석 정보의 시각화 구현 |
- 시각화 단계에서 만들어진 결과물 보정 - 정보 표현을 위한 그래픽 요소를 반영하여 그래픽 품질 향상 - 최종 시각화 결과물이 구조화 단계에서 정한 목적과 의도에 맞게 구현되었는지 확인 |
세부 단계 | - 시각화 목표 설정 - 데이터 표현 규칙과 패턴 탐색 및 도출 - 시각화 요건 정의 - 사용자 시나리오 및 시각화 스토리 작성 |
- 시각화 도구와 기술 선택 - 시각화 구현 |
- 그래프 보정 - 전달 요소 강조 - 그래프 품질 향상 - 인터랙션 기능 적용 - 시각화 결과물 검증 |
- 데이터 유형: 범주, 비율 / 추세, 패턴 / 관계, 연결
범주, 비율 | 범위 | - 값의 범위 파악 |
분포 | - 개별의 변수들, 변수의 조합이 갖는 분포 형태 파악 | |
순위 | - 크기를 기준으로 데이터 순서 확인 - 최댓값, 최솟값, 중위수, 사분위수 등 |
|
측정 | - 값이 갖는 중요성 파악 - 숫자 자체보다 깊이 있는 조사 수행 |
|
추세, 패턴 | 추세 방향 | -값이 증가하거나 감소하는 등 변화 확인 |
추세 패턴 | - 선형이나 지수형으로 변화 유무 확인 | |
추세 속도 | - 추세가 어느 정도로 급한지 확인 | |
변동 패턴 | - 반복되는 패턴, 변동 폭, 무작위 패턴 등 확인 | |
중요도 | - 확인한 패턴이 중요한 신호인지, 잡음인지 확인 | |
교차 | - 변수 사이에 교차, 중첩 발생 여부 - 교차점이 발생하는지 확인 |
|
관계, 연결 | 예외 | - 이상값과 같은 정상범위를 벗어난 변수 파악 |
상관성 | - 변수 간의 관련성이 강하거나 약한 상관관계 존재 확인 | |
연관성 | - 변수와 값의 조합 간 의미 있는 관계 파악 | |
계층 관계 | - 데이터 범주의 구성, 분포, 관련성 파악 |
<분석 결과 시각화>
1. 시공간 시각화
(1) 시간 시각화
- 시간에 따른 데이터의 변화를 표현한 시각화 방법
- 시계열 데이터에서 주요 관심 요소는 경향성(Trend), 추세선과 산점도의 경우 시간의 흐름에 따른 추세 파악 가능
- 시간 시각화는 시간의 흐름에 따라 변하는 데이터를 표현 ▶ 개별적인 데이터 보다는 전체적인 흐름 파악 필요
- 유형: 막대그래프, 누적 막대 그래프, 선 그래프, 영역 차트, 계단식 그래프, 추세선
(2) 공간 시각화
- 지도상에 해당하는 정보를 표현하는 시각화 방법
- 지도 위에 위치를 표시하기 위해 대부분 위도와 경도 사용
- 유형: 등치지역도, 등치선도, 도트 플롯맵, 버블 플롯맵, 카토그램 등
보다 자세한 내용은
2. 분포 시각화
- 데이터의 최댓값, 최솟값, 번체 분포 등을 나타내는 시각화 방법
- 시계열 데이터와 비슷하나, 구분 단위가 시간이 아니라 데이터가 차지하는 영역을 기준으로 한다는 점에서 차이
- 유형: 파이 차트, 도넛 차트, 트리맵, 누적 영역 차트 등
3. 관계 시각화
- 다변량 데이터 사이에 존재하는 변수 사이의 연관성, 분포와 패턴을 찾는 시각화 방법
- 상관관계: 변수 사이의 연관성
- 한 가지 요소의 변화가 다른 요소의 변화와 관련 있는지 표현하는 시각화 기법
- 유형: 산점도, 산점도 행렬, 버블 차트, 히스토그램,네트워크 그래프
4. 비교 시각화
- 다변량 변수를 갖는 자료를 제한된 2차원에 효과적으로 표현하는 시각화 방법
- 유형: 플로팅 바 차트(간트 차트), 히트맵, 체르노프 페이스, 스타 차트, 평행 좌표 그래프 등
5. 인포그래픽
- 중요 정보를 하나의 그래픽으로 표현해서 보는 사람들이 쉽게 정보를 이해할 수 있도록 만드는 시각화 방법
- 복잡하고 어려운 데이터를 더 쉽고 명확하게 이해할 수 있도록 그래픽과 텍스트를 균형 있게 조합
- 정보를 SNS 상에 쉽고 빠르게 전달
- 유형: 지도형, 도표형, 스토리텔링형, 타임라인형, 비교분석형, 만화형
- 활용방법
그래픽과 데이터 균형 | 인포그래픽에 포함된 정보는 깔끔하고 군더더기 없어야 함 |
퍼블릭 데이터 활용 | 구글 인사이트, 세계은행에서 나온 데이터 등을 효과적으로 사용 |
템플릿과 아이콘 배치 | 단순한 아이콘을 활용하여 데이터 설명에 도움 |
무료 툴 활용 | StatSilk, Many Eyes, Creately, Visual.ly 등 인포그래픽 제작 툴 활용 |
저작권 설정 | 홍보를 제한하는 선에서 인포그래픽스에 CCL을 생성하여 게재 |
인포그래픽스 홍보 | 메타, 인스타그램, X 등 SNS 를 적극적으로 활용 |
<분석 결과 활용>
1. 분석 결과 활용 시나리오 개발
(1) 분석 결과 활용 시 고려사항
- 분석 모형 최종 평가 시에는 학습할 때 사용하지 않았던 데이터 사용
- 정확도, 재현율 등의 평가지표를 분석 모형 성능 지표로 활용
- 분석 모형 개발과 피드백 적용을 반복적으로 수행하여 분석 모형의 성능 향상
(2) 분석 결과 시나리오 적용 이유
- 주요 업무 의사결정에 분석 결과가 어떻게 활용되어 업무를 효과적으로 수행할 수 있는지를 명확하게 이해하도록 도움
- 분석을 업무 운영 프로세스에 반영할 때, 기존 프로세스가 변경되거나 신규 프로세스가 생성되는 등 업무 프로세스의 변화 발생
- 분석 업무 프로세스 내재화 전: 데이터 분석 필요, 별도의 분석 진행 업무에 분석 참조
- 분석 업무 프로세스 내재화 후: 운영 업무의 후행 액션이 분석에 의해 자동으로 실행되는 형태로 프로세스 지능화
2. 분석 모형 리모델링
- 빅데이터 모형의 지속적인 성과모니터링을 통하여 편차가 일정수준 이상으로 지속적으로 하락하는 경우에 기존의 빅데이터 모형에 대하여 데이터 마이닝, 시뮬레이션, 최적화를 적용하는 개조 작업
- 분석 모형 리모델링은 분기-반기-연 단위로 수행 (데이터 마이닝 - 분기별 / 시뮬레이션 - 반기 / 최적화 - 연 단위)
- 일-주 단위 리모델링은 부적절 (특수분야 제외)
데이터 마이닝 | 동일한 데이터를 이용해 학습을 다시 수행하거나 변수를 추가해 학습을 다시 수행 |
시뮬레이션 | 이벤트 발생 패턴의 변화, 시간 지연의 볗놔, 이벤트를 처리하는 리소스 증가, 큐잉 우선순위, 자원 할당 규칙 변화 등 처리 |
최적화 | 오브젝트 함수의 계수 변형이나 제약조건에 사용되는 제약 값의 변화와 추가 |
- 절차
1) 개선용 데이터 수집 및 처리
- 빅데이터 분석 모델은 일정 기간이 지나고, 새로운 데이터가 입력되면 기존 모델에 대한 성능 떨어짐
- 성능 떨어질 때 분석 모델에 대한 필요성 검토 후 개선 계획 수립
- 절차: 분석 모델 현황 분석 → 성능 검토 → 개선 필요성 결정
- 개선데이터는 기존 분석 모델을 개발할 때 사용한 데이터와 함께 추가하거나 제외할 데이터가 있는 재점검하여 개선 데이터로 선정
- 개선 모델을 만들기 위한 데이터의 기본적인 현황 조사 수행
- 현황 조사된 내역을 기록하고 데이터를 수집 및 정제하여 개선 모델을 수행할 수 있는 데이터의 형태로 변환
- 고려사항: 데이터 활용도, 데이터 변경도, 신규 영향 데이터, 데이터 오류율, 기타 분석가가 분석 모델엘 영향이 있을 것으로 판단하는 데이터
2) 분석 모델 개선
- 빅데이터 분석 알고리즘 수행은 빅데이터 분석 모델을 개발할 때와 동일한 절차로 수행
- 개선 모델은 기존 모델보다 높은 성능을 보이는 모델로 선정될 수 있도록 매개변수를 조정하여 수행
- 절차: 분석 알고리즘 선정 → 알고리즘 수행 및 분석 결과 기록
분석 알고리즘 선정 | - 분석 모델에 대한 명확한 개선 목적 선정 - 개선 데이터 선정 및 유형 구분 - 기존에 빅데이터 분석 모델을 만들 때 활용한 데이터에 대한 변경 내역 조사 |
알고리즘 수행 및 분석 결과 기록 | - 분석 수행 절차는 분석 모델 개발 절차와 동일하게 진행 - 훈련 데이터 및 검증 데이터, 시험 데이터를 구분할 때 신규로 추가된 데이터가 반영될 수 있도록 데이터 구분 |
3) 분석 결과 평가 및 분석 모델 등록
- 최종 모델 선정 시에는 다양한 이해관계자가 모여 분석 모델에 대한 결과를 리뷰하고 검토 회의를 진행하여 최적의 분석 모델 선정
- 이해 관계자에는 분석가, 데이터 처리자, 고객 등
- 절차: 평가 기준 선정 → 분석 결과 검토 → 알고리즘 별 결과 비교
평가 기준 선정 | - 최적의 분석 모델 선정을 위해 분석 모델에 대한 평가 기준 선정 |
분석 결과 검토 | - 해당 모델의 실질적인 활용 가능성 검토 - 개선 모델의 구축 목적에 맞는 모델인지 검토 - 현업 적용 가능성 고려 |
알고리즘 별 결과 검토 | - 분석 모델의 알고리즘별로 결과 비교 |
- 유의사항
데이터 마이닝 | 최신 데이터 적용이나 변수 추가 방식으로 분석 모형 재조정 |
시뮬레이션 | 업무 프로세스 KPI의 변경 또는 주요 시스템 원칙 변경, 발생 이벤트의 건수 증가에 따라 성능 평가를 하고 필요 시 재조정 |
최적화 | 조건 변화나 가중치 변화 시 계수 값 조정 또는 제약조건 추가로 재조정 |
[데이터 시각화 차트 관련 도움되는 글]
이전글
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터 분석기사] 4과목 기출문제 오답노트 (0) | 2024.03.19 |
---|---|
[빅데이터 분석기사] 1과목 기출 문제 오답노트 (0) | 2024.03.16 |
[빅데이터 분석기사] 4과목 빅데이터 결과 해석(1) (0) | 2024.03.15 |
[빅데이터 분석기사] 3과목 빅데이터 모델링(3-2-2) (0) | 2024.03.14 |
[빅데이터 분석기사] 3과목 빅데이터 모델링(3-2-1) (0) | 2024.03.14 |