TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (2-1)

by 기록자_Recordian 2024. 3. 11.
728x90
반응형

[목차]

 

[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)

빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이

puppy-foot-it.tistory.com


빅데이터 분석 기획 - 데이터 분석 계획

<분석 방안 수립>

1. 분석 로드맵 설정

(1) 개념

분석 단계별로 추진하고자 하는 목표를 명확히 정의하고,

선-후행 단계를 고려해 단계별 추진내용을 정렬하는 종합적인 계획

 

(2) 단계

 

데이터 분석체계 도입 → 데이터 분석 유효성 검증 → 데이터분석 확산 및 고도화

단계 추진과제 추진목표
데이터
분석체계 도입
- 분석 기회 발굴
- 분석 과제 정의
- 로드맵 수립
- 비즈니스 약점이 무엇인지 식별
- 분석 과제를 정의하고 로드맵 수립
데이터 분석
유효성 검증
- 분석 알고리즘 설계
- 아키텍트 설계
- 분석 과제 파일럿 수행
- 분석 과제에 대한 파일럿 수행
- 유효성, 타당성을 검증
- 기술 실현 가능성을 검증
- 분석 알고리즘 및 아키텍트 설계
데이터 분석
확산 및 고도화
- 변화관리
- 시스템 구축
- 유관 시스템 고도화
- 검증된 분석 과제를 업무 프로세스에 내재화하기 위한 변화관리 실시
- 빅데이터 분석, 활용 시스템 구축 및 유관시스템을 고도화

 

2. 분석 문제 정의

(1) 분석 문제의 의미

  • 과제: 처리해야 할 이슈
  • 분석: 과제와 관련된 현상이나 원인, 해결방안에 대한 자료를 수집 및 분석하여 의사결정에 활용하는 활동
  • 문제: 기대 상태와 현재 상태를 동일한 수준으로 맞추는 과정
  • 제약조건을 파악하고, 잠재 원인을 진단하고 관련된 데이터를 수집, 가공, 분석하는 활동 수행
  • 하향식 접근 방식과 상향식 접근 방식을 반복적으로 수행하면서 상호 보완하여 분석 과제를 발굴
  • 과제 발굴 이후 '분석 과제 정의서' 산출물 작성

(2) 하향식 접근 방식 (Top Down Approach)

  • 분석 과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법
  • 비즈니스 모델 캔버스 사용
  • 발굴 절차: 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 검토 → 선택
순서 단계 내용
1 문제 탐색 - 비즈니스 모델 기반 문제 탐색(업무, 제품, 고객, 규제와 감사, 지원 인프라 5가지 영역으로 기업 비즈니스 분석)
- 분석 기회 발굴의 범위 확장 (거시적, 경쟁사, 시장, 역량)
- 외부 참조 모델 기반 문제 탐색 (동종 사례 벤치마킹)
- 분석 유스케이스 정의
2 문제 정의 - 사용자 관점에서 비즈니스 문제를 데이터 문제로 변환하여 정의
- 필요한 데이터 및 기법 정의
3 해결방안 탐색 - 정의된 문제를 해결하기 위해 분석 기법 및 역량에 따라 다양한 방안으로 탐색
- 데이터, 시스템, 인력 등에 따라 소요되는 예산 및 활용 가능한 도구를 다양하게 고려
4 타당성 검토 - 제시된 대안에 대한 타당성 평가 수행
- 경제적 타당성 (비용 대비 편익) 검토
- 데이터 및 기술적 타당성 검토 (데이터 존재 여부, 분석시스템 환경 분석, 데이터 분석 역량 존재 여부)
- 운영적 타당성 검토(조직의 문화, 여건 등을 감안하여 실제 운영 가능성에 대한 타당성 평가)
5 선택 - 여러 대안 중 타당성에 입각하여 최적 대안의 선택하여 이를 프로젝트화 하고 계획단계의 입력 정보로 설정

 

(3) 상향식 접근 방식 (Bottom Up Approach)

  • 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식
  • 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론
  • 디자인 사고 접근법을 사용하여 객관적인 데이터 그 자체를 관찰하고 실제적으로 행동에 옮겨 대상을 이해하는 방식 적용

[특징]

특징 설명
비지도 학습 방법 사용 - 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태 분석
- 장바구니 분석, 군집 분석, 기술통계, 프로파일링 등의 기술 사용
프로토타이핑
접근법 사용
- 시행착오를 통한 문제 해결을 위해 사용
- 가설의 생성, 디자인에 대한 실험, 실제 환경에서의 테스트, 테스트 결과에서의 통찰 도출 및 가설 확인의 프로세스로 실행

 

[절차]

프로세스 분류 → 프로세스 흐름 분석 → 분석 요건 식별 → 분석 요건 정의

단계 설명
프로세스 분류 전사 업무 프로세스를 가치사슬, 메가 프로세스, 메이저 프로세스, 프로세스 단계로 구조화해 업무 프로세스 정의
프로세스 흐름 분석 프로세스 맵을 통해 프로세스별로 업무 흐름을 상세히 표현
분석 요건 식별 각 프로세스 맵상의 주요 의사결정 포인트 식별
분석 요건 정의 각 의사결정 시점에 무엇을 알아야만 의사결정을 할 수 있는지 정의

 

(4) 대상별 분석 기획 유형

대상별 분석 기획 (4가지)
출처:&nbsp; &nbsp;https://blog.naver.com/yamyamsis/223104608246

 

유형 설명
최적화
(Optimization)
- 분석의 대상이 무엇인지를 인지하고 있고 이미 분석의 방법도 인지하고 있는 경우
- 개선을 통한 최적화 형태로 분석 수행
솔루션
(Solution)
- 분석의 대상이 무엇인지를 인지하고 있으나 분석의 방법을 모르는 경우
- 해당 분석 주제에 대한 솔루션을 찾아냄
통찰
(Insight)
- 분석의 방법은 인지하고 있으나 분석의 대상이 명확하게 무엇인지 모르는 경우
- 기존 분석 방식을 활용하여 새로운 지식인 통찰을 도출
발견
(Discovery)
- 분석의 대상과 방법을 모르는 경우
- 분석의 대상 자체를 새롭게 도출

 

(5) 분석 마스터플랜 수립

분석 마스터 플랜 수립
분석 마스터 플랜 수립

  • 중-장기적 마스터플랜 수립을 위해 분석 과제를 대상으로 다양한 기준을 고려하여 우선순위를 설정
  • 일반적인 IT 프로젝트의 우선순위는 전략적 중요도와 실행 용이성을 기준으로 평가
  • 데이터 분석 과제의 우선 순위 평가 기준은 일반 IT 프로젝트에서의 우선 순위 평가 기준과 다르게 빅데이터 관점에서 검토
  • 빅데이터의 특징인 4V를 ROI 관점으로 검토하여 3V는 투자비용, Value는 비즈니스 효과 측면에서 검토
  • 일반적인 ISP 방법론을 활용하되 데이터 분석 기획의 특성을 고려하여 수행
  • 중-장기적 관점의 마스터플랜 수립을 위해서는 분석 과제를 대상으로 전략적 중요도, 비즈니스 성과 및 ROI, 분석 과제의 실행 용이성 등 다양한 기준을 고려하여 적용할 우선 순위 설정

[수립 기준]

구분 기준 설명 결과
우선 순위
고려 요소
전략적 중요도 및 목표 가치 전략적 필요성과 시급성을 고려 적용 우선 순위 설정
비즈니스 성과 및 ROI 비즈니스 성과에 따른 투자 여부 판단
실행 용이성 프로젝트 추진 가능 여부
적용 범위/방식
고려 요소
업무 내재화 적용 수준 업무에 내재화하거나 별도의 분석화면으로 적용할 것인지 결정 분석 구현을 위한
로드맵 수립
분석 데이터 적용 수준 내부 데이터/외부 데이터 범위 결정
기술 적용 수준 분석 기술의 범위 및 방식 고려

 

(6) 분석과제 우선 순위 평가

  • 분석과제 우선순위 평가는 정의된 데이터 과제에 대한 실행순서를 정하는 방법
  • 기준에 따라 평가한 후 과제의 선-후행 관계를 고려하여 적용 순위 확정
  • 우선순위 평가 기준은 시급성과 난이도
구분 설명
시급성 - 목표 가치와 전략적 중요도에 부합하는지에 따른 시급성이 가장 중요한 기준
- 시급성의 판단 기준은 전략적 중요도가 핵심사항
- 분석 과제의 목표 가치와 전략적 중요도를 현재의 관점에 둘 것인지, 미래의 관점에 둘 것인지를 함께 고려하여 시급성 여부 판단 필요
난이도 - 현재 기업의 분석 수준과 데이터를 생성, 저장, 가공, 분석하는 비용을 고려한 난이도는 중요한 기준
- 난이도는 현 시점에서 과제를 추진하는 것이 범위 측면과 적용 비용 측면에서 바로 적용하기 쉬운 것인지 또는 어려운 것인지에 대한 판단 기준으로 데이터 분석의 적합성 여부의 기준이 됨

 

분석 과제 우선순위 선정 매트릭스
분석 과제 우선순위 선정 매트릭스

  • 분석 과제의 적용 우선순위 기준을 '시급성'에 둘 경우: III → IV → II
  • 우선 순위 기준을 '난이도'에 둘 경우: III → I → II
I.
전략적 중요도가 높아 경영에 미치는 영향이 크므로 현재 시급하게 추진 필요
난이도가 높아 현재 수준에서 과제를 바로 적용하기에 어려움

II. (전략적 중요도가 현재 시점에서는 상대적으로 낮은 편이지만 중장기적으로는 경영에 미치는 영향도가 높고, 분석 과제를 바로 적용하기 어려워 우선순위가 낮은 영역)
현재 시점에서는 전략적 중요도가 높지 않지만 중장기적 관점에서는 반드시 추진되어야 함
분석과제를 바로 적용하기에는 난이도가 높음

III. (가장 우선적인 과제 적용이 필요한 영역)
전략적 중요도가 높아 현재 시점에 전략적 가치를 두고 있음
과제 추진의 난이도가 어렵지 않아 우선적으로 바로 적용 가능할 필요성이 있음

IV.
전략적 중요도가 높지 않아 중장기적 관점에 과제 추진이 바람직함
과제를 바로 적용하는 것은 어렵지 않음

 


3. 데이터 분석 방안

(1) 빅데이터 분석 방법론 개념

  • 계층적 프로세스 모델로써 3계층으로 구성 (단계, 태스크, 스텝)
계층 설명
단계 (Phase) - 프로세스 그룹을 통하여 완성된 단게별 산출물이 생성, 기준선으로 설정 관리하며, 버전 관리 등을 통해 통제 필요
- 각 단계는 여러 개의 태스크로 구성
태스크 (Task) - 단계를 구성하는 단위 활동
- 각 태스크는 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
스텝 (Step) - WBS의 워크 패키지에 해당
- 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스

 

(2) 빅데이터 분석 방법론의 분석 절차

 

빅데이터 분석 방법론
출처: https://ohaengsa.tistory.com

 

(3) 분석 방법론 유형

 

① KDD (Knowledge Discovery in Databases) 분석 방법론

[개념]

프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론 (Fayyad, 1996년)

 

[절차]

  • 데이터 세트 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 데이터 마이닝 결과 평가
  • 데이터로부터 목표 데이터, 전처리 데이터, 변환 데이터, 패턴을 통해 지식을 생성

② CRISP-DM (Cross Industry Standard Process for Data Mining) 분석 방법론

[개념]

비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계로 진행되는 데이터 마이닝 방법론

1996년 EU의 ESPRIT 프로젝트에서 시작한 방법론으로 1997년 SPSS 등이 참여하였으나 현재에는 중단

 

[구성]

구성 설명
단계 최상위 레벨
일반화 태스크 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위 
세분화 태스크 일반화 태스크를 구체적으로 수행하는 레벨
프로세스 실행 데이터 마이닝을 위한 구체적인 실행

 

[절차]

crisp-dm 분석 방법론 및 절차
출처;&nbsp; https://blog.naver.com/yjhead/222097700747

1) 업무 이해

  • 각종 참고 자료와 현업 책임자와의 커뮤니케이션을 통해 비즈니스를 이해하는 단계
  • 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립

2) 데이터 이해

  • 분석을 위한 데이터를 수집 및 속성을 이해하고, 문제점을 식별하며 숨겨져 있는 인사이트를 발견하는 단계
  • 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

3) 데이터 준비

  • 데이터 정제, 새로운 데이터 생성 등 자료를 분석 가능한 상태로 만드는 단계
  • 데이터 준비에 많은 시간이 소요
  • 분석용 데이터 세트 선택, 데이터 정제, 데이터 통합, 학습/검증 데이터 분리 등 수행

4) 모델링

  • 다양한 모델링 기법과 알고리즘을 선택하고 매개변수를 최적화하는 단계
  • 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가를 수행

5) 평가

  • 모형의 해석 결과가 프로젝트 목적에 부합하는지 평가하고 결과의 수용 여부를 판단하는 단계
  • 평가에 많은 시간이 소요
  • 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가 수행

6) 전개

  • 모델링과 평가 단계를 통해 완성된 모델을 업무에 적용하기 위한 계획을 수립하는 단계
  • 전개에 많은 시간이 소요
  • 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

 

 

③ SEMMA (Sampling Exploration Modification Modeling Assessment) 분석 방법론

 

[개념]

분석 솔루션 SAS 사가 주도한 통계 중심의 5단계 (샘플링 → 탐색 → 수정 → 모델링 → 검증) 방법론

 

[절차]

절차 설명
샘플링 - 통계적 추출, 조건 추출을 통한 분석 데이터 생성
- 비용 절감 및 모델 평가를 위한 데이터 준비
탐색 - 기초통계, 그래프 탐색, 요인별 분할표, 클리스터링, 변수 유의성 및 상관 분석을 통한 분석 데이터 탐색
- 데이터 조감을 통한 데이터 오류 탐색
- 모델의 효율 증대
- 데이터 현황을 통해 비즈니스 이해, 아이디어를 위해 이상현상, 변화 등을 탐색
수정 - 수량화, 표준화, 각종 변환, 그룹화를 통한 분석 데이터 수정/변환하는 단계
- 데이터가 지닌 정보의 표현 극대화
- 최적의 모델을 구축할 수 있도록 다양한 형태로 변수를 생성, 선택, 변형
모델링 - 신경망, 의사결정나무, 로지스틱 회귀 분석, 전통적 통계를 이용한 모델을 구축하는 단계
- 데이터의 숨겨진 패턴 발견
- 하나의 비즈니스 문제 해결을 위해 특수한 모델과 알고리즘 적용 가능
검증 - 모델에 대한 평가 및 검증을 수행하는 단계
- 서로 다른 모델을 동시에 비교
- 추가로 분석을 수행할 지 여부 결정

 


이전글

[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (1-2)

 

다음글

[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (2-2)

728x90
반응형