TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 3과목 빅데이터 모델링(3-1)

by 기록자_Recordian 2024. 3. 13.
728x90
반응형

[목차]

 

[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)

빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이

puppy-foot-it.tistory.com


빅데이터 모델링 - 분석 모형 설계

<분석 절차 수립>

1. 분석 모형 선정

  • 분석 목적에 부합하고 수집된 데이터의 변수들을 고려하여 적합한 빅데이터 분석 모형 선정
  • 현상에서 패턴을 발견하는 것은 탐색적 데이터 분석
  • 현상에서 인과적인 결론을 도출하는 것은 통계적 추론
  • 현상을 예측하는 것은 기계학습(머신러닝)
  • 통계, 데이터마이닝, 머신러닝 기반 분석 모델 기법을 고려하여 적합한 빅데이터 분석 모델 선정

(1) 통계기반 분석 모형 선정
통계분석, 기술 통계, 상관분석, 회귀분석, 분산 분석, 주성분 분석, 판별 분석

  • 통계분석: 불확실한 상황에서 객관적인 의사결정을 수행하기 위해 데이터를 수집하고, 처리, 분류, 분석 및 해석하는 일련의 체계
  • 어떤 현상을 추정하고 예측을 검정하는 확률-통계적 기법
  • 기술 통계: 데이터 분석의 목적으로 수집된 데이터를 확률-통계적으로 정리-요약하는 기초적인 통계
  • 상관분석: 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법 (단순 상관분석, 다중상관 분석, 변수 간의 상관 분석)
  • 회귀분석: 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법 (단순선형 회귀, 다중선형 회귀, 다항 회귀, 곡선 회귀, 로지스틱 회귀, 비선형 회귀)
  • 분산 분석: 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산의 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법 (일원분산 분석, 이원분산 분석, 다변량 분산 분석)
  • 주성분 분석(PCA): 많은 변수의 분산 방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계기법
  • 판별 분석: 집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 혹은 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계기법

(2) 데이터 마이닝 기반 분석 모형 선정
 
[데이터 마이닝]

  • 대용량 데이터로부터 데이터 내에 존재하는 패턴, 관계 혹은 규칙 등을 탐색하고 통계적인 기법들을 활용하여 모델화하며 이를 통해 데이터 분석 및 더 나아가 유용한 정보, 지식 등을 추출하는 과정
  • 기술(Description) 은 사람, 상품에 관한 이해를 증가시키기 위해 데이터가 가지고 있는 특징을 나타내고 설명에 대한 답을 제공

[모델 분류] - 분류 모델, 예측 모델, 군집화 모델, 연관규칙 모델
 
1) 분류 모델

  • 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 것
  • 다수의 속성 혹은 변수를 가지는 객체들을 사전에 정해진 그룹이나 범주 중의 하나로 분류하는 모델
  • 통계적 기법, 트리 기반 기법, 최적화 기법, 기계학습 모델

2) 예측 모델

  • 범주형 및 수치형 등의 과거 데이터로부터 특성을 분석하여 다른 데이터의 결괏값을 에측하는 기법
  • 회귀 분석, 의사결정나무, 인공신경망 모델, 시계열 분석 등

3) 군집화 모델

  • 군집화: 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 작업
  • 각 개체에 대해 관측된 여러 개의 변숫값에서 유사한 성격을 갖는 몇 개의 군집으로 집단화하여 군집들 사이의 관계를 분석 (다변량 분석 기법)
  • 계층적 방법: 사전에 군집 수를 정하지 않고 단계적으로 군집결과를 산출 (병합적 방법, 분할적 방법)
  • 비 계층적 방법: 군집을 위한 소집단의 개수를 정해놓고 각 객체 중 하나의 소집단으로 배정하는 방법 (k-평균 군집 등)

4) 연관규칙 모델

  • 데이터에 숨어 있으면서 동시에 발생하는 사건 혹은 항목 간의 규칙을 수치화하는 기법
  • 장바구니 분석이라고도 불리며 주로 마케팅에서 활용
  • 고객의 구매데이터를 분석하여 '어떠한 상품이 또 다른 어떠한 상품과 함께 판매될 확률이 높은가?'와 같은 연관된 규칙을 도출하는 기법

(3) 머신러닝 기반 분석 모형 선정
지도 학습, 비지도 학습, 강화 학습, 준지도 학습, 전이 학습
 
1) 지도 학습: 정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법

  • 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해 내는 것에 초점
  • 주로 인식, 분류, 진단, 예측 등의 문제 해결에 적합
  • 분석하고자 하는 목적변수의 형태가 수치형인가 범주형인가에 따라 분류와 수치예측 방법으로 다시 나눔
  • 로지스틱 회귀, 인공신경망 분석(ANN), 의사결정나무, 서포트 벡터 머신(SVM), 랜덤 포레스트, 감성 분석 등

2) 비지도 학습: 입력 데이터에 대한 정답인 레이블이 없는 상태에서 훈련 데이터를 통해 학습시키는 방법

  • 목적변수에 대한 정보 없이 학습이 이루어짐
  • 예측의 문제보다는 주로 현상의 설명이나 특징 도출, 패턴 도출 등의 문제에 많이 활용
  • 사전정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 데이터 마이닝의 성격이 더 강함
  • 군집화, 차원 축소 기법, 연관 관계분석, 자율학습 인공신경망
  • 딥러닝 기법에서도 입력 특성들의 차원을 축소하는 단게에서 비지도 학습 기법 적용

3) 강화 학습: 선택 가능한 행동 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 학습 방법

  • 컴퓨터가 선택한 행동에 대한 반응에 따라 보상이 주어짐
  • 행동의 결과로 나타나는 보상을 통하여 학습 진행
  • 보상을 최대한 많이 얻도록 하는 행동을 유도하도록 학습 진행

4) 준지도 학습: 정답인 레이블이 포함되어 있는 훈련 데이터와 레이블이 없는 훈련 데이터를 모두 훈련에 사용하는 학습 방법

  • 레이블이 일부만 있어도 데이터 다룰 수 있음
  • 일반적으로 정답인 레이블이 포함된 훈련 데이터가 적고 정답인 레이블이 없는 훈련 데이터를 많이 갖고 있음

5) 전이학습: 학습된 모형을 기반으로 최종 출력층을 바꾸어 재학습하는 알고리즘

  • 한 분야에서 학습한 결과를 학습한 적 없는 분야에 적용해서 학습하는 방법

(4) 변수에 따른 분석 기법 선정
 
1) 변수의 개수에 따라

  • 단일변수 분석: 변수 하나에 대해 기술 통계 확인을 하는 기법
연속형 변수 히스토그램이나 박스플롯을 사용해서 평균, 최빈수, 중위수 등과 함께 각 변수의 분포 확인
범주형 변수 막대형 그래프를 사용해서 빈도수 체크
  • 이변수 분석: 변수 2개 간의 관계를 분석하는 기법(변수의 유형에 따라 적절한 시각화 및 분석 방법 선택)
  • 다변수 분석: 세 개 이상의 변수 간의 관계를 시각화, 분석하는 기법
범주형 변수가 하나 이상 포함된 경우 변수를 범주에 따라 쪼갠 후, 단변수나 이변수 분석 방법에 따라 분석
세 개 이상의 연속형 변수가 포함된 경우 연속형 변수를 범주형 변수로 변환한 후 분석

 
2) 독립변수와 종속변수의 데이터 유형에 따른 분석 기법

독립변수와 종속변수가 주어진 경우 분석 기법 종속변수(Y)
연속형 변수 이산형/범주형 변수
독립변수(X) 연속형 변수 - 회귀분석
- 인공신경망 모델
- K-최근접 이웃기법
- 의사결정나무 (회귀 나무)
- 로지스틱 회귀 분석
- 판별 분석
- K-최근접 이웃기법
- 의사결정나무 (분류 나무)
이산형/범주형 변수 - 회귀 분석
- 인공신경망 모델
- 의사결정나무 (회귀 나무)
- 인공신경망 모델
- 의사결정나무 (분류 나무)
- 로지스틱 회귀 분석

 
[독립변수만 주어진 경우]

  • 연속형 변수: 주성분 분석, 군집 분석
  • 이산형/범주형 변수: 연관성 규칙, 판별 분석

(5) 분석기법 고려사항

  • 분석 모형을 구축하는 목적과 입력되는 데이터, 변수의 해석 가능 여부에 따라 기법 선택
  • 단일 모형을 선택하거나 다수의 모형을 조합한 앙상블 기법 선택

(6) 분석 모형 기법

  • 연관규칙학습: 변인 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
  • 분류 분석: 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용
  • 유전자 알고리즘: 최적화가 필요한 문제의 해결책을 자연 선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
  • 기계학습: 알려진 특성을 활용하여 훈련 데이터를 학습시키고 에측하는 기법
  • 회귀분석: 독립변수의 조작에 따른 종속변수의 변화를 확인하여 두 변수 간의 관계를 파악할 때 사용
  • 감성 분석: 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
  • 소셜 네트워크 분석: 특정인과 다른 사람이 어느 정도의 관계인가를 파악할 때 사용하고, 영향력 있는 사람을 찾아낼 때 사용

2. 분석 모형 정의

(1) 분석 모형 정의

  • 분석 모형을 선정하고 모형에 대한 적합한 변수를 선택하여 모형의 사양을 작성하는 기법
  • 선택한 모델에 가장 적합한 변수를 선택하기 위해 매개변수와 초매개변수 선정
매개변수
(Parameter)
- 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한 값
- 예측을 수행할 때, 모델에 의해 요구되어지는 값들
- 매개변수가 모델의 성능을 결정
- 매개변수는 측정되거나 데이터로부터 학습
- 사람에 의해 수작업으로 측정되지 않음
- 종종 학습된 모델의 일부로 저장
초매개변수
(Hyper Parameter)
- 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주는 값
- 모델의 매개변수값을 측정하기 위해 알고리즘 구현 과정에서 사용
- 초매개변수는 주로 알고리즘 사용자에 의해 결정
- 경험에 의해 결정 가능한 값
- 예측 알고리즘 모델링의 성능 등의 문제릉 위해 조절

 
(2) 분석 모형 정의 고려사항

  • 분석 대상인 데이터에 비해 모델이 너무 간단하면 과소 적합 발생
  • 모델을 너무 복잡하게 선택하면 과대 적합 발생
  • 모형에 적합하지 않은 오류 및 편향이 발생하지 않도록 주의
  • 모형 선택 오류: 적합하지 않은 함수 모형 생성
  • 변수 누락: 종속변수와 하나 또는 둘 이상의 독립변수 사이에 관계가 있지만 모델을 생성할 때 누락되는 경우
  • 부적합 변수 생성: 관련이 없는 변수가 모델에 포함된 경우
  • 동시 편향: 종속변수가 연립 방정식의 일부인 경우 동시 편향 발생

3. 분석 모형 구축 절차

출처:&amp;amp;nbsp;https://velog.io/@zinu/ADsP-데이터-분석-데이터-분석-기법의-이해

 
자세한 내용은 하단 링크 참고

 

업무 처리 프로세스 수립 및 운영

요건정의 본 요건정의 프로세스에서 나오는 내용은 기획단계에서 분석 과제 정의를 통해 도출된 내용이다. 그러나 기획단계에서는 상위 전략적 측면을 다루기 때문에 상세한 수준의 내용이 정

dataonair.or.kr

 


<분석 환경 구축>

1. 분석 도구 선정

  • 빅데이터 분석을 위한 대표적인 도구로는 R과 파이썬(Python)
  • R과 파이썬 모두 오픈 소스 프로그래밍 언어이고 많은 사용자 층을 형성하고 있으며 빅데이터 분석 분야에서 많이 사용되고 있는 분석 도구임

R과 파이썬 관련 상세 내용은 하단 링크 참고

 

오픈소스 언어로 만나는 데이터 분석, ‘파이썬’과 ‘R’ - 공개SW 포털

2017년 3월 20일 ⓒLG CNS, 이지현 기자(블로터닷넷) 데이터 저장과 처리 기술이 향상되면서, 데이터 분석 관련 인력 수요도 증가하고 있습니다. 데이터 분석은 구...

www.oss.kr


2. 데이터 분할

(1) 데이터 분할

  • 데이터를 훈련용 데이터, 검증용 데이터, 평가용 데이터로 분할하는 작업
  • 데이터 분할을 하는 이유는 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 과대 적합의 문제를 예방하여 2종 오류인 잘못된 귀무가설을 채택하는 오류를 방지하는데 목적

(2) 데이터 분할 시 고려사항

  • 훈련 데이터와 검증 데이터는 학습 과정에서 사용
  • 평가 데이터는 학습 과정에 사용되지 않고 오로지 모형의 평가를 위한 과정에만 사용
  • 검증 데이터를 사용하여 모형의 학습 과정에서 모형이 제대로 학습되었는지 중간에 검증 실시하고, 과대 적합과 과소 적합의 발생 여부 등을 확인하여 모형의 튜닝에도 사용
  • 학습이 완료된 모형에 대하여 한 번도 사용하지 않은 평가 데이터를 통하여 모형 평가, 이때 사용된 결과가 모형의 평가 지표
  • 데이터를 일반적으로 훈련 데이터와 검증 데이터를 60~80% 사용하고, 평가 데이터를 20~40%로 분할하지만 절대적인 기준은 아님
  • 훈련 데이터를 한 번 더 분할하여 훈련 데이터와 검증 데이터로 나누어서 사용
  • 데이터가 충분치 않을 경우 훈련 데이터와 평가 데이터로만 분할하여 사용
  • Early Stopping 사용 가능

이전글

빅데이터 분석기사] 2과목 빅데이터 탐색(2-2-2)

 
다음글

[빅데이터 분석기사] 3과목 빅데이터 모델링(3-2)

728x90
반응형