TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 3과목 빅데이터 모델링(3-2-2)

by 기록자_Recordian 2024. 3. 14.
728x90
반응형

[목차]

[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)

빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이

puppy-foot-it.tistory.com


빅데이터 모델링 - 분석 기법 적용

<고급 분석 기법>

1. 범주형 자료 분석

  • 독립변수와 종속변수가 모두 범주형 데이터 (명목형/순서형) 이거나 둘 중 하나가 범주형 데이터일 때 사용
  • 각 집단 간의 비율 차이를 비교하기 위해 사용하며, 독립변수와 종속변수의 척도에 따라 분석 기법 다름
독립변수종속변수분석 방법
범주형범주형- 분할표 분석
- 카이제곱 검정
- 피셔의 정확 검정
범주형수치형- T-검정 (독립변수 2개 이하)
- 분산 분석 (독립변수 3개 이상)
수치형범주형- 로지스틱 회귀 분석
수치형수치형- 상관 분석, 회귀 분석

 
(1) 분할표 분석

  • 분할표를 이용한 범주형 자료 분석은 상대위험도와 승산비를 통하여 분석
  • 일원 분할표: 1개의 범주형 변수 (One-Way)
  • 이원 분할표: 2개의 범주형 변수 (Two-way)
  • 다원 분할표: 3개 이상의 범주형 변수 (Multi-way)
  • 분할표의 행은 독립변수, 열은 종속변수로 배치
  • 분할표의 각 행의 마지막 행과 각 열의 마지막 열에는 총계 데이터 표시 (Margin Sum)
  • 상대위험도: 과심 집단의 위혐률과 비교 집단의 위험률에 대한 비
  • 승산(Odds): 특정 사건이 발생할 확률과 그 사건이 발생하지 않을 확률의 비
  • 승산비(Odds Ratio): 특정 조건이 있을 때의 성공 승산을 다른 조건이 있을 때의 성공 승산으로 나눈 값

(2) 카이제곱 검정 유형

  • 범주형 자료 간의 차이를 보여주는 분석 방법 (편차의 제곱 값을 기대빈도로 나눈 값들의 합)
  • 관찰된 빈도가 기대되는 빈도와 유의하게 다른지의 여부를 검정하기 위해 사용
  • 기대빈도는 귀무가설에 따라 계산
  • 귀무가설이 기각되면 범주별 기대빈도의 값과 관측빈도의 값의 차이가 충분히 크다고 할 수 있음
  • 기대빈도는 관측빈도의 총합에 범주별 확률을 곱해서 구해지므로 기대빈도의 합과 관측빈도의 합은 귀무가설의 기각 여부에 상관 없이 같음
  • 기대빈도가 5 이하인 셀이 전체의 20%가 넘지 않아야 되며, 5보다 적으면 사례 수 증가 시켜야 함
  • 적합도 검정, 독립성 검정, 동질성 검정으로 분류

1) 적합도 검정

  • 변수가 1개이고 그 변수가 2개 이상의 범주로 구성되어 있을 때 사용하는 일변량 분석 방법
  • 표본 집단의 분포가 주어진 특저 분포를 따르고 있는지 검정
  • 자료를 구분하는 범주가 상호 배타적이어야 함
  • 귀모가설은 '표본 집단의 분포가 주어진 특정 분포를 따른다'고 설정
  • 관찰 빈도와 기대빈도의 차이가 클수록 귀무가설을 기각할 확률 높아짐

2) 독립성 검정

  • 변수가 두 개 이상의 범주로 분할되어 있을 때 사용
  • 각 범주가 서로 독집적인지, 연관성이 있는지를 검정
  • 기대빈도는 '두 변수가 서로 상관이 없고 독립적' 이라고 기대하는 것을 의미
  • 관측빈도와의 차이를 통해 기대빈도의 진위 여부 밝힘
  • 귀무가설은 '요인 1과 요인 2는 독립적'이라고 설정

3) 동질성 검정

  • 각각의 독립적인 부모집단으로부터 정해진 표본의 크기만큼 자료를 추출하는 경우에 관측값들이 정해진 범주 내에서 서로 동질한지 여부 검정
  • 귀무가설은 '모집단은 동일'하다고 설정
  • 독립성 검정과 개념상의 차이만 있을 뿐 계산 방식은 동일

(3) 피셔의 정확 검정

  • 분할표에서 표본 수가 적거나 표본이 셀에 치우치게 분포되어 있을 경우 실시
  • 범주형 데이터에서 기대빈도가 5 미만인 셀이 20%를 넘는 경우 카이제곱 검정의 정확도가 떨어지므로 실시

(4) T-검정

  • 독립변수가 범주형이고, 종속변수가 수치형일 때 두 집단의 평균을 비교하는 검정 방법
  • 두 집단 간의 평균을 비교하는 모수적 통계 방법
  • 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용

1) 단일 표본 T-검정: 한 집단의 평균이 모집단의 평균과 같은지 검정

  • 모집단의 평균이 알려져 있는 경우 하나의 표본 집단의 평균을 구하고 모집단의 평균과 표본 집단의 평균이 같은지 검정
  • 표본 집단의 수가 1개가 됨

2) 대응 표본 T-검정: 동일한 집단의 처치 전후 차이를 알아보기 위해 사용

  • 한 그룹의 처치 전 데이터와 처치 후 데이터를 분석

3) 독립 표본 T-검정: 데이터가 서로 다른 모집단에서 추출될 경우 사용

  • 두 집단의 평균 차이 검정
  • 정규성, 등분산성 가정이 만족되는 지 먼저 확인
  • 표본이 둘, 독립변수가 1개일 때 사용

2. 다변량 분석

  • 여러 현상이나 사건에 대한 측정치를 개별적으로 분석하지 않고 동시에 분석 (관계성 고려)

(1) 유형

  • 다중 회귀분석: 독립변수가 K개이며 종속변수와의 관계가 선형인 회귀분석 기법
  • 다변량 분산 분석: 독립변수가 1개 이상이고 종속변수가 2개 이상일 때 두 집단 간 평균 차이를 검증
  • 판별 분석: 분류된 집단 간의 차이르 ㄹ설명해 줄 수 있는 독립변수들로 이루어진 최적판별식을 찾기 위한 기법
  • 다차원 척도법: 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현
  • 군집 분석: 관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 집단의 특성 분석
  • 요인 분석: 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석 (데이터 안에 관찰할 수 없는 잠재적인 변수가 존재한다고 가정)
  • 주성분 분석: 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법

(2) 판별 분석

  • 집단 간의 차이를 설명해줄 수 있는 독립변수들로 만든 최적의 판별 함수를 찾고, 새로운 개체에 대하여 어느 집단에 속하는지를 판별하여 분류하는 탐색적인 통계 기법
  • 종속변수가 범주형이고 독립변수가 연속형일 때 사용
  • 판별 분석: 종속변수의 집단 수가 2개
  • 다중판별분석: 종속변수의 집단 수가 3개 이상
  • 판별함수: 그룹 내 분산 대비 그룹 간 분산의 차이를 최대화하는 독립변수들의 판별계수 (독립변수들의 선형결합으로 나타냄)
  • 판별함수의 수는 그룹의 수-1 과 독립변수의 수 중에서 더 작은 값만큼 만들어짐
  • 변수 선택  → 판별함수 생성 → 적합도 평가 → 예측

(3) 다차원 척도법

  • 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법
  • 목적: 데이터 축소, 의미 부여, 기하적 표현
  • 개체들의 거리는 유클리드 거리행렬 이용
  • 스트레스 값을 이용하여 관측 대상들의 적합도 수준 나타냄
  • 스트레스 값은 0에 가까울수록 적합도 수준 완벽, 1에 가까울수록 나쁨
  • 종류: 계량적 다차원 척도법, 비 계량적 다차원 척도법
  • 해석에는 개체 간 그룹, 개체 간 순서, 축의 해석 등 고려

(4) 요인 분석

  • 변수 간의 상관관계를 고려하여 서로 유사한 변수들을 묶어 새로운 잠재요인들을 추출
  • 목적: 변수를 축소, 불필요한 변수 제거, 변수 특성 파악, 측정항목 타당성 평가, 요인점수를 이용한 변수 생성
  • 학습절차: 데이터 입력 → 상관계수 산출 → 요인 추출 → 요인 적재량 산출 → 요인 회전 → 생성된 요인 해석 → 요인점수 산출

3. 주성분 분석 (PCA; Principal Component Analysis)

  • 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원 축소 방법
  • 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소
  • 차원 축소 시 변수 추출 방법 사용
  • 행렬분해기법
  • 수학적으로 직교 선형 변환으로 정의
  • 변동 폭이 큰 축을 선택
  • 차원축소는 고윳값이 높은 순으로 정렬해서 높은 고윳값을 가진 고유벡터만으로 데이터 복원
  • 누적 기여율이 70~90% 사이면 주성분의 수로 결정
  • 차원 감소폭의 결정은 스크리 산점도, 전체 변이의 공헌도, 평균 고윳값 등을 활용
  • 차원의 저주에 대한 접근 방법 중 하나
  • 절차: 축 생성 → 축에 데이터 투영 → 차원 축소
  • 목적: 차원축소, 다중공선성 해결
차원 축소여러 변수 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분 또는 요인으로 차원을 축소함으로써 데이터 이해가 용이
다중곤선성 해결비 상관도가 높은 변수들을 하나의 주성분 혹은 요인으로 축소하여 모형개발에 활용
출처;&amp;nbsp;https://velog.io/@woongstar/%EC%A3%BC%EC%84%B1%EB%B6%84-%EB%B6%84%EC%84%9D

 
[주성분 개수 선택 방법]

  • 전체 변이의 공헌도: 표준편차를 제곱하면 해당 주성분의 분간 값 산출 가능
  • 평균 고윳값: 고윳값들의 평균을 구한 후 고윳값이 평균값 이상이 되는 주성분을 선택하는 방법
  • 스크리 산점도: 기울기가 완만해지기 직전까지를 주성분 수로 결정 (x축에 주성분, y축에 각 주성분의 분산을 표현)
출처:&amp;nbsp;https://datasciencee.tistory.com/5#google_vignette

4. 시계열 분석 (Time-Series Data)

  • 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석 기법
  • 목적: 외부인자와 관련해 계절적인 패턴과 같은 요소를 설명할 수 있는 모델 결정
  • x축에는 시간, y축에는 관측값
  • 시계열 데이터는 규칙적, 불규칙한 특징
  • 시계열 데이터는 시간의 흐름에 따라 관측되는 자료이므로 대체로 독립적이지 않음
  • 정상성: 시점에 상관없이 시계열의 특성이 일정하다는 의미 (시계열 분석을 위해서는 정상성을 만족해야 함)
  • 자기 회귀 모형: 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있는 모형
  • 이동평균 모형 (MA): 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 모형 (과거의 몇 개 관측치를 평균하여 전반적인 추세 파악)
  • 자기 회귀 누적 이동평균 모형(ARIMA): 분기/반기/연간 단위로 다음 지표를 예측하거나 주간/월간 단위로 지표를 리뷰하여 트렌드 분석 (비정상 시계열 모형 - 차분이나 변환을 통해 AR 모형이나 MA 모형, ARMA 모형으로 정상화)
  • 시계열 분해: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석 (시계열을 분리하는 분해식 사용)
  • 시계열 분해 구성요소: 추세 요인, 계절 요인, 순환 요인, 불규칙 요인
추세 요인자료가 어떤 특정한 형태를 취함
계절 요인고정된 주기에 따라 자료가 변화할 경우
순환 요인알려지지 않은 주기를 가지고 자료가 변화
불규칙 요인추세, 계절, 순환 요인으로 설명할 수 없는 회귀 분석에서 잔차에 해당하는 요인

 

출처:&amp;nbsp;https://ysyblog.tistory.com/179

 


5. 딥러닝 분석

  • 여러 비선형 변환 기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습 알고리즘의 집합
  • 기존 인공신경망 모델의 문제점인 기울기 소실 해결
  • 강력한 GPU를 연산에 활용하여 하드웨어 연산속도를 높여 분석시간 단축
  • GPU: 메몰리를 짜르게 처리하고, 화면으로 출력할 프레임 버퍼 안의 영상 생성을 가속하도록 설계된 고성능 그래픽 처리 장치
  • 빅데이터의 등장과 SNS 활용 증가로 학습에 필요한 데이터 확보 가능
  • 오차역 전파 사용
  • ReLU 와 같은 활성화 함수 많이 사용
  • 은닉층을 사용하여 결과에 대한 해석 어려움
  • Dropout은 일정한 비율을 가지고 무작위로 신경망 제거

(1) 딥러닝 알고리즘
 
1) DNN(Depp Neural Network, 심층 신경망): 은닉층을 심층 구성한 신경망으로 학습하는 알고리

출처:&amp;nbsp;https://hong-zone17.tistory.com/76

 
2) CNN (Convolution Neural Network, 합성곱 신경망): 시각적 이미지를 분석하는 데 사용되는 심층 신경망

  • 필터 기능 + 신경망
  • 필터 기능을 이용하여 입력 이미지로부터 특징을 추출한 뒤 신경망에서 분류작업 수행

[영상] 컨벌루션 뉴런 네트워크(CNN) 란 무엇인가? - 인공지능신문

아래 영상은 매스웍스의 MATLAB ® Tech Talk에서 컨볼루션 뉴런 네트워크(CNN, Convolutional Neural Network)의 기본 원리를 살펴보고 CNN이 일반적인 딥러닝 아키텍처이지만 CNN은 정확히 무엇인가? 를 알아보

www.aitimes.kr

출처;&amp;nbsp;https://www.aitimes.kr/news/articleView.html?idxno=11294

 
3) RNN (Recurrent Neural Network, 재귀 신경망): 은닉층에서 재귀적인 신경망을 갖는 알고리즘

  • 음성신호, 연속적 시계열 데이터 분석에 적합
  • 장기 의존성 문제와 기울기 소실문제가 발생하여 학습이 이루어지지 않을 수 있음

RNN(순환 신경망)이란?

RNN(순환 신경망)은 시계열 또는 순차 데이터를 예측하는 일종의 딥러닝 모델입니다. 비디오와 코드 예제를 통해 시작할 수 있습니다.

kr.mathworks.com

 
4) LSTM(Long Short-Term Memory): RNN의 장기의존성 문제를 보완하기 위해 설계한 신경망 알고리즘

  • 입력 게이트, 망각 게이트, 출력 게이트로 구성

5) 오토인코더 알고리즘: 입력 데이터를 최대한 압축 시킨 후, 압축된 데이터를 다시 본래의 입력 형태로 복원시키는 신경망

  • 비지도 학습 신경망
  • 인코더: 인지 네크워크, 입력을 내부 표현으로 반환. 차원 축소 역할
  • 디코더: 생성 네트워크, 내부 표현을 출력으로 변환. 생성 모델의 역할
  • 입력층의 노드 개수는 출력층의 노드 개수와 동일
  • 은닉층의 노드 개수는 입력층의 노드 개수보다 작음

08. 오토인코더 (AutoEncoder)

이번 포스팅은 핸즈온 머신러닝 교재를 가지고 공부한 것을 정리한 포스팅입니다. 08. 오토인코더 - Autoencoder 저번 포스팅 07. 순환 신경망, RNN에서는 자연어, 음성신호, 주식과 같은 연속적인 데

excelsior-cjh.tistory.com


6. 비정형 데이터 분석

  • 비정형 데이터 안에서 체계적인 통계적 규칙이나 패턴을 탐색하고 이를 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 분석 기법
  • 대표적인 비정형 분석기법: 텍스트 마이닝, 오피니언 마이닝, 웹 마이닝, 사회 연결망 분석
텍스트 마이닝
(Text Mining)
- 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용해 정보를 추출하는 기법
- 비정형화된 문서에서 정보 습득 가능
오피니언 마이닝
(Opinion Mining)
- 주관적인 의견이 포함된 데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 분석하는 기법
- 긍정, 부정, 중립으로 선호도 판별
웹 마이닝
(Web Mining)
- 웹에서 발생하는 고객의 행위 분석과 특성 데이터를 추출, 정제하여 의사결정에 활용하기 위한 기법
사회 연결망 분석
(SNA; Social Network Analysis)
- 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법

 
(1) 텍스트 마이닝

  • 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용해 정보를 추출하는 기법
  • 사람들의 말하는 언어를 이해할 수 있는 자연어 처리 기술에 기반
  • 절차: 텍스트 수집 → 텍스트 전처리 → 텍스트 의미 추출 → 텍스트 패턴 분석 → 정보 생성
텍스트 수집- 데이터베이스, 텍스트 기반 문서 등이 수집 대상
텍스트 전처리- 문서 내 표현된 단어, 구, 절에 해당하는 내용을 가공할 수 있는 데이터로 변환하는 작업
- 크롤링 등으로 데이터 추출 후 HTML 태그나 XML 문법을 제거하는 작업
- 마침표, 문장부호를 사용하여 문장 구분하는 작업 수행

- 문장 토큰화: 텍스트의 단어, 어절을 분리하는 작업
- 불용어 제거: 의미 없는 단어 (the, of 등) 제거
- 어간 추출: 단어들에서 공통 음절을 뽑아내는 작업
텍스트 의미 추출- 복잡한 의미 정보의 표현을 단순화
- 도메인에 적합한 정보를 문서의 의미 데이터로 저장
텍스트 패턴 분석- 의미 데이터를 기반으로 문서를 자동으로 군집화 및 분류
정보 생성- 시각화 도구를 통해 효과적으로 정보를 표현
  • 기능: 정보 추출, 문서 요약, 문서 분류, 문서 군집화 등
정보 추출- 일반적인 텍스트 문서로부터 사용자가 원하는 정보를 추출하는 작업
- 원하는 정보를 문장의 형식이나 사용자가 이전에 미리 정의한 질의 포맷에 맞추어서 추출
문서 요약- 정보 추출에서 더 나아가 문서에서 다룬 중요 내용을 글로 요약하는 기법
문서 분류- 키워드에 따라 문서를 분류하는 기법
- 주어진 키워드 집합에 따라 해당 카테고리로 분류
문서 군집화- 문서를 분석해 동일 내용의 문서들을 묶는 기법

 

  • 주요 기법: 워드 클라우드, N-gram 모델, 워드 임베딩, BoW(Bag of Words), TF-IDF, Word2Vec,

1) 워드 클라우드

출처:&amp;nbsp; https://blog.naver.com/science_zone/222998231408
  • 자연어 처리를 통해 사람들의 관심사 또는 빈도수를 단순 카운트하여 시각화하는 방법

2) N-gram 모델

  • 카운트에 기반한 통계적 접근을 사용하는 모델
  • 이전에 등장한 단어를 고려하는 것이 아니라 일부 단어만 고려하는 접근 방법 사용
  • n개의 연속적인 단어 나열 의미
  • N은 일부 단어를 고려하기 위한 임의 개수를 정하기 위해 사용
  • 말뭉치에서 n개의 단어 뭉치 단위로 끊어서 이를 하나의 토큰으로 간주
  • 문서 또는 문장을 벡터로 변환해서 자연어 처리의 여러 응용 분야에 활용 가능

3) 워드 임베딩

  • 각 단어를 인공 신경망 학습을 통해 벡터화하여 수치로 처리하는 방법
  • 텍스트를 컴퓨터가 이해하고, 효율적으로 처리하게 하기 위해서는 컴퓨터가 이해할 수 있도록 텍스트를 적절히 숫자로 변환해야 함
  • 대표적인 표현 방법: BoW, TF-IDF, Word2Vec 등

4) BoW(Bag of Words)

  • 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도에만 집중하는 텍스트 데이터의 수치화 표현 방법
  • 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 단어에 대한 빈도값을 부여한 후 피처 값으로 추출하는 방식
  • 쉽고 빠른 구축, 문서의 특징을 잘 나타냄 > 여러 분야에서 활용도 높음
  • 문맥 의미 반영 문제와 희소 행렬 문제 있음. (문서 단어 행렬의 모든 행이 0이 아닌 값보다 0의 값이 더 많은 행렬)

5) TF-IDF (Term Frequency-Inverse Document Frequency)

  • 정보 검색과 텍스트 마이닝에서 이용하는 가중치
  • 여러 문서로 이루어진 문서 군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 측정하는 기법

6) Word2Vec

  • 단어 벡터 간 유의미한 유사도를 반영할 수 있도록 단어의 의미를 수치화할 수 있는 방법
  • 단어를 벡터로 변환시켜 신경망 구조를 활용
  • 단어의 원-핫 벡터를 입력으로 넣고 주변 단어의 원-핫 벡터값을 예측하는 방식으로 학습
  • 학습 속도가 빠름
  • 단어의 맥략을 고려 > 단어의 의미를 잘 파악

(2) 오피니언 마이닝

  • 주관적인 의견이 포함된 데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 분석하는 기법
  • 사람들이 특정 제품 및 서비스를 좋아하거나 싫어하는 이유를 분석하여 여론이 실시간으로 어떻게 변하는지 확인
  • 절차: 특징 추출 → 문장 인식 → 요약 및 전달

(3) 웹 마이닝

  • 데이터 마이닝 기법을 활용하여 웹상의 문서들과 서비스들로부터 정보를 자동으로 추출, 발견하는 기법
  • 정보 단위인 '노드'와 연결점인 '링크' 활용
  • 유형: 웹 내용 마이닝, 웹 사용 마이닝, 웹 구조 마이닝 등
웹 내용 마이닝웹 사이트를 구성하는 페이지의 내용 중에서 유용한 정보 추출
웹 사용 마이닝웹 로그를 통해 사용자의 행위 패턴을 분석하여 의미 있는 정보 추출
웹 구조 마이닝웹 사이트의 구조적인 요약 정보를 찾기 위한 기법
(하이퍼링크를 통한 그래프의 구조적인 정보 이용)

 
(4) 사회 연결망 분석

  • 개인과 집단 간의 관계를 노드와 링크로 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법
  • 절차: 데이터 수집 (웹 크롤러, NodeXL 활용) → 데이터 분석 (R, Python, NodeXL 활용) → 데이터 시각화
  • 주요 속성: 응집력. 구조적 등위성, 명성, 범위, 중계 등
  • 측정지표: 연결 정도, 포괄성, 밀도, 연결 정도 중심성, 근접 중심성, 매개 중심성, 위세 중심성
연결 정도- 노드 간의 총 연결 관계 개수
- 한 노드가 몇 개의 노드와 연결되어 있는지의 정도
포괄성- 네트워크 내에서 서로 연결된 노드의 개수
- 전체 네트워크에서 연결되어 있지 않은 노드들을 제거하고 남은 노드의 개수
밀도- 네트워크 내에서 노드 간의 전반적인 연결 정도 수준을 나타내는 지표
- 연결망 내 전체 구성원이 서로 간에 얼마나 많은 관계를 맺고 있는지를 표현
연결 정도 중심성- 특정 노드가 연결망 내에서 연결된 다른 노드들의 합
- 노드가 얼마나 많은 노드와 관계를 맺고 있는지를 파악
근접 중심성- 각 노드 간의 거리를 바탕으로 중심성을 측정하는 방식
- 직-간접적으로 연결되어 있는 모든 노드 간의 거리를 바탕으로 중심성 측정
매개 중심성- 네트워크 내에서 특정 노드가 다른 노드들 사이에 위치하는 정도를 나타내는 지표
- 네트워크 내에서 어디에 위치하는지를 파악함으로써 해당 노드의 영향력을 파악
위세 중심성- 자신의 연결 정도 중심성으로부터 발생하는 영향력과 자신과 연결된 타인의 영향력을 합하여 결정하는 방법

 


7. 앙상블 분석(Ensemble)

  • 앙상블: 여러 가지 동일한 종류 또는 서로 상이한 모형들의 예측/분류 결과를 종합하여 최종적인 의사결정에 활용하는 기법 (앙상블 - 통일, 조화)
  • 보다 높은 신뢰성 확보, 정확도 상승
  • 모형의 투명성이 떨어지게 되어 정확한 현상의 원인 분석에 부적합

(1) 앙상블 알고리즘

  • 주어진 자료로부터 여러 개의 예측 모형을 만든 후 예측 모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법
  • 여러 개의 학습 모델을 훈련하고 투표를 통해 최적화된 예측을 수행하고 결정
  • 절차: 도출 및 생성 → 집합별 모델 학습 → 결과 조합 → 최적 의견 도출
  • 다중 모델 조합
  • 분류기 조합
츨처:&amp;nbsp;https://github.com/adioshun/gitBook_Machinelearning/blob/master/ensemble/kb12d63c-c131-baa8-b378-c559-c0c1-be14.md

 
(2) 앙상블 기법의 종류
 
1) 배깅 (Bagging; Bootstrap Aggregating)

  • 훈련 데이터에서 다수의 부트스트랩 자료를 생성하고, 각 자료를 모델링한 후 결합하여 최종 예측 모형을 만드는 알고리즘
  • 부트스트랩은 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료를 의미
  • 절차: 부트스트랩 데이터 추출 → 단일 분류기 생성 → 최종 모델 결정
  • 보팅: 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과를 선정하는 과정
  • 최적의 의사결정나무를 결정할 때 가지치기를 하지 않고 최대한 성장한 의사결정나무들을 활용
  • 실제 현실에서는 훈련자료를 모집단으로 생각하고 평균 예측 모형을 구하여 분산을 줄이고 예측력을 향상
  • 목표: 전반적으로 분류를 잘할 수 있도록 유도 (분산감소)
  • 주요 알고리즘은 랜덤 포레스트

2) 부스팅(Boosting)

  • 잘못 분류된 개체들에 가중치를 적용, 새로운 분류 규칙을 만들고, 이 과정을 반복해 최종 모형을 만드는 알고리즘
  • 예측력이 약한 모형을 결합하여 강한 예측 모형을 만드는 방법
  • 절차: 동일 가중치 분류기 생성 → 가중치 변경 통한 분류기 생성 → 최종 분류기 결정
  • 목표: 분류하기 힘든 관측값들에 대해서 정확하게 분류를 잘하도록 유도 (예측력 향상)
  • 주요 알고리즘은 AdaBoost, GBM

3) 랜덤 포레스트

  • 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
  • 훈련을 통해 구성해 놓은 다수의 나무들로부터 투표를 통해 분류 결과를 도출
  • 분류기를 여러 개 쓸수록 성능 향상
  • 트리의 개수가 많을수록 과대적합 문제 회피
  • 여러 개의 의사결정 트리가 모여 랜덤 포레스트 구조가 됨
  • 절차: 데이터 추출 → 대표 변수 샘플 도출 → Leaf Node로 분류 → 최종 모델 결정
  • 수천 개의 변수를 통해 변수 제거 없이 실행되므로 정확도 측면에서 좋은 성과 보임 (예측력 매우 높음)
  • 이론적 설명이나 최종 결과에 대한 해석 어려움
  • 주요기법: 배깅을 이요한 포레스트 구성, 임의노드 최적화
  • 주요 초매개변수: 포레스트 크기, 최대 허용 깊이, 임의성 정도
포레스트 크기- 총 포레스트를 몇 개의 트리로 구성할지를 결정하는 매개변수
- 포레스트가 작으면 트리들의 구성 및 테스트 시간이 짧은 대신, 일반화 능력 떨어짐
- 포레스트의 크기가 크면 훈련과 테스트 시간 증가하나, 결괎값의 정확성 및 일반화 능력 우수
최대 허용 깊이- 하나의 트리에서 루트 노드부터 종단 노드까지 최대 몇 개의 노드를 거칠 것인지를 결정하는 매개변수
- 최대 허용 깊이가 작으면 과소 적합 발생
- 최대 허용 깊이가 크면 과대 적합 발생
> 적절한 값의 설정 필요
임의성 정도- 임의성에 의해 서로 조금씩 다른 특성을 갖는 트리로 구성
- 임의성의 정도에 따라 비상관화 수준 결정

 

앙상블 베이스 모형의 독립성을 최적화하기 위하여,
1) 입력변수를 다양하게 한다
2) 서로 다른 알고리즘 사용
3) 매개변수를 다양하게 다

 


8. K-NN (K-최근접 이웃; K-Nearest Neighbor)

  • 새로운 데이터 클래스를 해당 데이터와 가장 가까운 k개의 데이터를 클래스로 분류하는 알고리즘
  • 지도 학습의 한 종류: 예측 변수에 따른 정답 데이터 제공
  • 분류와 회귀 사용 가능 (분류 - 다수가 속한 클래스 분류 / 회귀 - 유사한 레코드들의 평균을 예측값으로 사용)
  • 수치형 예측 변수 사용
  • 예측 변수 표준화 필요
  • 학습 절차 없이 새로운 데이터 들어올 때 거리 측정 (Lazy Mdel, Instance-based Learning)
  • k값에 따른 다른 에측 결과

(1) 최적의 K 선택

  • K의 선택은 학습의 난이도와 데이터의 개수에 따라 결정, 일반적으로 훈련 데이터 개수의 제곱근으로 설정
  • K를 너무 크게 설정하면 주변에 있는 점과의 근접성이 떨어짐 > 분류가 잘 이루어지지 않고, 과소 적합 발생
  • 이상치, 잡음 데이터와 이웃이 될 가능성이 있으므로 적절한 K를 선택하는 것이 중요

(2) 장단점

장점단점
- 범주를 나눈 기준을 알지 못해도 데이터를 분류
- 입력 데이터만 주어지면 바로 예측값 산출 가능
- 다른 분류 모형과는 달리 학습 과정 불필요
- 이해가 쉽고, 구현 간단
- 추가된 데이터의 처리 용이
- 다른 분류 모형과 달리 테스트 데이터의 개수에 따라 시간 오래 걸림
- 학습 데이터 모두를 거리 계산에 사용 > 학습 데이터의 양도 계산 시간에 영향
- K의 값 결정 어려움
- 수치형 데이터가 아니면 유사도를 정의하기 어려움
- 데이터 내에 이상치가 존재하면 분류 성능에 큰 영향

 
(3) K-NN 과 K-평균 군집 비교

항목K-NNK-평균 군집
유형지도 학습 (Supervised Learning)비지도 학습 (Unsupervised Learning)
K 의미근접한 이웃의 수클래스의 수
최적화 기법Cross validation, 혼동행렬엘보우, 실루엣 기법
활용분류 및 회귀군집(Clustering)a

 


이전글

빅데이터 분석기사] 3과목 빅데이터 모델링(3-2-1)

 
다음글

[빅데이터 분석기사] 4과목 빅데이터 결과 해석(1)

728x90
반응형