TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 3과목 빅데이터 모델링(3-2-1)

by 기록자_Recordian 2024. 3. 14.
728x90
반응형

[목차]

 

[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)

빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이

puppy-foot-it.tistory.com


빅데이터 모델링 - 분석 기법 적용

<분석 기법 적용>

1. 회귀 분석

(1) 회귀 분석

  • 독립변수와 종속변수 간에 선형적인 관계를 도출해서 하나 이상의 독립변수들이 종속변수에 미치는 영향을 분석하고, 독립변수를 통해 종속변수를 에측하는 분석 기법
  • 독립변수와 종속변수 간에 인과관계가 있다는 말은 독립변수가 원인이 되어 종속변수에 영향을 미친다는 의미이며, 그런 의미에서 독립변수를 원인변수(혹은 설명 변수), 종속변수를 결과변수 (혹은 반응변수)라고도 함
  • 독립변수가 하나이면 단순선형회귀분석, 2개 이상이면 다중선형회귀분석으로 분석
  • 변수들 사이의 인과관계를 밝히고 모형 적합하여 관심 있는 변수를 예측 하거나 추론하기 위한 분석 방법
  • 회귀분석은 기본적으로 변수가 연속형 변수일 때 사용하며, 범주형 변수일 경우 이를 파생변수로 변환하여 사용
  • 만약에 종속변수가 범주형일 경우 로지스틱 회귀분석을 사용.
  • 변수들이 일정한 경향성을 띈다는 의미는 그 변수들이 일정한 인과관계를 갖고 있다고 추측할 수 있는데, 산점도를 봤을 대 일정한 추세선이 나타난다면 경향성을 가지거나 혹은 변수들 간에 인과관계가 존재한다고 판단 가능

1) 변수

영향을 주는 변수 독립 변수, 설명 변수, 예측 변수
영향을 받는 변수 종속 변수, 반응 변수, 결과 변수

 
2) 회귀 모형의 가정
선형성, 독립성, 등분산성, 비상관성, 정상성

선형성 - 독립변수와 종속변수가 선형적이어야 한다는 특성
- 독립변수의 변화에 따라 종속변수도 일정 크기로 변화
독립성 - 단순선형 회귀 분석에서는 잔차와 독립변수의 값이 서로 독립적이어야 한다는 특성
- 다중선형 회귀 분석에서는 독립변수 간 상관성이 없이 독립적이어야 함
- 통게량으로는 더빈-왓슨 검정을 통해 확인 가능
* 더빈-왓슨 검정: 회귀 모형 오차항이 자기 상관이 있는지에 대한 검정
등분산성 - 잔차의 분산이 독립변수와 무관하게 일정해야 한다는 특성
- 잔차가 고르게 분포되어야 함
비상관성 - 관측치와 잔차는 서로 상관이 없어야 한다는 특성
- 잔차끼리 서로 독립이면 비상관성이 있다고 판단
정상성
(정규성)
- 잔차항이 정규분포의 형태를 이뤄야 한다는 특성
- Q-Q Plot 에서는 잔차가 대각선 방향의 직선의 형태를 띠면 잔차는 정규분포를 따른다고 할 수 있음
- 통계량으로는 샤피로-윌크 검정, 콜모고로프-스미르노프 검정 등을 통해 확인 가능
* Q-Q Plot: 그래프를 그려서 정규성 가정이 만족되는지 시각적으로 확인하는 방법
* 샤피로-윌크 검정: 오차항이 정규분포를 따르는지 알아보는 검정
* 콜모고로프-스미르노프 검정: 데이터가 어떤 특정한 분포를 따르는가를 비교하는 검정 기법

 
3) 회귀 모형의 체크 리스트

  • 회귀 모형이 통계적으로 유의미한가? (F-통계량 통해 확인)
  • 회귀계수들이 유의미한가? (t-통계량 통해 확인)
  • 회귀 모형이 얼마나 설명력을 갖는가? (결정계수로 판단)
  • 회귀 모형이 데이터를 잘 적합하고 있는가? (잔차를 그래프로 그리고 회귀진단)
  • 데이터가 가정을 만족시키는가? (회귀 모형 가정을 만족해야 함)

(2) 회귀 분석 유형
단순선형 회귀, 다중선형 회귀, 다항 회귀, 곡선 회귀, 로지스틱 회귀, 비선형 회귀

  • 단순선형 회귀: 독립변수가 1개이며, 종속변수와의 관계가 직선
  • 다중선형 회귀: 독립변수가 K개이며 종속변수와의 관계가 선형 (1차 함수)
  • 다항 회귀: 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계 (독립변수가 1개일 경우에는 2차 함수 이상)
  • 곡선 회귀: 독립변수가 1개이며, 종속변수와의 관계가 곡선
  • 로지스틱 회귀: 종속변수가 범주형인 경우 적용 (단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장 가능)
  • 비선형 회귀: 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져 있지 않은 모형
 

헷갈리는 '회귀분석(regression)'의 종류에 대해 이해해보자.

회귀분석(regression)의 종류 다음의 링크는 R에서 사용하는 회귀분석을 함수를 나타낸 것이다. 대략 205...

blog.naver.com


2. 로지스틱 회귀 분석

(1) 로지스틱 회귀 분석

  • 독립변수가 수치형이고 종속변수가 범주형인 경우 적용되는 회귀 분석 모형
  • 새로운 설명변수의 값이 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여 추정 확률을 기준치에 따라 분류하는 목적으로 사용
  • 사후 확률: 모형의 적합을 통해 추정된 확률

(2) 원리

  • 분석 대상이 되는 이항 변수인 0, 1인 로짓을 이용해서 연속변수인 것처럼 바꿔줌으로써 활용. 하지만 바로 로짓으로 변환하지 못하고 먼저 오즈, 오즈비를 거쳐서 로짓으로 변환해야 함
  • 오즈(=승산): 특정 사건이 발생할 확률과 그 사건이 발생하지 않을 확률의 비
  • 로짓 변환: 오즈에 로그를 취한 함수
  • 시그모이드 함수: S자형 곡선 (시그모이드 곡선)을 갖는 수학 함수
  • 로짓 함수에 역함수를 취하면 시그모이드 함수가 됨

3. 의사결정나무

(1) 개념

  • 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측하는 분석 방법
  • 분석의 대상을 분류함수를 활용하여 의사결정 규칙으로 이루어진 나무 모양으로 그리는 기법
  • 연속적으로 발생하는 의사결정 문제를 시각화해서 의사결정이 이루어지는 시점과 성과 파악을 쉽게 해줌
  • 계산 결과가 의사결정나무에 직접적으로 나타나기 때문에 기법의 해석 용이

(2) 구성요소

  • 부모 마디: 주어진 마디의 상위에 있는 마디
  • 자식 마디: 하나의 마디로부터 분리되어 나간 2개 이상의 마디들
  • 뿌리 마디: 시작되는 마디로 전체 자료를 포함
  • 끝마디: 자식 마디가 없는 마디 (잎 노드)
  • 중간 마디: 부모 마디와 자식 마디가 모두 있는 마디
  • 깊이: 뿌리 마디부터 끝마디까지의 중간 마디들의 수

(3) 해석력과 예측력

  • 은행에서 신용평가에서는 평가 결과 부적격 판정이 나온 경우 대상자에게 부적격 이유를 설명해야 하기 때문에 의사결정나무의 해석력에 집중
  • 기대 집단의 사람들 중 가장 크고, 많은 반응을 보일 상품 구매 고객의 모집방안을 예측하고자 하는 경우에는 의사결정나무의 예측력에 집중

(4) 분석
 
1) 분석 과정

  • 설명 변수 선택: 목표변수(종속변수)와 관계 있는 설명 변수(독립변수) 들의 선택
  • 의사결정나무 생성: 분석의 목적과 자료구조에 따라서 적절한 분리 기준과 정지 규칙을 정하여 의사결정나무 생성
  • 가지치기: 부적절한 나뭇가지는 가지치기로 제거
  • 모형 평가: 이익, 위험, 비용 등을 고려하여 모형 평가
  • 분류 및 예측: 데이터의 분류 및 예측에 활용

2) 분류나무에서 사용되는 분리 기준
 
[분리기준]

  • 하나의 부모 마디로부터 자식 마디들이 형성될 때, 입력변수의 선택과 범주의 병합이 이루어질 기준
  • 순수도(불순도): 목표변수의 분포를 구별하는 정도
  • 의사결정나무는 부모 마디의 순수도에 비해서 자식 마디들의 순수도가 증가하도록 자식 마디를 형성해 나감

[이산형 목표변수]

  • 카이제곱 통계량의 p-값: p-값이 가장 작은 예측변수와 그 당시의 최적 분리를 통해서 자식 마디 형성
  • 지니 지수: 불순도를 측정하는 하나의 지수로서 지니 지수를 가장 감소시켜주는 예측 변수와 그 당시의 최적 분리를 통해서 자식 마디 선택
  • 엔트로피 지수: 엔트로피 지수가 가장 작은 예측 변수와 그 당시의 최적 분리를 통해서 자식 마디 형성

[연속형 목표변수]

  • 분산 분석에서 F-통계량: p-값이 가장 작은 예측변수와 그 당시의 최적 분리를 통해서 자식 마디 형성
  • 분산의 감소량: 예측 오차를 최소화하는 것과 같은 기준으로 분산의 감소량을 최대화하는 기준의 최적 분리를 통해서 자식 마디 형성

3) 정지규칙

  • 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 하는 규칙
  • 정지기준: 의사결정나무의 깊이를 지정, 끝마디의 레코드 수의 최소 개수 지정

4) 가지치기

  • 분류 오류를 크게 할 위험이 높거나 부적절한 추론 규칙을 가지고 있는 가지 또는 불필요한 가지를 제거하는 과정
  • 너무 큰 나무 모형은 자료를 과대 적합, 너무 작은 나무 모형은 과소 적합할 위험

(5) 불순도의 여러 가지 척도

  • 카이제곱 통계량: 데이터의 분포와 사용자가 선택한 기대 또는 가정된 분포 사이의 차이를 나타내는 측정값
  • 지니 지수: 노드의 불순도를 나타내는 값
  • 엔트포리 지수: 무질서 정도에 대한 측도 (지수의 값이 클수록 순수도가 낮음)
 

의사결정나무(Decision Tree) 쉽게 이해하기

의사결정나무(Decision Tree)란 ? 의사결정나무(decision tree) 또는 나무 모형(tree model)은 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류(classification) 하거나 예측 (predictio

rk1993.tistory.com

 
(6) 의사결정나무 알고리즘

  • CART: 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류를 수행하는 알고리즘 (가장 널리 사용)
  • C4.5 / C5.0: 가지치기를 사용할 때 학습자료를 사용하는 알고리즘 (목표변수가 이산형이어야 함)
  • CHAID(다지분할): AID를 발전시킨 알고리즘 (불순도의 척도로 카이제곱 통계량 사용, 다지 분리 사용)
  • QUEST: 변수 선택 편향이 거의 없음 (CART의 문제점 개선)

(7) 활용 및 장단점
 
1) 활용

  • 분류: 여러 예측변수들에 근거해서 관측 개체의 목표변수 범주를 몇 개의 등급으로 분류
  • 예측: 자료에서 규칙을 찾아내고 이를 이용해서 미래의 사건을 예측
  • 차원축소 및 변수선택: 매우 많은 수의 예측변수 중에서 목표변수에 큰 영향을 미치는 변수들을 구분
  • 교호작용 효과의 파악: 여러 개의 예측변수들을 결합해서 목표변수에 작용하는 규칙을 파악

2) 장단점

장점 단점
해석의 용이성 비연속성
상호작용 효과의 해석 가능 선형성 또는 주 효과의 결여
비모수적 모형 비안정성
유연성과 정확도가 높음  

4. 인공신경망 (ANN; Artificial Neural Network)

(1) 개념 및 역사

  • 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델
  • 입력값을 받아서 출력값을 만들기 위해 활성화 함수 사용
  • 목적: 가중치를 알아내는 것
  • 1세대: 1943 ~ 1986년 (퍼셉트론 제안 / XOR 선형 분리 불가 문제 발생)
  • 2세대: 1986 ~ 2006년 (다층 퍼셉트론과 역전파 알고리즘 등장 / 은닉층을 통해 XOR 문제 해결 / 과적합 문제, 사라지는 경사 현장 문제 발생)
  • 3세대: 2006년 ~ 현재 (알파고와 이세돌 바둑 대결로 부각 / 딥러닝 활용 / 과적합 문제 및 기울기 소실 문제 해결)

(2) 구조
 
1) 퍼셉트론

  • 인간의 신경망에 있는 뉴런의 모델을 모방하여 입력층, 출력층으로 구성한 인공신경망 모델
  • 구성요소: 입력값, 가중치, 순 입력함수, 활성화 함수, 예측값(출력값)
  • 문제점: XOR 선형 분리 할 수 없음 (다층 퍼셉트론으로 해결)

2) 다층 퍼셉트론(MLP; Multi-Layer Perceptrons)

  • 입력층과 출력층 사이에 하나 이상의 은닉층을 두어 비선형적으로 분리되는 데이터에 대해 학습이 가능한 퍼셉트론
  • 입력층, 은닉층, 출력층으로 구성하고 역전파 알고리즘을 통해 다층으로 만들어진 퍼셉트론의 학습 가능
  • 활성화 함수로 시그모이드 함수 사용
  • 문제점: 과대 적합, 기울기 소실

(3) 뉴런의 활성화 함수

  • 순 입력함수로부터 전달받은 값을 출력값으로 변환해 주는 함수
  • 계단함수, 부호함수, 선형함수, 시그모이드 함수, tanh 함수, ReLU 함수 등
 

활성화 함수(Activation Function)

○ 활성화 함수 활성화 함수는 이전 층(layer)의 결과값을 변환하여 다른 층의 뉴런으로 신호를 전달하는 역할을 한다. 활성화 함수가 필요한 이유는 모델의 복잡도를 올리기 위함인데 앞서 다루

syj9700.tistory.com

 
(4) 인공신경망의 학습
 

 

[DL] 인공 신경망의 학습 과정(Learning Process of ANN)

인공 신경망의 학습 과정(Learning Process of ANN) (인공 신경망을 모르신다면 이 링크 먼저 보시는게 좋아요! 인공 신경망) 인공 신경망은 어떻게 학습할까? 위 이미지(속칭 움짤)는 인공 신경망의 학

seahahn.tistory.com


5. 서포트 벡터 머신(SVM; Support Vector Machine)

  • 벡터 공간에서 훈련 데이터가 속한 2개의 그룹을 분류하는 선형 분리자를 찾는 기하학적 모델
  • 데이터를 분리하는 초평면 중에서 데이틀과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델
  • 최대 마진을 가지는 비확률적 선형 판별 분석에 기초한 이진 분류기
  • 공간상에서 최적의 분리 초평면을 찾아서 분류 및 회귀 수행
  • 변수 속성 간의 의존성은 고려하지 않으며 모든 속성을 활용하는 기법
  • 훈련 시간이 상대적으로 느리지만, 정확성이 뛰어나며 다른 방법보다 과대 적합의 가능성이 낮은 모델

(1) 구성요소

  • 결정 경계: 데이터 분류의 기준이 되는 경계
  • 초평면: n 차원의 공간의 (n-1) 차원 평면
  • 마진: 결정 경계에서 서포트 벡터까지의 거리
  • 서포트 벡터: 훈련 데이터 중에서 결정 경계와 가장 가까이에 있는 데이터들의 집합
  • 슬랙 변수: 완벽한 분리가 불가능할 때 선형적으로 분류를 위해 허용된 오차를 위한 변수

(2) 종류

  • 하드 마진 SVM: 마진의 안쪽이나 바깥쪽에 절대로 잘못 분류된 오 분류를 불허
  • 소프트 마진 SVM: 오 분류 허용

(3) 적용 기준

선형으로 분리 가능 최적의 결정 경계 (또는 초평면)를 기준으로 1과 -1로 구분하여 분류 모형으로 사용
선형으로 분리 불가능 - 저차원 공간을 고차원 공간으로 매핑할 경우에 발생하는 연산의 복잡성은 커널 트릭을 통하여 해결 가능
* 커털 트릭: 저차원에서 함수의 계산만으로 원하는 풀이가 가능한 커널 함수를 이용하여 고차원 공간으로 매핑할 경우에 증가하는 연산량의 문제를 해결하는 기법

 
※ 커널함수: 맵핑 공간에서의 내적과 동등한 함수
- 선형(Linear) 커널: 기본 유형의 커널이며, 1차원이고 다른 함수보다 빠름 (텍스트 분류 문제에 주로 사용)
- 다항(Polynomial) 커널: 선형 커널의 일반화된 공식, 효과성과 정확도 측면에서 효율이 적어 비선호
- RBF (=가우시안 커널): 2차원의 점을 무한한 차원의 점으로 변환 (가장 많이 사용하는 커널, 비선형 데이터가 있는 경우에 일반적으로 활용)
- 시그모이드 커널: 인공신경망에서 선호되는 커널 (다층 퍼셉트론 모델과 유사)

출처:&amp;amp;amp;nbsp;https://ybeaning.tistory.com/30

 
(4) 장단점

장점 단점
- 데이터가 적을 때 효과적
- 새로운 데이터가 입력되어도 연산량 최소화
- 정확성이 뛰어남
- 커널 트릭을 활용하여 비선형 모델 분류 가능
- 다른 모형보다 과대 적합의 가능성 낮음
- 노이즈의 영향이 적음
- 데이터 전처리 과정 중요
- 데이터 세트의 크기가 클 경우 모델링에
많은 시간 소요
- 데이터가 많아질수록 다른 모형에 비해 속도 느림
- 커널과 모델의 매개변수를 조절하기 위해
많은 테스트 필요

6. 연관성 분석 (장바구니 분석, 서열 분석)

(1) 연관성 분석

  • 데이터 내부에 존재하는 항목 간의 상호 관계 혹은 종속 관계를 찾아내는 분석 기법
  • 데이터 간의 관계에서 조건과 반응을 연결하는 분석
  • 목적 변수가 없어 분석 방향이나 목적이 없어도 적용 가능
  • 조건 반응(if-then)으로 표현되어 결과를 쉽게 이해
  • 매우 간단하게 분석을 위한 계산 가능
  • 적절한 세분화로 인한 품목 결정 (너무 세분화된 품목은 의미 없는 결과 도출)
  • 교차 판매, 묵음 판매, 상품 진열, 거래 후 쿠폰 제공, 온라인 쇼핑의 상품 추천 등에 활용
  • 측징 지표: 지지도, 신뢰도, 향상도
지지도 전체 거래 중 항목 A와 B를 동시에 포함하는 거래의 비율
신뢰도 A 상품을 샀을 때 B 상품을 살 조건부 확률에 대한 척도
향상도 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관성의 정도를 측정하는 척도
- 향상도 =1: 서로 독립적 관계
- 향상도 > 1 양(+)의 상관관계
- 향상도 < 1 음(-)의 상관관계

 
(2) 연관성 분석 알고리즘
 
1) 아프리오리 알고리즘

  • 가능한 모든 경우의 수를 탐색하는 방식을 개선하기 위하여 데이터들의 발생빈도가 높은 것(빈발항목)을 찾는 알고리즘
  • 분석 대상이 되는 항목의 대상을 최소화하여 연관성 도출을 효율화한 연관분석 알고리즘
  • 최소 지지도보다 큰 지지도 값을 갖는 빈발항목 집합에 대해서만 연관규칙을 계산하는 알고리즘
  • 연관성 규칙은 항목이 많아질수록 기하급수적으로 늘어나기 때문에 아프리오리 알고리즘을 통해 줄여줄 수 있음
  • 한 항목이 자주 발생하지 않는다면 이 항목을 포함하는 집합들도 자주 발생하지 않는다는 규칙을 적용하여 항목 줄여줌
  • 최소 지지도 경곗값을 정하고, Database에서 후보항목 집합 생성 > 후보 항목 집합에서 최소 지지도 경곗값을 넘는 빈발항목 집합을 찾아냄
  • 규칙1: 한 항목 집합이 빈발하면, 이 항목 집합의 모든 부분집합은 빈발항목 집합
  • 규칙2: 한 항목 집합이 빈발하지 않다면, 이 항목 집합을 포함하는 모든 집합은 비 빈발항목 집합

2) FP-Growth 알고리즘

  • 아프리오리 알고리즘을 개선한 알고리즘
  • FP-Tree 라는 구조를 통해 최소 지지도를 만족하는 빈발 아이템 집합 추출
  • 데이터 세트가 큰 경우 모든 후보 아이템 세트들에 대하여 반복적으로 계산하는 단점이 있는 아프리오리 알고리즘 개선

[계산 방법]

  • 1단계: 모든 거래를 확인해 각 아이템마다 지지도를 계산하고 최소 지지도 이상의 아이템만 선택
  • 2단계: 모든 거래에서 빈도가 높은 아이템 순서대로 순서 정렬
  • 3단계: 부모 노드를 중심으로 거래를 자식 노드로 추가해주면서 트리 생성
  • 4단계: 새로운 아이템이 나올 경우에는 부모 노드부터 시작하고, 그렇지 않으면 기존의 노드에서 확장
  • 5단계: 위의 과정을 모든 거래에 대해 반복하여 FP-Tree 를 만들고 최소 지지도 이상의 패턴만 추출
장점 단점
- Tree 구조이기 때문에 아프리오리 알고리즘보다 계산 속도가 빠르고 DB에서 스캔하는 횟수도 적음
- 첫 번째 스캔으로 단일 항목집단을 만들고, 두 번째 스캔으로 Tree 구조를 완성하여 분석하는 방식으로 두 번만 스캔하면 되는 간단한 방식
- 아프리오리에 비해 설계 어려움
- 지지도 계산은 무조건 FP-Tree 가 만들어져야 가능

7. 군집 분석

  • 관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 집단의 특성을 분석하는 다변량 분석 기법
  • 목적은 레이블이 없는 데이터 세트의 요약 정보를 추출하고, 요약 정보를 통해 전체 데이터 세트가 가지고 있는 특징을 발견하는 것

(1) 가정

  • 군집 내에 속한 개체들의 특성은 동질적이고 서로 다른 군집에 속한 개체들 간의 특성은 이질적
  • 군집 내의 응집도는 최대화하고 군집 간의 분리도는 최대화
  • 군집의 개수 또는 구조와 관계없이 개체 간 거리를 기준으로 분류
  • 개별 군집의 특성은 군집에 속한 개체들의 평균값으로 나타냄

(2) 분류와 군집 비교

  • 분류: 데이터에 분류 변수가 포함된 지도 학습 방법
  • 군집: 데이터에 분류의 기준이 없는 비지도 학습 방법

(3) 유형

출처: 건기원 - 수제비 빅데이터분석기사

  • 계층적 군집: 군집의 개수를 미리 정하지 않고 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성(계층 기반, 비계층 기반)
  • 비계층적 군집: 미리 군집의 개수 지정 (분할 기반, 분포 기반, 밀도 기반, 그래프 기반 등)

(4) 군집 간의 거리 계산

  • 거리는 값이 작을수록 관측치가 유사함을 의미

1) 연속형 변수 거리
[수학적 거리]

  • 유클리드 거리: 두 점 간 차를 제곱하여 모두 더한 값의 양의 제곱근
  • 맨하탄 거리: 두 점 간 차의 절댓값을 합한 값 (시가 거리)
  • 민코프스키 거리: m 차원 민코프스키 공간에서의 거리 (m=1 일 때 맨하탄 거리와 같음 / m = 2일 때 유킬드 거리와 같음)

[통계적 거리]

  • 표준화 거리: 변수의 측정단위를 표준화한 거리
  • 마할라노비스 거리: 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려한 통계적 거리

2) 명목형 변수 거리

  • 단순 일치 계수: 전체 속성 중에서 일치하는 속성의 비율
  • 자카드 계수: 두 집합 사이의 유사도를 측정하는 방법 (0과 1의 값. 두 집합이 동일하면 1의 값, 공통 원소가 하나도 없으면 0의 값)
  • 코사인 유사도: 두 개체 간의 거리 측도 중에서 두 벡터 사이의 각도를 이용하여 개체 간의 유사도를 측정하는 측도 (두 벡터의 내적을 구한 뒤 두 벡터의 크기를 각각 구해서 서로 곱한 것으로 나눔)

3) 순서형 변수 거리 : 순위 상관계수를 이용하여 거리 측정

  • 순위 상관계수: 값에 순위를 매겨 그 순위에 대해 상관계수를 구하는 방법

(6) 계층적 군집 분석

  • 유사한 개체를 군집화하는 과정을 반복하여 군집을 형성하는 방법
병합적 방법 작은 군집으로부터 시작하여 군집을 병합하는 방법 (거리가 가까우면 유사성 높음)
분할적 방법 큰 군집으로부터 출발하여 군집을 분리해 나가는 방법

 
[계통도]

  • 군집의 결과는 계통도 또는 덴드로그램의 형태로 결과가 주어지며 각 개체는 하나의 군집에만 속함
  • 항목 간의 거리, 군집 간의 거리를 알 수 있고, 군집 내 항목 간 유사 정도를 파악함으로써 군집의 견고성 해석

[군집 간의 연결법]

  • 개체 간의 유사성 (또는 거리)에 대한 다양한 정의 가능
  • 최단연결법, 최장연결법, 평균 연결법, 중심연결법, 와드 연결법
  • 군집 간의 연결법에 따라 군집의 결과가 달라질 수 있음
 

군집 분석 Clustering Analytic

군집 분석 Clustering Analytic

velog.io

 
 
(7) 비계층적 군집 분석 (분할기반 군집: k-평균 군집 알고리즘)

  • 주어진 데이터를 k개의 군집으로 묶는 알고리즘
  • k개 만큼 군집수를 초깃값으로 지정하고, 각 개체를 가까운 초깃값에 할당하여 군집을 형성하고 각 군집의 평균을 재계산하여 초깃값을 갱신하는 과정을 반복하여 k개의 최종군집을 형성하는 방법
  • 이상값에 민감하게 반응 (k-중앙값 군집을 사용하거나 이상값을 미리 제거 함으로 보완)

※ k-중앙값 군집: 군집을 형성하는 단계마다 평균값 대신 중앙값을 사용하여 군집 형성
 
[절차]

  • k개 객체 선택: 초기 군집 중심으로 k개의 객체를 임의로 선택
  • 할당: 자료를 가장 가까운 군집 중심에 할당
  • 중심 갱신: 각 군집 내의 자료들이 평균을 계산하여 군집의 중심 갱신
  • 반복: 군집 중심의 변화가 거의 없을 때까지 단계 2와 단계 3 반복

[기법]

  • 엘보우 기법: x 축에 클러스터의 개수(k값)를 y축에 SSE 값을 두었을 때 기울기가 완만한 부분에 해당하는 클러스터를 선택하는 기법
  • 실루엣 기법: 각 군집 간의 거리가 얼마나 분리되어 있는지를 나타내는 기법
  • 덴드로그램: 계층적 군집 분석의 덴드로그램 시각화를 이용하여 군집의 개수 결정

(8) 비계층적 군집 분석 (분포 기반 군집: 혼합 분포 군집)
 
1) 혼합 분포 군집

  • 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에 자료로부터 모수와 가중치를 추정하는 방법
  • k개의 각 모형은 군집을 의미, 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분류 이루어짐
  • 혼합 모형의 모수를 추정하는 경우 단일 모형과는 달리 표현식이 복잡하여 미분을 통한 이론적 전개가 어렵기 때문에 최대가능도 추정을 위해 EM 알고리즘 등 이용
  • 확률 분포를 도입하여 군집 수행
  • 군집을 몇 개의 모수로 표현할 수 있고, 서로 다른 크기의 군집 찾을 수 있음
  • EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸릴 수 있음
  • 군집의 크기가 너무 작으면 추정의 정도가 떨어지거나 어려울 수 있음
  • 이상값에 민감하므로 이상값 제거 등의 사전 조치 필요

2) 가우시안 혼합 모델

  • 전체 데이터의 확률 분포가 k개의 가우시안 분포의 선형 결합으로 이뤄졌음을 가정하고 각 분포에 속할 확률이 높은 데이터 간의 군집을 형성하는 방법
  • 데이터들이 k개의 가우시안 분포 중에서 어디에 속하는 것이 최적인지 추정하기 위해 EM 알고리즘 이용

3) EM 알고리즘

  • 관측되지 않은 잠재변수에 의존하는 확률모델에서 최대 가능도나 최대 사후 확률을 갖는 모수의 추정값을 찾는 반복적인 알고리즘
  • E-단계, M-단계로 진행
  • E-단계: 잠재변수 Z의 기대치 계산
  • M-단계: 잠재변수 Z의 기대치를 이용하여 매개변수 추정
  • 반복을 수행하며 매개변수 추정값을 도출하며 이를 최대 가능도 추정치로 사용

(9) 비계층적 군집 분석(밀도 기반 군집: DBSCAN 알고리즘)

  • 개체들의 밀도 계산을 기반으로 밀접하게 분포된 개체들끼리 그룹핑하는 알고리즘
  • 클러스터의 개수를 미리 지정할 필요 없음
  • 군집 밀도에 따라서 군집을 서로 연결하기 때문에 기하학적인 모양의 군집 분석 가능
  • 중심점: 주변 반경 내에 최소 데이터 개수 이상의 다른 데이터를 가지고 있는 데이터
  • 이웃점: 특정 데이터 주변 반경 내에 존재하는 다른 데이터
  • 경계점: 중심점은 아니지만, 중심점이 주변 반경 내에 존재하는 데이터
  • 잡음점: 중심점도 아니고 경계점 조건도 만족하지 못하는 이웃점 (이상치)

[절차]

  • 반경 내 최소 점 이상이 포함되도록 중심점 식별
  • 모든 비 중심점을 무시하고 인접 그래프에서 중심점과 연결된 구성 요소 탐색
  • 중심점 외에 속하면 노이즈로 할당
장점 단점
- k-평균 군집과 같이 클러스터의 수를 정하지 않아도 됨
- 클러스터의 밀도에 따라서 클러스터를 서로 연결하기 때문에 기하학적인 모양을 갖는 군집도로서 잘 찾을 수 있음
- 초매개변수를 결정하기 어려움
- 매개변수의 선택에 민감
- 클러스터들이 다양한 밀도를 가지거나, 차원이 크면 계산에 어려움

출처:&amp;amp;amp;nbsp;https://scrunts23.medium.com/dbscan-algorithm-from-scratch-in-python-475b82e0571c

 
(10) 비계층적 군집 분석 (그래프 기반 군집: SOM 알고리즘)
SOM(Self-Organizing Maps, 자기 조직화 지도)

  • 대뇌피질과 시각피질의 학습 과정을 기반으로 모델화한 인공신경망
  • 자율 학습 방법에 의한 클러스터링 방법을 적용한 알고리즘
  • 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한 비지도 신경망
  • 형상화는 입력변수의 위치 관계를 그대로 보존
  • 실제 공간의 입력변수가 가까이 있으면 지도상에는 가까운 위치에 있게 됨
  • 입력층: 입력 벡터를 얻는 층 (입력변수의 개수와 동일하게 뉴런 수 존재)
  • 경쟁층: 2차원 격자로 구성된 층 (입력 벡터의 특성에 따라 벡터의 한 점으로 클러스터링 되는 층)
  • 단계: 초기화 → 입력 벡터 → 유사도 계산 → 프로토타입 벡터 탐색 → 강도 재조정 → 반복

출처:&amp;amp;amp;nbsp;https://m.blog.naver.com/pmw9440/221588292503

 

- 군집 분석은 시장과 고객 차별화, 패턴 인식, 생물 연구, 공간데이터 분석, 웹 문서 분류 등에 활용
- 군집 분석은 세분화, 이상 탐지, 분리 등에 활용

 

 

14 장 군집분석 | 데이터과학

\(P\)를 실제로 속한 그룹(클래스)에 따라 데이터를 나눈 파티션이라고 하고, \(Q\)를 클러스터링 알고리즘의 결과 그룹에 의한 파티션이라고 하자. 즉, \(P = \{P_1, P_2, ..., P_S\}\), \(Q = \{Q_1, Q_2, ..., Q_K

bigdata.dongguk.ac.kr


이전글

[빅데이터 분석기사] 3과목 빅데이터 모델링(3-1)

 
다음글

[빅데이터 분석기사] 3과목 빅데이터 모델링(3-2-2)

728x90
반응형