[목차]
빅데이터 모델링 - 분석 기법 적용
<고급 분석 기법>
1. 범주형 자료 분석
- 독립변수와 종속변수가 모두 범주형 데이터 (명목형/순서형) 이거나 둘 중 하나가 범주형 데이터일 때 사용
- 각 집단 간의 비율 차이를 비교하기 위해 사용하며, 독립변수와 종속변수의 척도에 따라 분석 기법 다름
독립변수 | 종속변수 | 분석 방법 |
범주형 | 범주형 | - 분할표 분석 - 카이제곱 검정 - 피셔의 정확 검정 |
범주형 | 수치형 | - T-검정 (독립변수 2개 이하) - 분산 분석 (독립변수 3개 이상) |
수치형 | 범주형 | - 로지스틱 회귀 분석 |
수치형 | 수치형 | - 상관 분석, 회귀 분석 |
(1) 분할표 분석
- 분할표를 이용한 범주형 자료 분석은 상대위험도와 승산비를 통하여 분석
- 일원 분할표: 1개의 범주형 변수 (One-Way)
- 이원 분할표: 2개의 범주형 변수 (Two-way)
- 다원 분할표: 3개 이상의 범주형 변수 (Multi-way)
- 분할표의 행은 독립변수, 열은 종속변수로 배치
- 분할표의 각 행의 마지막 행과 각 열의 마지막 열에는 총계 데이터 표시 (Margin Sum)
- 상대위험도: 과심 집단의 위혐률과 비교 집단의 위험률에 대한 비
- 승산(Odds): 특정 사건이 발생할 확률과 그 사건이 발생하지 않을 확률의 비
- 승산비(Odds Ratio): 특정 조건이 있을 때의 성공 승산을 다른 조건이 있을 때의 성공 승산으로 나눈 값
(2) 카이제곱 검정 유형
- 범주형 자료 간의 차이를 보여주는 분석 방법 (편차의 제곱 값을 기대빈도로 나눈 값들의 합)
- 관찰된 빈도가 기대되는 빈도와 유의하게 다른지의 여부를 검정하기 위해 사용
- 기대빈도는 귀무가설에 따라 계산
- 귀무가설이 기각되면 범주별 기대빈도의 값과 관측빈도의 값의 차이가 충분히 크다고 할 수 있음
- 기대빈도는 관측빈도의 총합에 범주별 확률을 곱해서 구해지므로 기대빈도의 합과 관측빈도의 합은 귀무가설의 기각 여부에 상관 없이 같음
- 기대빈도가 5 이하인 셀이 전체의 20%가 넘지 않아야 되며, 5보다 적으면 사례 수 증가 시켜야 함
- 적합도 검정, 독립성 검정, 동질성 검정으로 분류
1) 적합도 검정
- 변수가 1개이고 그 변수가 2개 이상의 범주로 구성되어 있을 때 사용하는 일변량 분석 방법
- 표본 집단의 분포가 주어진 특저 분포를 따르고 있는지 검정
- 자료를 구분하는 범주가 상호 배타적이어야 함
- 귀모가설은 '표본 집단의 분포가 주어진 특정 분포를 따른다'고 설정
- 관찰 빈도와 기대빈도의 차이가 클수록 귀무가설을 기각할 확률 높아짐
2) 독립성 검정
- 변수가 두 개 이상의 범주로 분할되어 있을 때 사용
- 각 범주가 서로 독집적인지, 연관성이 있는지를 검정
- 기대빈도는 '두 변수가 서로 상관이 없고 독립적' 이라고 기대하는 것을 의미
- 관측빈도와의 차이를 통해 기대빈도의 진위 여부 밝힘
- 귀무가설은 '요인 1과 요인 2는 독립적'이라고 설정
3) 동질성 검정
- 각각의 독립적인 부모집단으로부터 정해진 표본의 크기만큼 자료를 추출하는 경우에 관측값들이 정해진 범주 내에서 서로 동질한지 여부 검정
- 귀무가설은 '모집단은 동일'하다고 설정
- 독립성 검정과 개념상의 차이만 있을 뿐 계산 방식은 동일
(3) 피셔의 정확 검정
- 분할표에서 표본 수가 적거나 표본이 셀에 치우치게 분포되어 있을 경우 실시
- 범주형 데이터에서 기대빈도가 5 미만인 셀이 20%를 넘는 경우 카이제곱 검정의 정확도가 떨어지므로 실시
(4) T-검정
- 독립변수가 범주형이고, 종속변수가 수치형일 때 두 집단의 평균을 비교하는 검정 방법
- 두 집단 간의 평균을 비교하는 모수적 통계 방법
- 표본이 정규성, 등분산성, 독립성 등을 만족할 경우 적용
1) 단일 표본 T-검정: 한 집단의 평균이 모집단의 평균과 같은지 검정
- 모집단의 평균이 알려져 있는 경우 하나의 표본 집단의 평균을 구하고 모집단의 평균과 표본 집단의 평균이 같은지 검정
- 표본 집단의 수가 1개가 됨
2) 대응 표본 T-검정: 동일한 집단의 처치 전후 차이를 알아보기 위해 사용
- 한 그룹의 처치 전 데이터와 처치 후 데이터를 분석
3) 독립 표본 T-검정: 데이터가 서로 다른 모집단에서 추출될 경우 사용
- 두 집단의 평균 차이 검정
- 정규성, 등분산성 가정이 만족되는 지 먼저 확인
- 표본이 둘, 독립변수가 1개일 때 사용
2. 다변량 분석
- 여러 현상이나 사건에 대한 측정치를 개별적으로 분석하지 않고 동시에 분석 (관계성 고려)
(1) 유형
- 다중 회귀분석: 독립변수가 K개이며 종속변수와의 관계가 선형인 회귀분석 기법
- 다변량 분산 분석: 독립변수가 1개 이상이고 종속변수가 2개 이상일 때 두 집단 간 평균 차이를 검증
- 판별 분석: 분류된 집단 간의 차이르 ㄹ설명해 줄 수 있는 독립변수들로 이루어진 최적판별식을 찾기 위한 기법
- 다차원 척도법: 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현
- 군집 분석: 관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 집단의 특성 분석
- 요인 분석: 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석 (데이터 안에 관찰할 수 없는 잠재적인 변수가 존재한다고 가정)
- 주성분 분석: 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법
(2) 판별 분석
- 집단 간의 차이를 설명해줄 수 있는 독립변수들로 만든 최적의 판별 함수를 찾고, 새로운 개체에 대하여 어느 집단에 속하는지를 판별하여 분류하는 탐색적인 통계 기법
- 종속변수가 범주형이고 독립변수가 연속형일 때 사용
- 판별 분석: 종속변수의 집단 수가 2개
- 다중판별분석: 종속변수의 집단 수가 3개 이상
- 판별함수: 그룹 내 분산 대비 그룹 간 분산의 차이를 최대화하는 독립변수들의 판별계수 (독립변수들의 선형결합으로 나타냄)
- 판별함수의 수는 그룹의 수-1 과 독립변수의 수 중에서 더 작은 값만큼 만들어짐
- 변수 선택 → 판별함수 생성 → 적합도 평가 → 예측
(3) 다차원 척도법
- 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법
- 목적: 데이터 축소, 의미 부여, 기하적 표현
- 개체들의 거리는 유클리드 거리행렬 이용
- 스트레스 값을 이용하여 관측 대상들의 적합도 수준 나타냄
- 스트레스 값은 0에 가까울수록 적합도 수준 완벽, 1에 가까울수록 나쁨
- 종류: 계량적 다차원 척도법, 비 계량적 다차원 척도법
- 해석에는 개체 간 그룹, 개체 간 순서, 축의 해석 등 고려
(4) 요인 분석
- 변수 간의 상관관계를 고려하여 서로 유사한 변수들을 묶어 새로운 잠재요인들을 추출
- 목적: 변수를 축소, 불필요한 변수 제거, 변수 특성 파악, 측정항목 타당성 평가, 요인점수를 이용한 변수 생성
- 학습절차: 데이터 입력 → 상관계수 산출 → 요인 추출 → 요인 적재량 산출 → 요인 회전 → 생성된 요인 해석 → 요인점수 산출
3. 주성분 분석 (PCA; Principal Component Analysis)
- 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원 축소 방법
- 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소
- 차원 축소 시 변수 추출 방법 사용
- 행렬분해기법
- 수학적으로 직교 선형 변환으로 정의
- 변동 폭이 큰 축을 선택
- 차원축소는 고윳값이 높은 순으로 정렬해서 높은 고윳값을 가진 고유벡터만으로 데이터 복원
- 누적 기여율이 70~90% 사이면 주성분의 수로 결정
- 차원 감소폭의 결정은 스크리 산점도, 전체 변이의 공헌도, 평균 고윳값 등을 활용
- 차원의 저주에 대한 접근 방법 중 하나
- 절차: 축 생성 → 축에 데이터 투영 → 차원 축소
- 목적: 차원축소, 다중공선성 해결
차원 축소 | 여러 변수 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분 또는 요인으로 차원을 축소함으로써 데이터 이해가 용이 |
다중곤선성 해결 | 비 상관도가 높은 변수들을 하나의 주성분 혹은 요인으로 축소하여 모형개발에 활용 |
[주성분 개수 선택 방법]
- 전체 변이의 공헌도: 표준편차를 제곱하면 해당 주성분의 분간 값 산출 가능
- 평균 고윳값: 고윳값들의 평균을 구한 후 고윳값이 평균값 이상이 되는 주성분을 선택하는 방법
- 스크리 산점도: 기울기가 완만해지기 직전까지를 주성분 수로 결정 (x축에 주성분, y축에 각 주성분의 분산을 표현)
4. 시계열 분석 (Time-Series Data)
- 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석 기법
- 목적: 외부인자와 관련해 계절적인 패턴과 같은 요소를 설명할 수 있는 모델 결정
- x축에는 시간, y축에는 관측값
- 시계열 데이터는 규칙적, 불규칙한 특징
- 시계열 데이터는 시간의 흐름에 따라 관측되는 자료이므로 대체로 독립적이지 않음
- 정상성: 시점에 상관없이 시계열의 특성이 일정하다는 의미 (시계열 분석을 위해서는 정상성을 만족해야 함)
- 자기 회귀 모형: 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있는 모형
- 이동평균 모형 (MA): 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 모형 (과거의 몇 개 관측치를 평균하여 전반적인 추세 파악)
- 자기 회귀 누적 이동평균 모형(ARIMA): 분기/반기/연간 단위로 다음 지표를 예측하거나 주간/월간 단위로 지표를 리뷰하여 트렌드 분석 (비정상 시계열 모형 - 차분이나 변환을 통해 AR 모형이나 MA 모형, ARMA 모형으로 정상화)
- 시계열 분해: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석 (시계열을 분리하는 분해식 사용)
- 시계열 분해 구성요소: 추세 요인, 계절 요인, 순환 요인, 불규칙 요인
추세 요인 | 자료가 어떤 특정한 형태를 취함 |
계절 요인 | 고정된 주기에 따라 자료가 변화할 경우 |
순환 요인 | 알려지지 않은 주기를 가지고 자료가 변화 |
불규칙 요인 | 추세, 계절, 순환 요인으로 설명할 수 없는 회귀 분석에서 잔차에 해당하는 요인 |
5. 딥러닝 분석
- 여러 비선형 변환 기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습 알고리즘의 집합
- 기존 인공신경망 모델의 문제점인 기울기 소실 해결
- 강력한 GPU를 연산에 활용하여 하드웨어 연산속도를 높여 분석시간 단축
- GPU: 메몰리를 짜르게 처리하고, 화면으로 출력할 프레임 버퍼 안의 영상 생성을 가속하도록 설계된 고성능 그래픽 처리 장치
- 빅데이터의 등장과 SNS 활용 증가로 학습에 필요한 데이터 확보 가능
- 오차역 전파 사용
- ReLU 와 같은 활성화 함수 많이 사용
- 은닉층을 사용하여 결과에 대한 해석 어려움
- Dropout은 일정한 비율을 가지고 무작위로 신경망 제거
(1) 딥러닝 알고리즘
1) DNN(Depp Neural Network, 심층 신경망): 은닉층을 심층 구성한 신경망으로 학습하는 알고리
2) CNN (Convolution Neural Network, 합성곱 신경망): 시각적 이미지를 분석하는 데 사용되는 심층 신경망
- 필터 기능 + 신경망
- 필터 기능을 이용하여 입력 이미지로부터 특징을 추출한 뒤 신경망에서 분류작업 수행
3) RNN (Recurrent Neural Network, 재귀 신경망): 은닉층에서 재귀적인 신경망을 갖는 알고리즘
- 음성신호, 연속적 시계열 데이터 분석에 적합
- 장기 의존성 문제와 기울기 소실문제가 발생하여 학습이 이루어지지 않을 수 있음
4) LSTM(Long Short-Term Memory): RNN의 장기의존성 문제를 보완하기 위해 설계한 신경망 알고리즘
- 입력 게이트, 망각 게이트, 출력 게이트로 구성
5) 오토인코더 알고리즘: 입력 데이터를 최대한 압축 시킨 후, 압축된 데이터를 다시 본래의 입력 형태로 복원시키는 신경망
- 비지도 학습 신경망
- 인코더: 인지 네크워크, 입력을 내부 표현으로 반환. 차원 축소 역할
- 디코더: 생성 네트워크, 내부 표현을 출력으로 변환. 생성 모델의 역할
- 입력층의 노드 개수는 출력층의 노드 개수와 동일
- 은닉층의 노드 개수는 입력층의 노드 개수보다 작음
6. 비정형 데이터 분석
- 비정형 데이터 안에서 체계적인 통계적 규칙이나 패턴을 탐색하고 이를 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 분석 기법
- 대표적인 비정형 분석기법: 텍스트 마이닝, 오피니언 마이닝, 웹 마이닝, 사회 연결망 분석
텍스트 마이닝 (Text Mining) | - 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용해 정보를 추출하는 기법 - 비정형화된 문서에서 정보 습득 가능 |
오피니언 마이닝 (Opinion Mining) | - 주관적인 의견이 포함된 데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 분석하는 기법 - 긍정, 부정, 중립으로 선호도 판별 |
웹 마이닝 (Web Mining) | - 웹에서 발생하는 고객의 행위 분석과 특성 데이터를 추출, 정제하여 의사결정에 활용하기 위한 기법 |
사회 연결망 분석 (SNA; Social Network Analysis) | - 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법 |
(1) 텍스트 마이닝
- 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용해 정보를 추출하는 기법
- 사람들의 말하는 언어를 이해할 수 있는 자연어 처리 기술에 기반
- 절차: 텍스트 수집 → 텍스트 전처리 → 텍스트 의미 추출 → 텍스트 패턴 분석 → 정보 생성
텍스트 수집 | - 데이터베이스, 텍스트 기반 문서 등이 수집 대상 |
텍스트 전처리 | - 문서 내 표현된 단어, 구, 절에 해당하는 내용을 가공할 수 있는 데이터로 변환하는 작업 - 크롤링 등으로 데이터 추출 후 HTML 태그나 XML 문법을 제거하는 작업 - 마침표, 문장부호를 사용하여 문장 구분하는 작업 수행 - 문장 토큰화: 텍스트의 단어, 어절을 분리하는 작업 - 불용어 제거: 의미 없는 단어 (the, of 등) 제거 - 어간 추출: 단어들에서 공통 음절을 뽑아내는 작업 |
텍스트 의미 추출 | - 복잡한 의미 정보의 표현을 단순화 - 도메인에 적합한 정보를 문서의 의미 데이터로 저장 |
텍스트 패턴 분석 | - 의미 데이터를 기반으로 문서를 자동으로 군집화 및 분류 |
정보 생성 | - 시각화 도구를 통해 효과적으로 정보를 표현 |
- 기능: 정보 추출, 문서 요약, 문서 분류, 문서 군집화 등
정보 추출 | - 일반적인 텍스트 문서로부터 사용자가 원하는 정보를 추출하는 작업 - 원하는 정보를 문장의 형식이나 사용자가 이전에 미리 정의한 질의 포맷에 맞추어서 추출 |
문서 요약 | - 정보 추출에서 더 나아가 문서에서 다룬 중요 내용을 글로 요약하는 기법 |
문서 분류 | - 키워드에 따라 문서를 분류하는 기법 - 주어진 키워드 집합에 따라 해당 카테고리로 분류 |
문서 군집화 | - 문서를 분석해 동일 내용의 문서들을 묶는 기법 |
- 주요 기법: 워드 클라우드, N-gram 모델, 워드 임베딩, BoW(Bag of Words), TF-IDF, Word2Vec,
1) 워드 클라우드
- 자연어 처리를 통해 사람들의 관심사 또는 빈도수를 단순 카운트하여 시각화하는 방법
2) N-gram 모델
- 카운트에 기반한 통계적 접근을 사용하는 모델
- 이전에 등장한 단어를 고려하는 것이 아니라 일부 단어만 고려하는 접근 방법 사용
- n개의 연속적인 단어 나열 의미
- N은 일부 단어를 고려하기 위한 임의 개수를 정하기 위해 사용
- 말뭉치에서 n개의 단어 뭉치 단위로 끊어서 이를 하나의 토큰으로 간주
- 문서 또는 문장을 벡터로 변환해서 자연어 처리의 여러 응용 분야에 활용 가능
3) 워드 임베딩
- 각 단어를 인공 신경망 학습을 통해 벡터화하여 수치로 처리하는 방법
- 텍스트를 컴퓨터가 이해하고, 효율적으로 처리하게 하기 위해서는 컴퓨터가 이해할 수 있도록 텍스트를 적절히 숫자로 변환해야 함
- 대표적인 표현 방법: BoW, TF-IDF, Word2Vec 등
4) BoW(Bag of Words)
- 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도에만 집중하는 텍스트 데이터의 수치화 표현 방법
- 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 단어에 대한 빈도값을 부여한 후 피처 값으로 추출하는 방식
- 쉽고 빠른 구축, 문서의 특징을 잘 나타냄 > 여러 분야에서 활용도 높음
- 문맥 의미 반영 문제와 희소 행렬 문제 있음. (문서 단어 행렬의 모든 행이 0이 아닌 값보다 0의 값이 더 많은 행렬)
5) TF-IDF (Term Frequency-Inverse Document Frequency)
- 정보 검색과 텍스트 마이닝에서 이용하는 가중치
- 여러 문서로 이루어진 문서 군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 측정하는 기법
6) Word2Vec
- 단어 벡터 간 유의미한 유사도를 반영할 수 있도록 단어의 의미를 수치화할 수 있는 방법
- 단어를 벡터로 변환시켜 신경망 구조를 활용
- 단어의 원-핫 벡터를 입력으로 넣고 주변 단어의 원-핫 벡터값을 예측하는 방식으로 학습
- 학습 속도가 빠름
- 단어의 맥략을 고려 > 단어의 의미를 잘 파악
(2) 오피니언 마이닝
- 주관적인 의견이 포함된 데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 분석하는 기법
- 사람들이 특정 제품 및 서비스를 좋아하거나 싫어하는 이유를 분석하여 여론이 실시간으로 어떻게 변하는지 확인
- 절차: 특징 추출 → 문장 인식 → 요약 및 전달
(3) 웹 마이닝
- 데이터 마이닝 기법을 활용하여 웹상의 문서들과 서비스들로부터 정보를 자동으로 추출, 발견하는 기법
- 정보 단위인 '노드'와 연결점인 '링크' 활용
- 유형: 웹 내용 마이닝, 웹 사용 마이닝, 웹 구조 마이닝 등
웹 내용 마이닝 | 웹 사이트를 구성하는 페이지의 내용 중에서 유용한 정보 추출 |
웹 사용 마이닝 | 웹 로그를 통해 사용자의 행위 패턴을 분석하여 의미 있는 정보 추출 |
웹 구조 마이닝 | 웹 사이트의 구조적인 요약 정보를 찾기 위한 기법 (하이퍼링크를 통한 그래프의 구조적인 정보 이용) |
(4) 사회 연결망 분석
- 개인과 집단 간의 관계를 노드와 링크로 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법
- 절차: 데이터 수집 (웹 크롤러, NodeXL 활용) → 데이터 분석 (R, Python, NodeXL 활용) → 데이터 시각화
- 주요 속성: 응집력. 구조적 등위성, 명성, 범위, 중계 등
- 측정지표: 연결 정도, 포괄성, 밀도, 연결 정도 중심성, 근접 중심성, 매개 중심성, 위세 중심성
연결 정도 | - 노드 간의 총 연결 관계 개수 - 한 노드가 몇 개의 노드와 연결되어 있는지의 정도 |
포괄성 | - 네트워크 내에서 서로 연결된 노드의 개수 - 전체 네트워크에서 연결되어 있지 않은 노드들을 제거하고 남은 노드의 개수 |
밀도 | - 네트워크 내에서 노드 간의 전반적인 연결 정도 수준을 나타내는 지표 - 연결망 내 전체 구성원이 서로 간에 얼마나 많은 관계를 맺고 있는지를 표현 |
연결 정도 중심성 | - 특정 노드가 연결망 내에서 연결된 다른 노드들의 합 - 노드가 얼마나 많은 노드와 관계를 맺고 있는지를 파악 |
근접 중심성 | - 각 노드 간의 거리를 바탕으로 중심성을 측정하는 방식 - 직-간접적으로 연결되어 있는 모든 노드 간의 거리를 바탕으로 중심성 측정 |
매개 중심성 | - 네트워크 내에서 특정 노드가 다른 노드들 사이에 위치하는 정도를 나타내는 지표 - 네트워크 내에서 어디에 위치하는지를 파악함으로써 해당 노드의 영향력을 파악 |
위세 중심성 | - 자신의 연결 정도 중심성으로부터 발생하는 영향력과 자신과 연결된 타인의 영향력을 합하여 결정하는 방법 |
7. 앙상블 분석(Ensemble)
- 앙상블: 여러 가지 동일한 종류 또는 서로 상이한 모형들의 예측/분류 결과를 종합하여 최종적인 의사결정에 활용하는 기법 (앙상블 - 통일, 조화)
- 보다 높은 신뢰성 확보, 정확도 상승
- 모형의 투명성이 떨어지게 되어 정확한 현상의 원인 분석에 부적합
(1) 앙상블 알고리즘
- 주어진 자료로부터 여러 개의 예측 모형을 만든 후 예측 모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법
- 여러 개의 학습 모델을 훈련하고 투표를 통해 최적화된 예측을 수행하고 결정
- 절차: 도출 및 생성 → 집합별 모델 학습 → 결과 조합 → 최적 의견 도출
- 다중 모델 조합
- 분류기 조합
(2) 앙상블 기법의 종류
1) 배깅 (Bagging; Bootstrap Aggregating)
- 훈련 데이터에서 다수의 부트스트랩 자료를 생성하고, 각 자료를 모델링한 후 결합하여 최종 예측 모형을 만드는 알고리즘
- 부트스트랩은 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료를 의미
- 절차: 부트스트랩 데이터 추출 → 단일 분류기 생성 → 최종 모델 결정
- 보팅: 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과를 선정하는 과정
- 최적의 의사결정나무를 결정할 때 가지치기를 하지 않고 최대한 성장한 의사결정나무들을 활용
- 실제 현실에서는 훈련자료를 모집단으로 생각하고 평균 예측 모형을 구하여 분산을 줄이고 예측력을 향상
- 목표: 전반적으로 분류를 잘할 수 있도록 유도 (분산감소)
- 주요 알고리즘은 랜덤 포레스트
2) 부스팅(Boosting)
- 잘못 분류된 개체들에 가중치를 적용, 새로운 분류 규칙을 만들고, 이 과정을 반복해 최종 모형을 만드는 알고리즘
- 예측력이 약한 모형을 결합하여 강한 예측 모형을 만드는 방법
- 절차: 동일 가중치 분류기 생성 → 가중치 변경 통한 분류기 생성 → 최종 분류기 결정
- 목표: 분류하기 힘든 관측값들에 대해서 정확하게 분류를 잘하도록 유도 (예측력 향상)
- 주요 알고리즘은 AdaBoost, GBM
3) 랜덤 포레스트
- 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
- 훈련을 통해 구성해 놓은 다수의 나무들로부터 투표를 통해 분류 결과를 도출
- 분류기를 여러 개 쓸수록 성능 향상
- 트리의 개수가 많을수록 과대적합 문제 회피
- 여러 개의 의사결정 트리가 모여 랜덤 포레스트 구조가 됨
- 절차: 데이터 추출 → 대표 변수 샘플 도출 → Leaf Node로 분류 → 최종 모델 결정
- 수천 개의 변수를 통해 변수 제거 없이 실행되므로 정확도 측면에서 좋은 성과 보임 (예측력 매우 높음)
- 이론적 설명이나 최종 결과에 대한 해석 어려움
- 주요기법: 배깅을 이요한 포레스트 구성, 임의노드 최적화
- 주요 초매개변수: 포레스트 크기, 최대 허용 깊이, 임의성 정도
포레스트 크기 | - 총 포레스트를 몇 개의 트리로 구성할지를 결정하는 매개변수 - 포레스트가 작으면 트리들의 구성 및 테스트 시간이 짧은 대신, 일반화 능력 떨어짐 - 포레스트의 크기가 크면 훈련과 테스트 시간 증가하나, 결괎값의 정확성 및 일반화 능력 우수 |
최대 허용 깊이 | - 하나의 트리에서 루트 노드부터 종단 노드까지 최대 몇 개의 노드를 거칠 것인지를 결정하는 매개변수 - 최대 허용 깊이가 작으면 과소 적합 발생 - 최대 허용 깊이가 크면 과대 적합 발생 > 적절한 값의 설정 필요 |
임의성 정도 | - 임의성에 의해 서로 조금씩 다른 특성을 갖는 트리로 구성 - 임의성의 정도에 따라 비상관화 수준 결정 |
앙상블 베이스 모형의 독립성을 최적화하기 위하여,
1) 입력변수를 다양하게 한다
2) 서로 다른 알고리즘 사용
3) 매개변수를 다양하게 다
8. K-NN (K-최근접 이웃; K-Nearest Neighbor)
- 새로운 데이터 클래스를 해당 데이터와 가장 가까운 k개의 데이터를 클래스로 분류하는 알고리즘
- 지도 학습의 한 종류: 예측 변수에 따른 정답 데이터 제공
- 분류와 회귀 사용 가능 (분류 - 다수가 속한 클래스 분류 / 회귀 - 유사한 레코드들의 평균을 예측값으로 사용)
- 수치형 예측 변수 사용
- 예측 변수 표준화 필요
- 학습 절차 없이 새로운 데이터 들어올 때 거리 측정 (Lazy Mdel, Instance-based Learning)
- k값에 따른 다른 에측 결과
(1) 최적의 K 선택
- K의 선택은 학습의 난이도와 데이터의 개수에 따라 결정, 일반적으로 훈련 데이터 개수의 제곱근으로 설정
- K를 너무 크게 설정하면 주변에 있는 점과의 근접성이 떨어짐 > 분류가 잘 이루어지지 않고, 과소 적합 발생
- 이상치, 잡음 데이터와 이웃이 될 가능성이 있으므로 적절한 K를 선택하는 것이 중요
(2) 장단점
장점 | 단점 |
- 범주를 나눈 기준을 알지 못해도 데이터를 분류 - 입력 데이터만 주어지면 바로 예측값 산출 가능 - 다른 분류 모형과는 달리 학습 과정 불필요 - 이해가 쉽고, 구현 간단 - 추가된 데이터의 처리 용이 | - 다른 분류 모형과 달리 테스트 데이터의 개수에 따라 시간 오래 걸림 - 학습 데이터 모두를 거리 계산에 사용 > 학습 데이터의 양도 계산 시간에 영향 - K의 값 결정 어려움 - 수치형 데이터가 아니면 유사도를 정의하기 어려움 - 데이터 내에 이상치가 존재하면 분류 성능에 큰 영향 |
(3) K-NN 과 K-평균 군집 비교
항목 | K-NN | K-평균 군집 |
유형 | 지도 학습 (Supervised Learning) | 비지도 학습 (Unsupervised Learning) |
K 의미 | 근접한 이웃의 수 | 클래스의 수 |
최적화 기법 | Cross validation, 혼동행렬 | 엘보우, 실루엣 기법 |
활용 | 분류 및 회귀 | 군집(Clustering)a |
이전글
다음글
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터 분석기사] 4과목 빅데이터 결과 해석(2) (0) | 2024.03.16 |
---|---|
[빅데이터 분석기사] 4과목 빅데이터 결과 해석(1) (0) | 2024.03.15 |
[빅데이터 분석기사] 3과목 빅데이터 모델링(3-2-1) (0) | 2024.03.14 |
[빅분기 기출문제] 오답노트 (0) | 2024.03.14 |
[빅데이터 분석기사] 3과목 빅데이터 모델링(3-1) (0) | 2024.03.13 |