TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 2과목 빅데이터 탐색(1-1)

by 기록자_Recordian 2024. 3. 12.
728x90
반응형

[목차]

 

[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)

빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이

puppy-foot-it.tistory.com


빅데이터 탐색 - 데이터 탐색

<데이터 전처리>

1. 데이터 정제

(1) 데이터 전처리의 중요성

  • 전처리 결과가 분석 결과에 직접적인 영향을 주고 있어서 전처리는 반복적으로 수행해야 함
  • 데이터 분석의 단계 중 가장 많은 시간이 소요되는 단계
  • 데이터 정제 → 결측값 처리 → 이상값 처리 → 분석 변수 처리 순서로 진행
  • 데이터 분석 과정에서 반드시 거쳐야 하는 과정

(2) 데이터 정제

 

데이터 정제: 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰를 높이는 작업

 

[절차]

데이터 오류 원인 분석 → 데이터 정제 대상 선정 → 데이터 정제 방법 결정

 

[데이터 오류 원인]

결측값, 노이즈, 이상값

  • 결측값: 필수적인 데이터가 입력되지 않고 누락된 값
  • 노이즈: 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값
  • 이상값: 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값

[데이터 정제 대상 선정]

  • 모든 데이터 대상
  • 특별히 데이터 품질 저하의 위협이 있는 데이터에 대해서는 더 많은 정제 활동 수행
  • 외부 데이터가 품질 저하 위협에 많이 노출
  • 비정형과 반정형 데이터가 품질 위협에 많이 노출

[데이터 정제 방법 결정]

삭제, 대체, 예측값 삽입

  • 삭제: 오류 데이터에 대해 전체 또는 부분삭제
  • 대체: 오류 데이터를 평균값, 최빈수, 중위수(중앙값)로 대체
  • 예측값 삽입: 회귀식 등을 이용한 예측값을 생성하여 삽입

[데이터 일관성 유지를 위한 정제 기법]

  • 변환
  • 파싱
  • 보강

(3) 데이터 세분화

 

데이터 세분화: 데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 유사한 데이터를 그룹화하여 효율적으로 사용할 수 있는 프로세스

 

[방법]

군집화: 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 작업

  • 계층적방법: 사전에 군집 수를 정하지 않고 단계적으로 단계별 군집결과를 산출하는 방법
  • 비계층적방법: 군집을 위한 소집단의 개수를 정해놓고 각 객체 중 하나의 소집단으로 배정하는 방법
구분 기법 설명
계층적
방법
응집분석법 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단 구성해가는 기법
분할분석법 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해가는 기법
비계층적
방법
인공신경망 모델 기계 학습에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습모델
k-평균 군집 k개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집단의 중심좌표를 업데이트 하는 방식으로 군집화하는 방식

2. 데이터 결측값 처리

(1) 데이터 결측값 개념

  • 결측값은 입력이 누락된 값 (NA, 9999, Null 등으로 표현)

(2) 종류

완전 무작위 결측, 무작위 결측, 비 무작위 결측

  • 완전 무작위 결측: 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우
  • 무작위 결측: 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우
  • 비 무작위 결측: 누락된 값이 다른 변수와 연관 있는 경우

(3) 처리 절차

  • 결측값 식별 → 결측값 부호화 → 결측값 대체

(4) 처리 방법

단순 대치법, 다중 대치법

 

ㄱ. 단순 대치법

  • 결측값을 그럴듯한 값으로 대체하는 통계적 기법
  • 결측값을 가진 자료 분석에 사용하기가 쉽고, 통계적 추론에 사용된 통계량의 효율성 및 일치성 등의 문제를 부분적으로 보완
  • 대체된 자료는 결측값 없이 완전한 형태

[종류]

  • 완전 분석법: 불완전 자료는 모두 무시하고 완전하게 관측된 자료만 사용하여 분석
  • 평균 대치법: 관측 또는 실험되어 얻어진 자료의 평균값으로 결측값을 대치해서 불완전한 자료를 완전한 자료로 만드는 방법
  • 단순 확률 대치법: 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법

[단순 확률 대치법 종류]

  • 핫덱 대체: 무응답을 현재 진행 중인 연구에서 '비슷한' 성향을 가진 응답자의 자료로 대체 (표본조사에서 흔히 사용)
  • 콜드덱 대체: 핫덱과 비슷하나 대체할 자료를 외부 출처 또는 이전의 비슷한 연구에서 가져오는 방법
  • 혼합방법: 몇 가지 다른 방법을 혼합

ㄴ. 다중 대치법

  • 단순 대치법을 한 번 하지 않고 m번 대치를 통해 m개의 가상적 완전한 자료를 만들어서 분석하는 방법
  • 대치 → 분석 → 결합의 3단계
  • 원 표본의 결측값을 한 번 이상 대치하여 여러 개의 대치된 표본을 구하는 방법
  • D개의 대치된 표본을 만들어야 하므로 항상 같은 값으로 결측 자료를 대치할 수 없음

3. 데이터 이상값 처리

(1) 개념

  • 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값
  • 입력 오류, 데이터 처리 오류 등의 이유로 특정 범위에서 벗어난 데이터 값
  • 평균에 영향을 미침

(2) 발생원인

  • 표본추출 오류: 데이터를 샘플링하는 과정에서 나타나는 오류
  • 고의적인 이상값: 자기 보고식 측정에서 나타나는 오류
  • 데이터 입력 오류
  • 실험 오류
  • 측정 오류
  • 데이터 처리 오류
  • 자연 오류

(3) 검출 방법 - 통계 기법 이용 / 시각화 이용 / 데이터 군집 및 분류

 

ㄱ. 통계 기법을 이용한 데이터 이상값 검출

ESD, 기하평균, 사분위수, Z-점수, Q검정, T-검정, 카이제곱 검정, 마할라노비스 거리

  • ESD: 평균으로부터 3 표준 편차 떨어진 값을 이상값으로 판단
  • 기하평균 활용한 방법: 기하평균으로부터 2.5 표준편차 떨어진 값을 이상값으로 판단
  • 사분위수를 이용한 방법: 제1 사분위, 제3 사분위를 기준으로 사분위간 범위의 1.5배 이상 떨어진 값을 이상값으로 판단
  • Z-점수 활용: 관측치들이 자료의 중심에서 얼마나 떨어져 있는지를 나타냄에 따라서 이상값 검출
  • 딕슨의 Q 검정: 오름차순으로 정렬된 데이터에서 범위에 대한 관측치 간의 차이의 비율을 활용하여 이상값 여부를 검정하는 방법
  • 그럽스 T-검정: 정규분포를 만족하는 단변량 자료에서 이상값을 검정하는 방법
  • 카이제곱 검정: 데이터가 정규분포를 만족하나, 자료의 수가 적은 경우에 이상값을 검정하는 방법
  • 마할라노비스 거리 활용: 데이터의 분포를 고려한 거리 측도로, 관측치가 평균으로부터 벗어난 정도를 측정하는 통계량 기법

※ 기하평균: n개의 양수 값을 모두 곱한 것은 n제곱근이다.

 

ㄴ. 시각화를 이용한 데이터 이상값 검출

확률 밀도 함수, 히스토그램, 시계열 차트

  • 확률 밀도 함수: 확률변수의 분포를 보여주는 함수
  • 히스토그램: 주로 X축에 계급 값을, Y축에 각 계급에 해당하는 자료의 수치를 표시
  • 시계열 차트: 시간에 따른 자료의 변화나 추세를 보여주는 그래프

 

ㄷ. 데이터 군집/분류를 이용한 데이터 이상값 검출

k-평균 군집, LOF, iForest (의사결정나무)

  • k-평균 군집: 주어진 데이터를 k개의 클러스터로 묶는 알고리즘, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작
  • LOF(Local Outlier Factor): 관측치 주변의 밀도와 근접한 관측치 주변의 밀도의 상대적인 비교를 통해 이상값을 탐색하는 기법 (LOF 값이 클수록 이상값 정도가 큼)
  • iForest (Isolation Forest): 관측치 사이의 거리 또는 밀도에 의존하지 않고, 데이터 마이닝 기법인 의사결정나무를 이용하여 이상값을 탐지하는 방법

※ 의사결정나무: 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 예측 모델

 

(4) 데이터 이상값 처리

  • 이상값을 반드시 제거해야 하는 것은 아니므로 이상값을 처리할지는 분석의 목적에 따라 적절한 판단 필요

[처리 기법]

삭제, 대체법, 변환, 박스플룻 해석

  • 삭제: 이상값으로 판단되는 관측값을 제외하고 분석하는 방법 (극단값 절단 등)
  • 대체법: 하한값과 상한값을 결정한 후 하한값보다 작으면 하한값으로 대체하고 상한값보다 크면 상한값으로 대체
  • 변환: 극단적인 값으로 인해 이상값이 발생했다면 자연로그를 취해서 값을 감소시키는 방법
  • 박스플룻 해석

4. 텍스트 전처리

(1) 토큰화

  • 문장을 최소 의미 단위로 잘라서 컴퓨터가 인식하도록 하는 방법
  • 말뭉치에서 의미 있는 형태소로 분할하기 위해 토큰이라 불리는 단위로 나누는 작업
  • 영어: 주로 띄어쓰기 기준 / 한글: 단어 안의 형태소를 최소 의미 단위로 인색해 적용

(2) 품사 태깅

  • 형태소의 품사를 태깅하는 기법

(3) 표제어 추출

  • 단어들로부터 표제어를 찾는 기법

(4) 어간 추출

  • 단어에서 접사를 제거하여 어간을 획득하는 기법

(5) 불용어 처리

  • 조사, 접미사 같은 실제 의미 분석을 하는 데는 거의 기여하는 바가 없는 단어를 처리하는 기법

이전글

[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-2)

 

다음글

[빅데이터 분석기사] 2과목 빅데이터 탐색(1-2)

728x90
반응형