[목차]
빅데이터 탐색 - 데이터 탐색
<데이터 전처리>
1. 데이터 정제
(1) 데이터 전처리의 중요성
- 전처리 결과가 분석 결과에 직접적인 영향을 주고 있어서 전처리는 반복적으로 수행해야 함
- 데이터 분석의 단계 중 가장 많은 시간이 소요되는 단계
- 데이터 정제 → 결측값 처리 → 이상값 처리 → 분석 변수 처리 순서로 진행
- 데이터 분석 과정에서 반드시 거쳐야 하는 과정
(2) 데이터 정제
데이터 정제: 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰를 높이는 작업
[절차]
데이터 오류 원인 분석 → 데이터 정제 대상 선정 → 데이터 정제 방법 결정
[데이터 오류 원인]
결측값, 노이즈, 이상값
- 결측값: 필수적인 데이터가 입력되지 않고 누락된 값
- 노이즈: 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값
- 이상값: 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값
[데이터 정제 대상 선정]
- 모든 데이터 대상
- 특별히 데이터 품질 저하의 위협이 있는 데이터에 대해서는 더 많은 정제 활동 수행
- 외부 데이터가 품질 저하 위협에 많이 노출
- 비정형과 반정형 데이터가 품질 위협에 많이 노출
[데이터 정제 방법 결정]
삭제, 대체, 예측값 삽입
- 삭제: 오류 데이터에 대해 전체 또는 부분삭제
- 대체: 오류 데이터를 평균값, 최빈수, 중위수(중앙값)로 대체
- 예측값 삽입: 회귀식 등을 이용한 예측값을 생성하여 삽입
[데이터 일관성 유지를 위한 정제 기법]
- 변환
- 파싱
- 보강
(3) 데이터 세분화
데이터 세분화: 데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 유사한 데이터를 그룹화하여 효율적으로 사용할 수 있는 프로세스
[방법]
군집화: 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 작업
- 계층적방법: 사전에 군집 수를 정하지 않고 단계적으로 단계별 군집결과를 산출하는 방법
- 비계층적방법: 군집을 위한 소집단의 개수를 정해놓고 각 객체 중 하나의 소집단으로 배정하는 방법
구분 | 기법 | 설명 |
계층적 방법 |
응집분석법 | 각 객체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단 구성해가는 기법 |
분할분석법 | 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해가는 기법 | |
비계층적 방법 |
인공신경망 모델 | 기계 학습에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습모델 |
k-평균 군집 | k개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집단의 중심좌표를 업데이트 하는 방식으로 군집화하는 방식 |
2. 데이터 결측값 처리
(1) 데이터 결측값 개념
- 결측값은 입력이 누락된 값 (NA, 9999, Null 등으로 표현)
(2) 종류
완전 무작위 결측, 무작위 결측, 비 무작위 결측
- 완전 무작위 결측: 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우
- 무작위 결측: 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우
- 비 무작위 결측: 누락된 값이 다른 변수와 연관 있는 경우
(3) 처리 절차
- 결측값 식별 → 결측값 부호화 → 결측값 대체
(4) 처리 방법
단순 대치법, 다중 대치법
ㄱ. 단순 대치법
- 결측값을 그럴듯한 값으로 대체하는 통계적 기법
- 결측값을 가진 자료 분석에 사용하기가 쉽고, 통계적 추론에 사용된 통계량의 효율성 및 일치성 등의 문제를 부분적으로 보완
- 대체된 자료는 결측값 없이 완전한 형태
[종류]
- 완전 분석법: 불완전 자료는 모두 무시하고 완전하게 관측된 자료만 사용하여 분석
- 평균 대치법: 관측 또는 실험되어 얻어진 자료의 평균값으로 결측값을 대치해서 불완전한 자료를 완전한 자료로 만드는 방법
- 단순 확률 대치법: 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법
[단순 확률 대치법 종류]
- 핫덱 대체: 무응답을 현재 진행 중인 연구에서 '비슷한' 성향을 가진 응답자의 자료로 대체 (표본조사에서 흔히 사용)
- 콜드덱 대체: 핫덱과 비슷하나 대체할 자료를 외부 출처 또는 이전의 비슷한 연구에서 가져오는 방법
- 혼합방법: 몇 가지 다른 방법을 혼합
ㄴ. 다중 대치법
- 단순 대치법을 한 번 하지 않고 m번 대치를 통해 m개의 가상적 완전한 자료를 만들어서 분석하는 방법
- 대치 → 분석 → 결합의 3단계
- 원 표본의 결측값을 한 번 이상 대치하여 여러 개의 대치된 표본을 구하는 방법
- D개의 대치된 표본을 만들어야 하므로 항상 같은 값으로 결측 자료를 대치할 수 없음
3. 데이터 이상값 처리
(1) 개념
- 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값
- 입력 오류, 데이터 처리 오류 등의 이유로 특정 범위에서 벗어난 데이터 값
- 평균에 영향을 미침
(2) 발생원인
- 표본추출 오류: 데이터를 샘플링하는 과정에서 나타나는 오류
- 고의적인 이상값: 자기 보고식 측정에서 나타나는 오류
- 데이터 입력 오류
- 실험 오류
- 측정 오류
- 데이터 처리 오류
- 자연 오류
(3) 검출 방법 - 통계 기법 이용 / 시각화 이용 / 데이터 군집 및 분류
ㄱ. 통계 기법을 이용한 데이터 이상값 검출
ESD, 기하평균, 사분위수, Z-점수, Q검정, T-검정, 카이제곱 검정, 마할라노비스 거리
- ESD: 평균으로부터 3 표준 편차 떨어진 값을 이상값으로 판단
- 기하평균 활용한 방법: 기하평균으로부터 2.5 표준편차 떨어진 값을 이상값으로 판단
- 사분위수를 이용한 방법: 제1 사분위, 제3 사분위를 기준으로 사분위간 범위의 1.5배 이상 떨어진 값을 이상값으로 판단
- Z-점수 활용: 관측치들이 자료의 중심에서 얼마나 떨어져 있는지를 나타냄에 따라서 이상값 검출
- 딕슨의 Q 검정: 오름차순으로 정렬된 데이터에서 범위에 대한 관측치 간의 차이의 비율을 활용하여 이상값 여부를 검정하는 방법
- 그럽스 T-검정: 정규분포를 만족하는 단변량 자료에서 이상값을 검정하는 방법
- 카이제곱 검정: 데이터가 정규분포를 만족하나, 자료의 수가 적은 경우에 이상값을 검정하는 방법
- 마할라노비스 거리 활용: 데이터의 분포를 고려한 거리 측도로, 관측치가 평균으로부터 벗어난 정도를 측정하는 통계량 기법
※ 기하평균: n개의 양수 값을 모두 곱한 것은 n제곱근이다.
ㄴ. 시각화를 이용한 데이터 이상값 검출
확률 밀도 함수, 히스토그램, 시계열 차트
- 확률 밀도 함수: 확률변수의 분포를 보여주는 함수
- 히스토그램: 주로 X축에 계급 값을, Y축에 각 계급에 해당하는 자료의 수치를 표시
- 시계열 차트: 시간에 따른 자료의 변화나 추세를 보여주는 그래프
ㄷ. 데이터 군집/분류를 이용한 데이터 이상값 검출
k-평균 군집, LOF, iForest (의사결정나무)
- k-평균 군집: 주어진 데이터를 k개의 클러스터로 묶는 알고리즘, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작
- LOF(Local Outlier Factor): 관측치 주변의 밀도와 근접한 관측치 주변의 밀도의 상대적인 비교를 통해 이상값을 탐색하는 기법 (LOF 값이 클수록 이상값 정도가 큼)
- iForest (Isolation Forest): 관측치 사이의 거리 또는 밀도에 의존하지 않고, 데이터 마이닝 기법인 의사결정나무를 이용하여 이상값을 탐지하는 방법
※ 의사결정나무: 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 예측 모델
(4) 데이터 이상값 처리
- 이상값을 반드시 제거해야 하는 것은 아니므로 이상값을 처리할지는 분석의 목적에 따라 적절한 판단 필요
[처리 기법]
삭제, 대체법, 변환, 박스플룻 해석
- 삭제: 이상값으로 판단되는 관측값을 제외하고 분석하는 방법 (극단값 절단 등)
- 대체법: 하한값과 상한값을 결정한 후 하한값보다 작으면 하한값으로 대체하고 상한값보다 크면 상한값으로 대체
- 변환: 극단적인 값으로 인해 이상값이 발생했다면 자연로그를 취해서 값을 감소시키는 방법
- 박스플룻 해석
4. 텍스트 전처리
(1) 토큰화
- 문장을 최소 의미 단위로 잘라서 컴퓨터가 인식하도록 하는 방법
- 말뭉치에서 의미 있는 형태소로 분할하기 위해 토큰이라 불리는 단위로 나누는 작업
- 영어: 주로 띄어쓰기 기준 / 한글: 단어 안의 형태소를 최소 의미 단위로 인색해 적용
(2) 품사 태깅
- 형태소의 품사를 태깅하는 기법
(3) 표제어 추출
- 단어들로부터 표제어를 찾는 기법
(4) 어간 추출
- 단어에서 접사를 제거하여 어간을 획득하는 기법
(5) 불용어 처리
- 조사, 접미사 같은 실제 의미 분석을 하는 데는 거의 기여하는 바가 없는 단어를 처리하는 기법
이전글
다음글
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터 분석기사] 2과목 빅데이터 탐색(2-1-1) (0) | 2024.03.12 |
---|---|
[빅데이터 분석기사] 2과목 빅데이터 탐색(1-2) (0) | 2024.03.12 |
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-2) (0) | 2024.03.12 |
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-3) (0) | 2024.03.12 |
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-2) (1) | 2024.03.11 |