1. KDD 분석 방법론 분석절차
데이터셋 선택(Selection) → 데이터 전처리(Preprocessing) → 데이터 변환(Transformation) → 데이터마이닝(Data Mining) → 데이터마이닝 결과 평가(Interpretation/ Evaluation)
2. 빅데이터 활용에 필요한 3요소
자원, 기술, 인력
3. SEMMA 분석 방법론
추출(Sample) → 탐색 (Explore) → 수정 (Modify) → 모델링 (Modeling) → 평가 (Assessment)
4. 분석 방법론의 구성요건
상세한 절차, 방법, 도구와 기법, 템플릿과 산출물, 지식
5. 빅데이터 저장시스템 선정을 위한 분석 요소
기능성 비교분석, 분석방식 및 환경, 분석대상 데이터 유형, 기존 시스템과의 연계성
6. 데이터 확보 계획 수립 시 분석 변수 점검항목
데이터 수집을 위해 데이터 적정성과 가용성, 대체 분석 데이터 유무 확인
타당성 검증을 위해 편익/비용 검증, 기술적 타당성
7. 개인정보 재식별 시 조치사항
개인정보가 재식별된 경우 즉시 파기 또는 추가적인 비식별화 조치 취하여야 함
8. 단순 무작위 추출 방법
추출 모집단에 대해 사전지식이 많지 않은 경우 시행
9. 변수변환 중 로그변환
어떤 수치 값을 그대로 사용하지 않고 여기에 로그를 취한 값을 사용하는 것
로그변환을 사용하는 데이터 중 대표적인 것은 주식가격의 변동성 분석이다.
로그변환에서 취하는 로그는 밑수가 10인 사용로그이다.
데이터분포의 형태가 우측으로 치우친 경우 정규분포화를 위해 로그변환 사용
10. 어느 초등학교 1학년 여자아이들의 혈압자료에서 5명을 랜덤하게 택한 결과가 다음과 같다고 할 때 <102 92 98 88 104> 이를 이용하여 초등학교 여학생 혈압의 대표 값에 대한 95% 신뢰구간을 가장 근사하게 분석한 결과를 고르시오.
표본평균 = 96.8 / S = 6.72
자유도는 5-1=4
t 0.025 = 2.78
목표값 = 96.8 ± 2.78(6.72/2.24) = 96.8 ± 8.32
따라서 이 표본결과 초등학교 여자아이들의 혈압은 88에서 105 사이에 있다고 할 수 있다.
11. 정준분석
두 변수집단 간의 연관성(Association)을 각 변수집단에 속한 변수들의 선형결합(Linear Combination)의 상관계수를 이용하여 분석하는 방법이다.
정준상관계수(Canonical Correlation Coefficient)는 정준변수들 사이의 상관계수이다.
두 집단에 속하는 변수들의 개수 중에서 변수의 개수가 적은 집단에 속하는 변수의 개수만큼의 정준변수 상이 만들어질 수 있다.
12. 데이터 마이닝
대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정이다.
데이터베이스 쪽에서 발전한 OLAP(온라인 분석 처리), 인공지능 진영에서 발전한 SOM, 신경망, 전문가 시스템 등의 기술적인 방법론이 쓰인다.
자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축할 수 있다.
13. 일원분산
하나의 인자에 근거하여 여러 수준으로 나누어지는 분석이다.
단일용인변수(독립변수)에 의해 종속변수에 대한 평균치의 차이를 검정하는 데 이용한다.
종속변수(등간 척도)와 정수값을 갖는 요인변수가 각 하나여야 하고 요인변수가 정의되어야 한다.
A반, B반, C반 간 성적의 평균 차이가 존재할 것이다도 일원분산분석의 예이다.
14. 시공간 정의언어와 조작언어
시공간자료 정의언어에는 공간적 속성과 시간적 속성을 동시에 포함하며 시공간 테이블의 정의문은 점, 선, 면 등의 공간속성 타입이 추가되어 있다.
시공간자료 정의언어에는 시공간테이블 인덱스 및 뷰(view)의 정의문, 변경문 등이 포함되어 있다.
시공간 조작언어는 객체의 삽입, 삭제, 변경 등의 검색문이 있다.
시공간자료 조작언어는 시간지원 연산자와 공간연산자를 포함하며 이를 통해 객체에 대한 공간관리와 이력정보를 제공한다.
15. 가설검정
연구자에 의해 설정된 가설은 표본을 근거로 하여 채택여부를 결정짓게 되는데 이때 사용되는 통계량을 검정통계량이라 정의한다.
16. 종속변수가 없을 시에 사용할 수 있는 알고리즘 : 군집분석, 연관분석, 주성분분석
종속변수는 결괏값 변수로 지도학습 기반 분석모형에 해당
(분류분석은 종속변수가 없을 시에 사용 불가)
17. 랜덤 포레스트는 투표 또는 다수결 방식으로 예측 결정한다.
18. 신뢰구간은 모수가 포함될 가능성이 있는 구간으로 구간의 비율은 신뢰수준이라고 한다.
19. SVM(Support Vector Machine) 분석모델은 지도학습 기법으로써 고차원 또는 무한 차원의 공간에서 초평면의 집합을 찾아 이를 이용하여 분류와 회귀를 수행한다. SVM의 핵심적 특징은 기존 분류기가 오류율 최소화에 있다면 여백(마진) 최대화로 일반화 능력의 극대화를 추구하는 점으로 마진이 가장 큰 ( ⓐ )을 분류기(classifier)로 사용할 때 새로운 자료에 대한 오분류가 가장 낮아진다. 또한 경계면과 수직인 법선벡터를 w라고 할 때 마진은 ( ⓑ )로 계산된다.
ⓐ 초평면, ⓑ 2/(|W|)
20. 의사결정나무의 대표적 알고리즘인 CART(Classification and Regression Tree)는 불순도 측도로 범주형 또는 이산형일 경우 ( 가 )를, 연속형인 경우 분산의 감소량을 이용한 ( 나 )를 활용
가. 지니지수, 나. 이진분리
21. 시계열 자료에 대한 정상성(Stationarity)에 대한 설명
정상성을 가진다는 의미는 시계열 데이터가 평균과 분산이 일정한 경우를 지칭한다.
시계열 데이터가 정상성을 가지면 분석이 용이한 형태로 볼 수 있다.
시계열 데이터가 평균이 일정하지 않으면 차분(difference)을 통해 정상성을 가지도록 할 수 있다.
시계열 데이터가 분산이 일정하지 않으면 변환(Transfomation)을 통해 정상성을 가지도록 할 수 있다.
22. 분석 예측모형은 미래에 대한 현상을 사전에 분류, 예측하는 것으로 적조 예측, 날씨 예측, 주가 예측, 범죄/위험 예측, 쇼핑아이템 추천 등에 적용할 수 있다.
(배합비율 최적화에는 적용 불가)
23. 나이브 베이즈 분류
분류기를 만들 수 있는 간단한 기술로 단일 알고리즘을 통한 훈련이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용하여 훈련된다.
나이브 베이즈 분류의 장점으로 분류에 필요한 파라미터를 추정하기 위한 트레이닝 데이터의 양이 매우 적다.
나이브 베이즈 분류는 베이즈 정리를 적용한 확률 분류기를 지칭한다.
나이브 베이즈 분류기는 공통적으로 모든 특성 값은 서로 독립임을 가정한다.
24. 준지도학습의 셀프트레이닝은 레이블이 달린 데이터로 모델을 학습한 뒤 레이블 되지 않은 데이터를 예측하여 이 중에서 가장 확률값이 높은 데이터들만 레이블 데이터로 다시 가져간다.
25. 분석모형 종류로는 예측분석, 현황진단, 최적화분석 모형이 있다.
26. 검증용 테스트(test) 데이터는 최종적으로 일반화된 분석모형을 검증하는 테스트를 위해 분할, 구분된다.
27. R의 주요 특징으로 객체지향 언어, 풍부한 시각화 라이브러리, shiny와 같은 웹브라우저 연동 모듈 등이 있으며 단점은 대용량 메모리 처리가 어려우며 보안 기능이 취약한 점이 있다.
28. 인공신경망에 대한 설명
- 기계학습과 인지과학에서 생물학의 신경망(동물의 중추신경계중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다.
- 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 가리킨다.
- 트레이닝 셋에만 최적화되어 실제 테스트와 예상결과의 괴리가 발생하는 단점이 있다.
- 최초 시작점의 선택에 따라 수렴, 발산, 진동 등 다양한 형태로 결과가 바뀌는 단점이 있다.
29. 자기회귀모형(AR: Autoregressive Model)
일정 시점전의 자료가 현재자료에 영향을 준다는 가정하에 만들어진 시계열 예측 모형
30. 트리맵
하나의 사각형 영역에 세부 사각형들의 크기로 데이터 분포를 시각화하여 표현한다.
계층형 구조를 가진 데이터를 표현하는 데 유용하다.
시도별 인구분포, 취업자 분포 등 분포 데이터를 표현하는데 유용하다.
31. 여러 지역에 걸친 정량 정보를 나타낼 때, 데이터가 분포된 지역별로 색을 다르게 칠한 지도를 단계구분도라고 한다.
32. 분석결과 활용은 장기적 관점에서 진행해야 하며, 임시조직에서 담당하는 것보다는 업부부서를 확대하거나 장기적으로 전담하는 조직을 갖추는 것이 효율적이다.
33. 분석모델별 활용되는 시각화 기법
SVM : 비교시각화 기법의 산점도
의사결정나무 : 관계시각화 기법의 트리 다이어그램
회귀모델 : 관계시각화 기법의 히트맵
KNN : 비교시각화 기법의 평행좌표계
34. 스케일은 그래프에 표현되는 데이터 값의 범위를 말하며, 각각의 축에 일정한 간격을 가지고 표시된다.
35. 데이터 유형
범주형 데이터는 값의 범위가 있는 데이터 유형을 말하며, 값의 집합 형태로 표현된다.
숫자를 표현하는 수치형 데이터는 이산형과 연속형으로 구별할 수 있다.
명목형 데이터에 순서를 매길 수 있을 때 순서형 데이터가 된다.
이산형과 연속형은 수치형 데이터의 유형을 구분하는 것
빅데이터 분석은 모든 데이터를 분석 대상으로 한다.
36. 데이터 시각화 도구에 대한 설명
누적영역차트는 값의 분포를 표현하는데 적합하지만 한 집단의 경향성을 알아보기는 어렵다.
막대그래프는 시간에 흐름에 따른 데이터의 변화를 보여주는데 적합하다.
히스토그램은 일정한 간격으로 구분된 구간에 대해 데이터의 분포를 표현하는데 적합하다.
산점도는 두 변수의 값을 2차원 좌표계를 활용하여 점으로 표시한 것으로 점들의 집합이 모여서 두 변수 사이의 관계를 표현한다.
37. 회귀분석모델에서 활용하는 시각화 기법
비교시각화 / 시간시각화 / 관계시각화
회귀모델은 여러 변수들을 비교, 관계를 표현하는 시각화 및 시계열 모형의 시간시각화를 활용한다.
38. 적합도 검정이란 범주형 변수에 관한 분석 방법으로 연속형 변수에 활용되는 검정기법인 T검정은 해당되지 않는다.
39. 오차행렬(Confusion Matrix)은 훈련을 통한 예측 성능을 측정하기 위해 예측값과 실제값을 비교하기 위한 표이다.
40. 누적히스토그램은 히스토그램의 각 구간의 값을 누적시켜서 표현한다. 따라서, 데이터의 출현 빈도를 오른쪽으로 누적하면서 표시하며 마지막 막대는 전체 데이터의 총 수를 나타낸다.
1. 데이터 산업은 인프라 영역과 서비스 영역으로 나뉜다
2. key-value 데이터베이스는 데이터를 키와 그에 해당하는 값의 쌍으로 저장하는 방식이며, 단순한 데이터 모델에 기반을 두고 있기 때문에 관계형 데이터베이스보다 확장성이 뛰어나고 질의 응답시간도 빠르다
3. 빅데이터 플랫폼의 부하 제어 기능: 컴퓨팅 부하 제어 / 저장 부하 제어 / 네트워크 부하 제어
4. 신뢰성 높은 데이터 분석 모형 개발과 정확한 데이터 분석을 위해 편향되지 않고 충분한 양의
Training Dataset, Validation Dataset, Test Dataset 필요
5. 개인정보 비식별화 절차: 사전검토 → 비식별 조치 → 적정성 평가 → 사후관리
6. 지식창조 매커니즘: 공통화, 표출화, 연결화, 내면화
7. 분석 방법론의 구성요건: 상세한 절차 / 방법 / 도구와 기법 / 템플릿과 산출물 / 어느 정도의 지식
8. 정형 데이터의 품질 진단 기법: 메타데이터 수집 및 분석 / 컬럼 속성 분석 / 누락 값 분석 / 값의 허용 범위 분석 / 허용 값 목록 분석 / 문자열 패턴 분석 / 날짜 유형 분석 / 기타 특수 도메인 분석 / 유일 값 분석 / 구조 분석 등
9. 하향식 접근 방식 : 문제가 먼저 주어지는 것
혼합방식: 동적힌 환경에서 발산과 수렴 단계를 반복하는 것 (신상품 개발이나 전략 수립 등 중요한 의사결정 시 사용)
상향식 접근 방식 : 데이터를 기반으로 문제의 재정의 및 해결방안 탐색
10. 마이데이터가 등장한 시점: 데이터 권리 시대
11. 데이터 산업 구조의 서비스 영역: 데이터 자체나 데이터를 가공한 정보 제공 / 데이터 활용 교육 / 데이터 기반 컨설팅(새로운 아이디어는 제공받는 사람이 생각해야 함)
12. 포아송분포 적용할 수 있는 예
1) 10시부터 11시 사이에 은행지점창구에 도착한 고객의 수
2) 하루 동안 걸려 오는 전화 수
3) 원고집필 시 원고지 한 장당 오타 수
포아송 분포: 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산확률분포
※ 금융상품 가입 상담건수 10회 중 실제 가입이 이루어진 수는 베르누이 분포
13. 탐색적 데이터 분석 및 필요성
1) 수집한 데이터가 들어왔을 때, 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정 의미
2) 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상 이해
3) 문제점 발견 시 본 분석 전 데이터의 수집 의사 결정
4) 다양한 각도에서 데이터를 살펴보는 과정을 통해 문제 정의 단계에서 인지 못한 새로운 양상 및 패턴을 발견 가능. 그러므로 새로운 양상 발견 시 초기설정 문제의 가설을 수정하거나 또는 새로운 가설 수립
14. 요약변수
1) 수집된 정보를 분석에 맞게 종합한 변수
2) 데이터 마트에서 가장 기본적인 변수
3) 많은 분석 모델에서 공통으로 사용될 수 있어 재활용성 높음
15. 추론통계
1) 모집단에 대한 어떤 미지의 양상을 알기 위해 통계학을 이용하여 추측하는 과정 지칭
2) 통계학의 한 부분으로서 추론 통계학으로 불림
3) 추정은 표본을 통해 모집단 특성이 어떠한가에 대해 추측한느 과정
4) 표본평균 계산을 통해 모집단평균을 추측해보거나, 모집단 평균에 대한 95% 신뢰구간의 계산 과정을 나타냄
16. 요인분석
1) 다수의 변수들 간의 관계(상관관계)를 분석하여 공통차원을 축약하는 통계분석 과정
2) 독립변수, 종속변수 개념이 없다. 주로 기술 통계에 의한 방법 이용
3) 요인에 대한 중요도를 파악하고 필요가 없다면 제거하는 것도 필요
4) 변수특성 파악을 위해 관련된 변수들이 묶임으로써 요인 간의 상호 독립성 파악 필요
17. 회귀분석의 기본적인 가정
1) 선형성: 독립변수와 종속변수가 선형적이어야 함
2) 잔차 정규성: 잔차의 기댓값은 0이며 정규분포를 이루어야 함
3) 잔차 등분산성: 잔차들의 분산이 일정해야 함 (분산이 1이 될 필요는 없다)
4) 다중공산성: 3개 이상의 독립변수간의 상관관계로 인한 문제가 없어야 함
18. 군집분석
1) 집단에 관한 사전정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾을 때 사용되는 기법
2) 각 표본을 표본들 간의 유사성에 기초해 한 집단에 분류시키고자 할 때 사용되는 기법
3) 군집분석을 수행하기 위한 첫 번째 단계는 몇 개의 집단이 존재하는가를 알아보기 위해 각 표본들 간의 유사성 혹은 연관성을 조사하는 것
4) 판별분석과 달리 집단이 사정에 정의 되어 있지 않음
19. 비모수 통계 특징
1) 가정을 만족시키지 못한 상태에서 그대로 모수통계분석을 함으로써 발생할 수 있는 오류를 줄일 수 있음
2) 질적척도로 측정된 자료도 분석 가능
3) 비교적 신속하고 쉽게 통계량을 구할 수 있으며 결과에 대한 해석 및 이해 또한 용이
4) 많은 표본을 추출하기 어려운 경우에 사용하기 적합
20. 일반적인 신경망 알고리즘 학습 프로세스 순서: 미니배치 → 가중치 매개변수 기울기 산출 → 매개변수 갱신
21. 분석모형 선정 프로세스는 분석 이전의 단계들을 수행하는 과정으로 분석모델 개발과는 관련성이 없다.
분석모형 선정 프로세스: 데이터 도식화 / 분석목표 정의 / 데이터 수집
22. 다중회귀분석 결과 해석 시 진행 순서: 다중공선성 진단 → 회귀계수 유의성 확인 → 수정된 결정계수 확인 → 모형의 적합도 평가
23. 리얼리티 마이닝: 통화/메시징 등의 커뮤니케이션 데이터, gps/wifi 등의 위치 데이터이다. 이를 통해 사회적 행위를 마이닝하고 사용자 행동 모델링이나 라이프 로그도 얻어내는 것을 목표로 한다.
24. 분석결과 활용 계획 수립 시 고려할 사항
1) 분석업무의 성과목표를 수립하고 측정할 수 있는 성과지표 설정
2) 분석결과 활용을 위한 내외부 교육 훈련 방안 수립
3) 결과활용을 위한 시나리오 개발
4) 분석결과 활용은 장기적 관점에서 진행해야 하며, 임시조직에서 담당하는 것보다는 업무부서를 확대하거나 장기적으로 전담하는 조직을 갖추는 것이 효율적
25. 연관분석 모델의 경우 두 개 또는 그 이상의 품목들 사이의 관련성으로 해석
26. 결정계수: 회귀모델에서의 해석지표로 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표
27. Dunn Index: 비지도학습 군집분석 모델 평가지표로 군집 간 거리의 최솟값을 분자, 군집 내 요소 간 거리의 최댓값을 분모로 하는 지표
28. 분석모형 전개 단계에서 이루어지는 활동
1) 완성된 모델을 실제 업무 현장에 적용
2) 개발된 분석 모델을 실제 운영데이터에서 동작시키고 성능 평가
3) 업무 적용 결과에 따라 분석 모델 수정
데이터의 준비는 분석 모델을 개발하기 전에 이루어저며, 필요한 데이터의 범위를 설정하고 가공
29. 분석모형 리모델링 과정
1) 가설 및 추정방법에 대한 재검토
2) 분석 데이터의 범위 및 품질 검토
3) 과대적합 방지를 위한 알고리즘 개선
분석 목적은 변하지 않으며, 목적을 달성하기 위한 분석 모델과 데이터, 알고리즘을 검토하고 개선
30. 군집타당성 지표: 군집간 분산과 군집 내 분산으로 군집 간 거리, 군집의 지름, 군집의 분산 등 고려
(군집의 평균은 고려하지 않음)
31. 빅데이터 분석의 목적
1) 제품 및 절차 효율성
2) 고객 인사이트
3) 위기 관리 시스템
빅데이터 분석의 근원적인 목적은 과거의 데이터를 토대로 미래를 분석하는 성격
◆ 다른 오답노트
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅분기 필기] (분노와 슬픔의) 시험 후기 (2) | 2024.04.06 |
---|---|
[빅분기 필기] 자주 헷갈리는 개념 (1) | 2024.04.02 |
[빅데이터 분석기사] 4과목 기출문제 (1) | 2024.03.29 |
[빅데이터 분석기사] 3과목 기출문제 (1) | 2024.03.29 |
[빅데이터 분석기사] 2과목 기출문제 (1) | 2024.03.29 |