TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅분기 기출문제] 오답노트

by 기록자_Recordian 2024. 3. 14.
728x90
반응형

★ 비식별화된 개인정보의 재식별 가능성 검토 기법으로 적절하지 않은 것은?

1. s-보안성

2. k-익명성

3. l-다양성

4. t-근접성

 

▶ 비식별화된 개인정보의 재식별 가능성 검토 기법: k-익명성, l-다양성, t-근접성

정답은 1

 

★ 데이터 변환 방식의 종류로 적절하지 않은 것은?

1.비정형 데이터를 정형 데이터 형태로 저장하는 방식

2. TCP 방식에서 Open API로 수집하여 저장하는 방식

3. 수집 데이터를 분산파일시스템으로 저장하는 방식

4. 주제별, 시계열적으로 저장하는 방식

 

▶ TCP 방식에 Open API로 수집하여 저장하는 방식은 데이터 변환 방식의 종류가 아니라 데이터를 수집하는 방식을 변경하는 것

정답은 2

 

★ 데이터 적재 완료 테스트를 위한 정형 데이터 체크리스트 항목으로 적절하지 않은 것은?

1. 파티션의 개수

2. 테이블의 개수

3. 속성의 개수

4. 레코드의 개수

 

▶ 정형 데이터 체크리스트 항목으로는 테이블의 개수와 속성의 개수 및 데이터 타입의 일치 여부, 레코드 수 일치 여부가 될 수 있다.

정답은 1

 

★ 계층적 프로세스 모델의 구성요소로 적절하지 않은 것은?

1. 단계 (Phase)

2. 태스크 (Task)

3. 스텝(Step)

4. 프로세스(Process)

 

▶ 계층적 프로세스 모델은 단계(Phase), 태스크(Task), 스텝(Step) 3단계로 구성되어 있다.

정답은 4

 

★ 다음 중 빅데이터 플랫폼의 빅데이터 수집기술이 아닌 것은?

1. 크롤링(Crawling)

2. ETL

3. Clustering

4. Open API

 

▶ 데이터 수집기술에는 크롤링(Crawling), 로그 수집기, 센서 네트워크, RSS, Reader/Open API, ETL 등이 있다.

정답은 3

 

★ 분석 프로젝트가 갖는 속성으로 적절하지 않은 것은?

1. 데이터 크기

2. 데이터 분석가의 역량

3. 데이터와 분석 모형의 복잡도

4. 정확도와 정밀도

 

▶ 분석 프로젝트가 갖는 속성으로는 데이터 크기, 데이터 복잡도, 속도, 분석모형의 복잡도, 정확도와 정밀도가 있다.

정답은 2

 

★ 다음 중 맵리듀스의 데이터 처리과정을 순서대로 나열한 것은?

1. Split > Map > Shuffle > Reduce

2. Shuffle > Map > Split > Reduce

3. Map > Split > Shuffle > Reduce

4. Reduce > Shuffle > Map > Split

 

▶ 맵리듀스의 데이터 처리과정은 데이터 분할(Split), 맵(Map) 처리, 셔플(Shuffle), 리듀스(Reduce) 단계로 이어진다.

정답은 1

 

★ 데이터 저장 시 NoSQL 데이터베이스 저장방식의 종류가 아닌 것은?

1. key-value 데이터베이스
2. relational 데이터베이스
3. column-oriented 데이터베이스
4. document 데이터베이스

 

▶ NoSQL 데이터베이스 저장방식의 경우 key-value 데이터베이스, column-oriented 데이터베이스, document 데이터베이스가 있다.

정답은 2

 

★ 정준분석의 설명으로 틀린 것은?

1. 두 변수집단 간의 연관성(Association)을 각 변수집단에 속한 변수들의 선형결합(Linear Combination)의 상관계수를 이용하여 분석하는 방법이다.
2.정준상관계수(Canonical Correlation Coefficient)는 정준변수들 사이의 상관계수이다.
3.두 집단에 속하는 변수들의 개수 중에서 변수의 개수가 적은 집단에 속하는 변수의 개수만큼의 정준변수 상이 만들어질 수 있다.
4. 정준분석의 경우 하나의 반응변수를 여러 개의 설명변수로 설명하고자 할 때, 가장 설명력이 높은 변수들의 선형결합을 찾아 이들 사이의 인과관계를 생각하는 방법이다.

 

▶회귀분석의 경우 하나의 반응변수를 여러 개의 설명변수로 설명하고자 할 때, 가장 설명력이 높은 변수들의 선형결합을 찾아 이들 사이의 인과관계를 생각하는 반면에 정준분석에서는 이와 같은 인과성이 없다.

정답은 4

정준상관분석
정준상관분석은 2개 이상의 변수로 구성되어 있는 종속변수와 2개 이상으로 구성되어 있는 독립변수 간의 관계를 살펴보는 기법으로서 각 집단 내에 있는 변수들의 상관관계를 이용하 여 변수들을 선형 결합한 식을 도출하고 이렇게 도출된 식을 이용하여 관련성을 분석하는 방법이다.

 

 

★ 다음 자료에 대해서 사분위편차를 구하시오.

사람의 신장이 160 172 173 169 161 168 164 163 162 166 165 165였다면 사분위편차는
얼마인가?
1)1          2)2             3)3                4)4 

 

▶ 자료를 순서대로 나열 160 161 162 163 164 165 165 166 168 169 172 173

Q1 = 12(자료의 수) *0.25(25/100) = 3 > 세번째 수는 162

Q3 = 12 * 0.75(75/100) = 9 > 아홉번째 수는 168

Q = (Q3 - Q1)/2 > 168-162/2 = 6/2 = 3

정답은 3번 3


※ 사분위수 구하는 방법

1) 자료를 순서대로 나열

2) 사분위 1 (Q1, 25%) 구하고, 사분3 (Q3, 75%) 구함

3) 사분위 편차(Q) = (Q3 - Q1) /2

 

 

★ 다음 이상치에 대한 설명 중 틀린 것은?

1. 이상치가 비무작위성(Non-Randomly)을 가지고 나타나게(분포하게) 되면 데이터의 정상성(Normality) 증대를 초래하며 이는 데이터 자체의 신뢰성 저하로 연결될 가능성이 있다.
2.자료처리오류(Data Processing Error)는 복수개의 데이터셋에서 데이터를 추출·조합하여 분석 시, 분석 전의 전처리에서 발생하는 에러를 말한다.
3. 비 모수적 이상치를 탐지하는 방법 중에는 산점도그림(Scatter Plot)을 이용한 방법이 있다.
4. 의도적 아웃라이어(Intentional Outlier)의 예는 남성의 키를 조사 시 의도적으로 키를 높게 기입하는 경우 등이 있다.

 

▶ 이상치가 비 무작위성(Non-Randomly)을 가지고 나타나게(분포하게) 되면 데이터의 정상성(Normality) 감소를 초래하며 이는 데이터 자체의 신뢰성 저하로 연결될 가능성이 있다. 정상성이 높아지면 데이터의 신뢰도가 높아진다.

정답은 1

 

이상치(이상점, outlier)란, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값을 말한다. 어떤 의사결정을 하는데 필요한 데이터를 분석할 경우 이렇게 이상한 값들에 의해서 의사결정에 영향을 미칠 수 있으므로 제거하는 것이 좋다.

 

★ 다음은 결측값의 종류에 대한 설명이다. 틀린 설명을 고르시오.

1. 완전 무작위 결측은 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우로 정의한다.
2. 결측 데이터를 가진 모든 변수가 완전 무작위 결측(MCAR)이라면 소규모 데이터에서 단순 무작위 표본추출을 통해 처리 가능하다.
3. 무작위 결측(MAR)은 변수상의 결측데이터가 관측된 다른 변수와 연관되어 있지만 그 자체가 비 관측값들과는 연관되지 않은 경우이다.
4. 비 무작위 결측(NMAR)은 어떤 변수의 결측 데이터가 완전 무작위 결측(MCAR) 또는 무작위 결측(MAR)이 아닌 결측데이터로 정의하는 것이다.

 

▶ 어떤 변수상에서 결측 데이터가 관측된 혹은 관측되지 않는 다른 변수와 아무런 연관이 없는 경우, 결측 데이터를 가진 모든 변수가 완전 무작위 결측이라면 대규모 데이터에서 단순 무작위 표본추출을 통해 처리 가능하다.

정답은 2

 

★ 상관분석의 기본가정에 대한 용어와 설명을 연결한 것 중 틀린 것은?
1.선형성 : 두 변인 X와 Y의 관계가 직선적인지를 알아보는 것으로 이 가정은 분포를 나타내는 산점도를 통하여 확인할 수 있다.
2. 동변량성 : X의 값에 관계없이 Y의 흩어진 정도가 다른 정도를 의미한다.
3. 두 변인의 정규분포성 : 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것이다.
4. 무선독립표본 : 모집단에서 표본을 뽑을 때 표본대상이 확률적으로 선정된다는 것이다.

 

▶ 동변량성 : X의 값에 관계없이 Y의 흩어진 정도가 같은 것을 의미한다.

정답은 2

 

★ 구간 추정과 점추정에 대한 설명으로 틀린 것은?
1 .점추정은 모집단의 모수를 하나의 값으로 추정해 주는 것이다.
2. 구간추정은 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것이다.
3. 우리가 아무리 좋은 추정방법을 사용한다고 하더라도 표본을 택하고 이 표본으로부터 계산된 추정값이 목표값을 정확하게 추정한다고 주장할 수는 없다.
4. 구간추정에 오차(error)의 개념을 도입하여 모수가 포함되는 확률변수 구간 내의 가장 신뢰성을 가지는 값 하나를 선택하는 것이 점추정이다.

 

▶ 구간추정은 점추정에 오차(error)의 개념을 도입하여 모수가 포함되는 확률변수구간을 어떤 신뢰성 아래 추정하는 것이다.

정답은 4

 

★ 어느 초등학교 1학년 여자아이들의 혈압자료에서 5명을 랜덤하게 택한 결과가 다음과 같다고 할 때 <102 92 98 88 104> 이를 이용하여 초등학교 여학생 혈압의 대표 값에 대한 95% 신뢰구간을 가장 근사하게 분석한 결과를 고르시오.
1. 표본결과 초등학교 여자아이들의 혈압은 88에서 105 사이에 있다고 할 수 있다.
2. 표본결과 초등학교 여자아이들의 혈압은 80에서 115 사이에 있다고 할 수 있다.
3. 표본결과 초등학교 여자아이들의 혈압은 82에서 109 사이에 있다고 할 수 있다.
4. 표본결과 초등학교 여자아이들의 혈압은 80에서 120 사이에 있다고 할 수 있다.

 

▶ 이 표본으로부터 계산된 표본평균과 S는 각각 다음과 같다.
표본평균 = 96.80, S = 6.72
이 표본의 경우 자유도는 5-1=4이다. 표로부터 자유도가 4인 t_0.025경우는 2.78이므로 공식에 대입하면 다음이 성립한다.
목표값 = 96.8 ± 2.78(6.72/2.24) = 96.8 ± 8.32
여기서 2.24는 표본크기 5의 제곱근이다. 따라서 이 표본결과 초등학교 여자아이들의 혈압은 88에서 105 사이에 있다고 할 수 있다.

정답은 1

 

★ 나이대별 성별과 체중에 대해서 조사를 하고자 한다. 이때 발생 가능한 결측치에 대해서 분류를 다음 아래와 같이 구분하였다. 옳은 것은?
1. 데이터의 누락 : 비 무작위 결측
2. 여성은 체중 공개를 꺼림 : 무작위 결측
3. 젊은 여성은 체중공개를 꺼림 : 비 무작위 결측
4. 무거운 사람은 체중 공개를 꺼림 : 무작위 결측

▶ 나이대별(X) 성별(Y)과 체중(Z) 분석에 대한 모델링을 가정해 보면
X, Y, Z와 관계없이 Z가 없는 경우 : 데이터의 누락(응답 없음) → 완전 무작위 결측(MCAR)
여성(Y)은 체중공개를 꺼려 하는 경향 : Z가 누락될 가능성이 Y에만 의존→ 무작위 결측(MAR)
젊은(X) 여성(Y)의 경우는 체중공개를 꺼리는 경우가 더 높음 → 무작위 결측(MAR)
무거운(가벼운) 사람들은 체중 공개 가능성이 적음 : Z가 누락될 가능성이 Z값 자체에 관찰되지 않는 값에 달려 있음 → 비 무작위 결측(NMAR)

정답은 2

 

★ 질적자료의 설명으로 옳은 것을 고르시오.
1. 정량적 자료라고 하며 수치의 크기 자체의 의미를 부여하는 자료를 말한다.
2. 서열자료는 수치나 기호가 서열을 나타내는 자료이다.
3. 명목자료는 측정대상이 범주나 종류에 대해 구분 되어지는 것을 수치 또는 기호로 분류할 수 없는 자료이다.
4. 정성적 자료라고 하며 분류가 불가능한 비정형 자료이다.

 

▶ 질적자료(Qualitative Data) : 정성적 자료라고도 하며 자료를 범주의 형태로 분류한다. 분류의 편리상 부여된 수치의 크기자체에는 의미를 부여하지 않는 자료이며 명목자료, 서열자료 등이 질적자료로 분류된다.

정답은 2

 

★ 이상치 발견의 통계적 기법 활용을 설명한 것 중 옳은 것은?
1. 데이터의 중심을 알기 위해서는 평균(mean), 중앙값(median), 최빈값(mode), 첨도(kurtosis)를 사용할 수 있다.
2. 데이터의 분산도를 알기 위해서는 범위(range), 분산(variance) 왜도(skewness)를 사용할 수 있다.
3. 평균에는 집합 내 모든 데이터 값이 반영되기 때문에, 이상값이 있으면 값이 영향을 받는다.
4. 중앙값은 전체변수의 범위 중에서 가운데값을 사용하므로 이상값이 존재하면 영향을 받는다.

 

▶ 첨도, 왜도는 데이터의 분포모양에 해당된다. 중앙값은 전체변수의 범위에서 가운데가 아니라 관찰된 변수들 중의 가운데값이므로 이상값의 영향을 받지 않는다.

정답은 3

 

★ 다음은 범주형 분석방법에 대한 설명이다. 옳지 않은 것은?
1. 빈도분석은 질적 자료를 대상으로 빈도와 비율을 계산할 때 쓰인다.
2. 로지스틱분석은 두 범주형 변수가 서로 상관이 있는지 독립인지를 판단하는 통계적 검정방법이다.
3. T 검정은 독립변수가 범주형(두개의 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법으로 두 집단간의 평균 비교 등에 사용된다.
4. 독립변수가 범주형(두개이상 집단)이고 종속변수가 연속형인 경우 사용되는 검정 방법으로 분산분석이 사용된다.

▶ 2번은 카이제곱검정에 대한 설명이다.

정답은 2

 

 

★ 활성화 함수 중 0보다 크면 입력값을 그대로 출력하고 0 이하의 값만 0으로 출력하는 함수명은?
1. Sigmoid(시그모이드)
2. ReLU(렐루)
3. Softmax(소프트맥스)
4. Perceptron(퍼셉트론)

 

▶ ReLU 활성화 함수(이진 분류)는 Sigmoid의 Gradient Vanishing 문제를 해결하며 0보다 크면 입력값을 그대로 출력하고 0 이하의 값은 0으로 출력한다.

정답은 2

 

★ 자료의 형태에 따른 분석방법으로 올바르게 짝지어진 것을 고르시오.
1. 독립변수가 범주형 종속변수가 범주형인 경우 : 회귀분석
2. 독립변수가 연속형 종속변수가 범주형인 경우 : 로지스틱 회귀분석
3. 독립변수가 범주형 종속변수가 연속형인 경우 : 로그선형분석
4. 독립변수가 연속형 종속변수가 연속형인 경우 : 빈도분석

 

▶ 정답은 2

 

★ 비지도학습의 일종인 오토인코더(AutoEncoder)의 특징에 맞지 않은 설명은?
1. 인코더를 통해 입력 데이터에 대한 특징 추출
2. 은닉층을 포함, 뉴럴네트워크 세 개를 뒤집어 붙은 형태
3. 출력값을 입력값의 근사로 하는 함수를 학습
4. 디코더를 통해 원본 데이터를 재구성하는 학습방식

 

▶ 오토인코더의 구조는 뉴럴네트워크 두 개(인코더+디코더)가 뒤집어 붙은 형태이다.

정답은 2

 

 

★ 라벨되지 않은 이미지들을 예측, 가장 높은 확률값의 이미지에 신규 라벨링 이미지로 분류 뒤 반복 훈련하는 대표적인 준지도학습 방법론은?
1. GAN
2. 오토인코더
3. 셀프트레이닝
4. CNN

 

▶ 준지도학습의 셀프트레이닝은 레이블이 달린 데이터로 모델을 학습한 뒤 레이블 되지 않은 데이터를 예측하여 이 중에서 가장 확률값이 높은 데이터들만 레이블 데이터로 다시 가져간다.

정답은 3

 

★ 여러 부트스트랩 자료를 생성하여 학습하는 모델링으로 랜덤 포레스트가 속한 알고리즘 기법은?
1. 부스팅
2. 배깅
3. 앙상블
4. 의사결정트리

 

▶ 배깅에 대한 설명이다. 정답은 2

 

★ 분석모형 설계에서 특정 영역을 지정, 의사결정 지점으로 진행하는 과정에서 분석기회를 발굴하는 방식을 의미하는 용어는?
1. 분석 유스케이스(Use Case) 기반 접근
2. 하향식(Bottom-down) 접근
3. 의사결정나무(Decision Tree) 기반 접근
4. 상향식(Bottom-up) 접근

 

▶ 분석모형 설계에서 상향식 접근은 특정 영역을 지정, 의사결정 지점으로 진행하는 과정에서 분석기회를 발굴하는 방식이다.

정답은 4

 

★ 다음 중 자기회귀모형(AR: Autoregressive Model)에 대한 설명으로 옳은 것은?
1. 일정 시점전의 자료가 현재자료에 영향을 준다는 가정하에 만들어진 시계열 예측 모형이다.
2. 비정상성을 가지는 시계열 데이터 분석에 많이 사용된다.
3. 이동평균모형과 결합된 형태로 나타내어진다.
4. 시계열이 체계적 성분과 불규칙적 성분으로 이루어져 있다는 가정 하에 체계적 성분을 시계열로부터 분리하여 분석/예측을 목적으로 하는 기법이다.

 

▶ 2번은 자기회귀누적이동평균모형(ARIMA)
3번의 AR(p) 모형과 MA(q) 모형의 결합형태는 자기회귀이동평균모형(ARMA)
4번은 분해법에 대한 설명

정답은 1

 

★ 다음은 GAN(Generative Adversarial Network)에 대한 설명이다. <보기>에서 ⓐ와 ⓑ에 들어갈 용어로 맞는 것은?

GAN은 2014년 NIPS에서 Ian Goodfellow가 발표한 회귀생성 모델로서 ( ⓐ )을/를 담당하는 모델(판별자 D)과 회귀( ⓑ )을/를 담당하는 두 개의 모델(생성자 G)로 구성되어 있다. 생성자 G와 판별자 D가 서로의 성능을 개선해 적대적으로 경쟁해 나가는 모델로 적대적 학습에서는 ( ⓐ ) 모델을 먼저 학습시킨 후, ( ⓑ ) 모델을 학습시키는 과정을 서로 주고받으면서 반복한다.
1. ⓐ 인식, ⓑ 생성
2. ⓐ 생성, ⓑ 판별
3. ⓐ 생성, ⓑ 분류
4. ⓐ 분류, ⓑ 생성

 

▶ 정답은 4

 

★ 의사결정나무에서 더이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 하는 규칙을 ( )규칙이라고 한다. 괄호에 들어갈 단어는?
1. 종단
2. 완료
3. 미분리
4. 정지

▶ 정답은 4

 

★ 비모수 통계의 특징을 설명한 것 중 틀린 것은?
1. 가정을 만족시키지 못한 상태에서 그대로 모수통계분석을 함으로써 발생할 수 있는 오류를 줄일 수 있다.
2. 질적척도로 측정된 자료도 분석이 가능하다.
3. 비교적 신속하고 쉽게 통계량을 구할 수 있으며 결과에 대한 해석 및 이해 또한 용이하다.
4. 많은 표본을 추출하여야만 정규화 근사를 통해 사용하기 적합하다.

▶ 많은 표본을 추출하기 어려운 경우에 사용하기 적합하다.

정답은 4

 

★ 일반적인 신경망 알고리즘 학습 프로세스 순서로 적합한 것은?
1. 미니배치 – 가중치 매개변수 기울기 산출 – 매개변수 갱신
2. 샘플선정 – 가중치 매개변수 기울기 산출 – 매개변수 갱신
3. 미니배치 – 매개변수 갱신 – 가중치 매개변수 기울기 산출
4. 샘플선정 – 매개변수 갱신 – 가중치 매개변수 기울기 산출

 

▶ 데이터를 미니배치로 무작위 선정 뒤 손실함수 값을 줄이기 위해 각 가중치 매개변수 기울기를 구한다. 다음 가중치 매개변수 기울기 방향으로 조금씩 갱신하여 앞에서 진행한 단계들을 반복한다.

정답은 1

 

★ 통계학 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제를 ( ) 문제라고 한다. 괄호에 들어갈 단어는?
1. 연관성
2. 밀접상관성
3. 다중공선성
4. 상관도

 

▶ 회귀 분석에서 사용된 모형의 일부 예측 변수가 다른 예측 변수와 상관 정도가 높아 데이터 분석 시 부정적인 영향을 미치는 것은 다중공선성이다.

정답은 3

 

★ 가설검정의 절차와 관계없는 항목은?
1. 검정통계량
2. 통계추정
3. 유의수준
4. 확률분포

 

▶ 가설검정의 절차는 유의 수준결정 → 검정 통계량의 설정 → 기각역의 설정 → 검정통계량 계산 → 통계적 의사결정으로 나뉜다.

정답은 2

 

★ 지도학습 모델은 분류와 예측모델로 구분된다. 분류모델에 해당되지 않는 것은?
1. 의사결정트리
2. 인공신경망
3. 서포트벡터머신(SVM)
4. 다중회귀분석

 

▶ 다중회귀분석은 회귀(예측)모델로 분류된다.

정답은 4

 

★ 회귀분석의 기본적인 가정으로 설명이 틀린 것은?
1. 선형성 : 독립변수와 종속변수가 선형적이어야 함
2. 잔차 정규성 : 잔차의 기댓값은 0이며 정규분포를 이루어야 함
3. 잔차 등분산성 : 잔차들의 분산이 1로 일정해야 함
4. 다중공산성 : 3개 이상의 독립변수간의 상관관계로 인한 문제가 없어야 함

 

▶ 잔차들의 분산이 일정해야 하며 1이 될 필요는 없다.

정답은 3

 

★ 통계검정에서 가설을 검정할 시 어느 정도로 검정할 지에 대한 수준으로 표본 추출 시 모수를 포함할 구간의 비율을 일컫는 용어는?
1. 기각수준
2. 신뢰수준
3. 검정수준
4. 유의수준

 

▶ 신뢰구간은 모수가 포함될 가능성이 있는 구간으로 구간의 비율은 신뢰수준이라고 한다.

정답은 2

 

★ 다음 데이터 시각화 방법과 대표적 도구의 연결 중에서 가장 거리가 먼 것은 어느 것인가?
1. 시간시각화 – 파이차트
2. 분포시각화 – 누적연속그래프
3. 비교시각화 – 히트맵
4. 공간시각화 – 카토그램

 

▶ 시간시각화의 대표적인 도구는 막대그래프, 점/선그래프이며, 파이차트는 분포시각화의 대표적인 도구이다.

정답은 1

 

★ 다음 중 연속형 데이터와 이산형 데이터에 모두 적용할 수 없는 데이터의 시각적 속성은 어느 것인가?
1. 위치 속성
2. 색 속성
3. 크기 속성
4. 형태 속성

 

▶ 형태 속성은 삼각형, 원, 사각형 등 각각의 독립된 모양으로 데이터를 표현하는 것으로 연속형 데이터를 표현하기에 적합하지 않다.

정답은 4

 

★  CRISP-DM 방법론의 전개단계를 구성하는 프로세스가 아닌 것은?
1. 전개계획 수립
2. 모니터링계획 수립
3. 프로젝트 종료보고서 작성
4. 분석 모델 평가

 

▶ CRISP-DM 방법론에서 분석 모델 평가는 평가단계의 프로세스이다.

정답은 4

 

★ 과대적합 방지를 위한 기법에 해당되지 않는 것은?
1. 드롭아웃
2. L2 규제
3. L1 규제
4. 매개변수 최적화

 

▶ 모델과 실제 값의 차이가 손실함수로 표현될 때 손실함수의 값을 최소화하도록 하는 매개변수를 탐색하는 과정이다.

정답은 4

 

★ 분석모델별 시각화에서 회귀분석모델에서 활용하지 않는 시각화기법은?
1. 비교시각화
2. 시간시각화
3. 관계시각화
4. 공간시각화

 

▶ 회귀모델은 여러 변수들을 비교, 관계를 표현하는 시각화 및 시계열 모형의 시간시각화를 활용한다.

정답은 4

 

★ 분석모델마다 평가되는 해석지표들이 다양한데 회귀모델에서의 해석지표로 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표는?
1. 상대오차
2. 평균 제곱근 편차
3. 향상도
4. 결정계수

 

▶회귀모델의 해석지표인 결정계수는 추정된 회귀식이 변동을 얼마나 잘 설명했는가에 대한 지표로 값이 1에 가까울수록 실제 관측값이 회귀선상에 정확히 일치함을 의미한다.

정답은 4

728x90
반응형