TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 3과목 기출문제

by 기록자_Recordian 2024. 3. 29.
728x90
반응형

★ 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법을 의미하는 분석 기법은?

1. 상관 분석 (CA) 

2. 회귀 분석 (RA)

3. 분산 분석 (AV)

4. 주성분 분석 (PCA)

 

★ 다음 중 초매개변수 (Hyper Parameter)로 설정 가능한 것은?

1. 편향 (Variance)

2. 기울기 (Bias)

3. 서포트 벡터(Support Vector)

4. 은닉층 (Hidden Layer) 수

 

 

★ 다음 중 초매개변수 사례로 가장 부적절한 것은?

1. 신경망 학습에서 학습률

2. 서포트 벡터 머신에서의 코스트값인 C

3. KNN에서 K의 개수

4. 선형 회귀나 로지스틱 분석에서의 결정계수


★ 다음 중 다변량 분석에 대한 설명 중 옳지 않은 것은?

1. 곡선 회귀 분석은 독립변수가 1개이며, 종속변수와의 관계가 곡선

2. 회귀 분석은 종속변수의 개수가 2개 이상 

3. 분산 분석은 3개 이상의 집단에 대해 비교 가능

4. 비선형 회귀 분석은 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져 있지 않은 모형

 

★  고객의 상품 구매 여부를 예측하기 위해 고객의 거주 지역, 성별, 연령 등의 변수를 사용하여 모델을 수립하려고 할 때, 다음 중 사용 가능한 모형이 아닌 것은?

1. 선형 회귀 모형 

2. 로지스틱 회귀 모형

3. 랜덤 포레스트

4. 서포트 벡터 머신 (SVM)

 

 

★ 다음 중 로지스틱 회귀 분석에 대한 설명으로 가장 올바르지 않은 것은?

1. 독립변수가 범주형이다

2. 종속변수는 0과 1이다

3. 로짓 변환을 사용한다

4. 시그모이드 함수를 사용한다

 

★ 다음 중 로지스틱 회귀 분석에 대한 설명으로 가장 알맞은 것은?

1. 반응변수를 1과 0으로 이진 분류하는 경우에 사용

2. 반응 변수가 수치형일 경우에 사용하는 분석 방법 

3. 반응 변수를 로짓으로 변환할 때 오즈(odds)는 사용 되지 않음 

4. 로짓 변환 후에 반응 변수는 0과 1사이의 값을 가짐 

 

★ 로지스틱 회귀분석에 대한 설명으로 알맞지 않은 것은?

1. 승산비를 로그 변환한 것이 로짓 함수이다

2. 로짓함수의 값은 로그 변환에 의해 음의 무한대부터 양의 무한대까지 값을 가질 수 있다

3. 로지스틱함수는 로짓 함수의 역함수이다

4. 로지스틱함수는 입력변수를 -1부터 1사이의 값을 가지는 출력변수로 변환한 것이다

 

★ 로지스틱 회귀 모형에 대한 설명으로 옳은 것은?

1. 설명변수가 한 개인 경우 종형 그래프를 가진다

2. 설명변수는 모두 연속형이어야 한다 

3. 연속형 반응변수에 대해서도 적용할 수 있다

4. 분류의 목적으로 사용될 수 있다 

 

★ 로지스틱 회귀 모형에서 설명변수가 한 개인 경우 회귀계수의 부호가 0보다 작을 때 표현되는 그래프의 형태는?

▶ 

 

★ 범주형 데이터를 분류할 수 없는 것은?

1. 인공신경망

2. 의사결정나무

3. 선형 회귀 분석 

4. SVM

 

★ 다음 중 독립변수가 연속형이고, 종속변수가 연속성일 때 사용할 수 있는 분석 기법은?

1. K-최근접 이웃기법 (K-NN)

2. 로지스틱 회귀 분석 

3. 카이제곱 분석

4. 군집 분석

 

★ 종속변수가 범주형이고 독립변수가 수치형 변수 여러 개로 이루어진 변수 간의 관계 분석을 위해 적용할 수 있는 알고리즘은?

1. 로지스틱 회귀 분석

2. k-평균 군집

3. 주성분 분석

4. DBSCAN

 

★ 다음 중 k-평균 군집 알고리즘을 통해 K값을 구하는 기법은?

1. K-Centroid 기법

2. 최장 연결법

3. 엘보우 기법

4. 역전파 알고리즘

 

 

★ 다음 중 관측되지 않은 잠재변수에 의존하는 확률모델에서 최대 가능도나 최대 사후 확률을 갖는 모수의 측정값을 찾는 반복적인 알고리즘은?

1. k-평균 군집

2. 계층적 군집

3. EM 알고리즘 

4. SOM 

  

★ 다음 중 DBSCAN 알고리즘의 구성요소가 아닌 것은?

1. 중심점 

2. 경계점 

3. 최소점

4. 잡음점 

 

★ 군집의 개수를 미리 정하지 않아도 되는 장점으로 탐색적 분석에 사용하는 군집 모형은?

1. k-평균 군집 모형

2. SOM 모형

3. 혼합 분포 군집 모형

4. 계층적 군집 모형 

 

★ 다음 중 다중공선성을 제거하는 방법으로 가장 올바르지 않은 것은?

1. Box-Cox

2. 릿지

3. PCA

4. 변수 제거

 

★ 다음 중 선형회귀와 로지스틱 회귀에 대한 설명으로 가장 알맞지 않은 것은?

1. 선형회귀에서 잔차는 정규분포를 따른다

2. 선형회귀는 독립변수를 사용해 종속변수의 움직임을 예측한다

3. 로지스틱 회귀는 종속변수가 이진이면 분류에 사용

4. 선형회귀에서 로짓 변환 사용 

 

★ 다중 회귀 분석에 대한 설명으로 가장 알맞지 않은 것은?

1. 독립변수의 수가 많아지면 다중공선성의 문제 발생

2. 회귀식에 대한 검정은 독립변수의 기울기 (회귀계수)가 0이 아니라는 가정을 귀무가설, 기울기가 0인 것을 대립가설로 놓음

3. 선형성, 독립성, 등분상성, 정상성을 만족하는지 확인

4. 회귀 분석의 가설검정에서 p-값이 0.05보다 작으면 통계적으로 유의한 결과로 받아들일 수 있음

 

★ 다음 중 추정된 다중 회귀 모형이 통계적으로 유의미한지 확인하는 방법으로 적절한 것은?

1. F-통계량 확인

2. 수정된 결정계수 확인

3. t-통계량 확인

4. 잔차와 종속변수의 산점도로 확인

 

★ 회귀 분석에서 결정계수 (R^2)에 대한 설명으로 부적절한 것은?

1. 총 변동 중에서 설명이 되지 않는 오차에 의한 변동이 차지하는 비율

2. 회귀 모형에서 입력변수가 증가하면 결정계수도 증가

3. 다중 회귀 분석에서는 최적 모형의 선정기준으로 결정계수 값보다는 수정된 결정계수 값을 사용하는 것이 적절

4. 수정된 결정계수는 적절하지 않은 변수들을 추가할수록 그 값이 감소

 

★ 다음 중 최적 회귀방정식을 선택하기 위한 방법을 설명한 것으로 부적절한 것은?

1. 가능한 범위 내에서 적은 수의 설명변수 포함

2. 모든 가능한 독립변수들의 조합에 대한 회귀 모형을 생성한 뒤 가장 적합한 회귀 모형 선택

3. 전진 선택법이나 후진 소거법과 동일한 최적 모형을 선택하는 것이 단계적 방법

4. 전진선택법은 절편만 있는 상수 모형부터 시작해 중요하다고 생각되는 설명변수를 차례로 모형에 추가하는 방식


★  다음 중 학습된 모형을 기반으로 최종 출력층을 바꾸어 재학습하는 알고리즘은?

1. 전이학습 (Transfer Learning)

2. 딥러닝 (Deep Learning) 

3. 강화학습 (Reinforcement Learning)

4. 비지도 학습 (Unsupervised Learning)

 

★ 비지도 학습으로 가장 알맞지 않은 것은?

1. 군집 분석

2. 연관

3. 선형회귀 

4. 신경망

 

★ 다음 중 비지도 학습 기법은?

1. SOM

2. 인공신경망

3. SVM

4. 랜덤 포레스트 

 

★ 다음 중 자기 조직화 지도 (Self-Organizing Map) 방법에 대한 설명으로 가장 알맞지 않은 것은?

1. SOM은 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 강도를 반복적으로 재조정하는 학습 과정을 거치면서 연결 강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 된다

2. SOM은 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해하기 쉬울 뿐 아니라 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상 가깝게 표현된다

3. SOM은 입력변수의 위치 관계를 그대로 보존하여 입력변수의 정보와 그들의 관계가 지도상에 그대로 나타난다

4. SOM을 이용한 군집 분석은 역전파 알고리즘을 사용함으로써 군집의 성능이 우수하고 수행속도가 빠르다

 

 

★ 다음 중 SOM에 대한 설명으로 가장 옳은 것은?

1. 경쟁 학습으로 연결 강도가 입력 패턴과 가장 차이가 발생하는 경쟁층 뉴런이 승자가 된다

2. 군집 분할을 위하여 역전파 알고리즘을 이용

3. 지도의 형태로 형상화를 하여 입력변수의 위치 관계를 보존하지 않음 

4. SOM은 입력층과 경쟁층으로 구성 


★ 인공신경망은 어떤 값을 알아내는 게 목적인가?

1. 커널값 

2. 뉴런 

3. 가중치 

4. 오차 

 

★ 인공신경망의 과대 적합(Overfitting)을 방지하는 방법으로 옳지 않은 것은?

1. 가중치의 합 조절

2. 설명 노드의 수를 줄여서 가중치의 비중 조절

3. 학습률을 감소하는 방향으로 변경

4. 에포크(epoch)를 제한

 

★ 인공신경망에 대한 설명으로 가장 알맞지 않은 것은?

1. 인공신경망에서 역전파는 입력층(Input Layer)에서 출력층(Output Layer) 까지 정보가 전달되는 과정

2. 인공신경망은 입력값을 받아서 출력값을 만들기 위해 활성화 함수 사용

3. 인공신경망은 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델

4. 활성화 함수는 순 입력함수로부터 전달받은 값을 출력값으로 변환해 주는 함수

 

★  다음 중 인공신경망 학습에 대한 설명으로 옳지 않은 것은?

1. 인공신경망에서 순전파는 입력층에서 출력층까지 정보가 전달되는 과정

2. 인공신경망 학습에서는 최적의 매개변수 (가중치와 편향)를 탐색할 때 손실 함수의 값을 크게 하는 매개변수의 값을 찾음

3. 경사 하강법은 기울기를 낮은 쪽으로 계속 이동시켜서 최적의 매개변수를 찾는 기법

4. 경사 하강법은 랜덤하게 선택한 가중치를 미분하여 최적값을 찾는 방법

 

★ 다음은 인공신경망의 무엇에 관한 설명인가?

- 실제값과 예측값의 차이를 비교하는 지표
- 값이 낮을수록 학습이 잘 된 것이라고 볼 수 있고, 정답과 알고리즘 출력을 비교할 때 사용
- 최적의 매개변수 (가중치와 편향)를 탐색할 때 이것의 값을 가능한 한 작게 하는 매개변수 값을 찾음

1. 경사 하강법 

2. 오차역전파 

3. GMM 

4. 손실 함수

 

★ 다음 중 오차역전파에 대한 설명으로 올바르지 않은 것은?

1. 계산 그래프에서 계산을 왼쪽에서 오른쪽으로 진행하는 단계를 순전파, 오른쪽에서 왼쪽으로 진행하면 역전파라 한다

2. 오차역전파는 계산 결과와 정답의 오차를 구하고 오차와 관련된 값들의 가중치를 수정하여 오차가 작아지는 방향으로 일정 횟수를 반복해서 수정하는 방법

3. 수치 미분과 오차역전파의 결과를 비교하여 두 방식으로 구한 기울기의 차이가 거의 없는지를 확인하는 작업은 기울기 확인

4. 오차역전파의 단점을 극복하기 위하여 확률적 경사 하강법, 모멘텀 등의 매개변수 최적화 기법을 사용

 

 

★ 다층 신경망 모형에서 은닉층의 개수를 너무 많이 설정하게 되면 역전파 과정에서 가중치 조정이 이루어지지 않아 신경망의 학습이 제대로 이루어지지 않는다. 이러한 현상을 나타내는 용어는?

1. 기울기 소실 문제 

2. 지역 최적화

3. XOR 문제 

4. 과대 적합 문제 

 

★ 다음 중 은닉층이 순환적으로 연결된 것은?

1. CNN 

2. ANN

3. RNN 

4. DNN 

 

★ 다음 중 순환신경망(RNN)에서 발생하는 GV (기울기 소실) GE(기울기 폭발) 에 대한 설명으로 가장 알맞은 것은?

1. 기울기 클리핑은 기울기 소실을 막기 위해 기울기 값을 자르는 방법

2. 기울기 소실이란 오차역전파 과정에서 입력층으로 갈수록 가중치에 따른 결괏값의 기울기가 작아져 0에 수렴하는 문제

3. RNN 은 LTSM(Long Short Term Memory) 의 장기 의존성 문제를 보완하기 위한 알고리즘

4. 순환 신경망은 입력 게이트, 망각 게이트, 출력 게이트로 구성


★ 세 개의 집단의 평균 차이를 검정하는 것은?

1. 윌콕슨 부호 검정

2. 다차원 척도법

3. 분산 분석 

4. 판별 분석

 

★ 다차원 척도법에 대한 설명으로 옳지 않은 것은?

1. 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법

2. 공분산행렬을 사용하여 고윳값이 1보다 큰 주성분의 개수 이용 

3. 스트레스 값이 0에 가까울수록 적합도가 좋음

4. 유클리드 거리와 유사도를 이용하여 구분

 

★ 다음 중 다차원 척도법에 대한 설명으로 올바르지 않은 것은?

1. 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법

2. 주어진 거리는 추상적인 대상들 간의 거리가 될 수도 있고, 실수 공간에서의 거리가 될 수도 있다

3. 주로 자료들의 상대적 관계를 이해하는 시각화 방법의 근간으로 주로 사용

4. 상관관계가 있는 고차원 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법


★ 다음은 머신러닝에 대한 일련의 처리 과정이다. ( ) 에 들어갈 용어는?

표현 - 평가 - (    ) - 일반화

1. 정규화

2. 최적화

3. 합리화

4. 시각화


★ 데이터 마이닝 기법 중 항목들 간의 '조건-결과' 식으로 표현되는 유용한 패턴을 발견해내는 방법은?

1. 인공신경망

2. 의사결정나무

3. 연관성분석 

4. 자기 조직화 지도(SOM)

 

★ 다음 중 연관분석의 장점으로 가장 올바르지 않은 것은?

1. 목적변수가 없어 분석 방향이나 목적이 없어도 적용 가능

2. 조건 반응(if-then)으로 표현되어 결과를 쉽게 이해

3. 매우 간단하게 분석을 위한 계산 가능

4. 품목 세분화와 관계없이 의미 있는 규칙 발견 가능

 

 

★ 다음 중 비즈니스 모델에서 빅데이터 분석 방법과 사례를 연결한 것으로 부적절한 것은?

1. 연관규칙 학습: 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많은가?

2. 분류 분석: 택배 차량을 어떻게 배치하는 것이 가장 좋을까?

3. 소셜 네트워크 분석 ; 친분 관계가 승진에 미치는 영향

4. 회귀 분석: 고객의 만족도가 충성도에 미치는 영향


★ 다음 중 분석 모형을 정의할 때 고려사항으로 가장 부적절한 것은?

1. 분석 대상인 데이터에 비해 모델이 너무 간단하면 과소 적합(Under-Fitting)이 바생하므로 적합한 모델 선정

2. 종속변수와 하나 또는 둘 이상의 독립변수 사이에 관계가 있는 것은 모델에서 누락시키지 않음

3. 관련 있는 변수만을 설정

4. 모델 복잡도와 상관없이 관련 있는 모델을 모두 선택 

 

★ 분석 모형의 구축 절차는?

▶ 

 

★ 분석 모형의 구축 단계 중 모델링 절차는?

▶ 

 

★ 다음 중 모델링 단계에서 수행하는 것을 설명한 것으로 가장 부적절한 것은?

1. 다양한 모델링 기법 중에서 업무 특성에 적합한 기법을 선택하거나 모델링 기법을 결합해 적용

2. 프로세스 및 자원에 대해 제약이 있고 입력값이 확률분포이면 시뮬레이션 기법 적용

3. 프로세스 및 자원에 대한 제약이 있고 상수값을 가질 때는 최적화 기법 적용

4. 시뮬레이션과 최적화 기법 중 반드시 한 가지 선택


★ 다음 중 데이터 분할에 대한 설명으로 가장 올바르지 못한 것은?

1. 데이터는 학습, 검증, 평가 데이터로 구분

2. 훈련 데이터를 한 번 더 분할하여 훈련 데이터와 검증 데이터로 나누어서 사용

3. Early Stopping 사용 가능

4. 평가 데이터는 학습에 사용 가능

 

★ 다음 중에서 데이터 분활과정에서의 훈련 데이터와 검증 데이터, 평가 데이터의 설명 중 옳지 않은 것은?

1. 훈련 데이터와 검증 데이터는 학습 과정에서 사용

2. 데이터가 충분하지 않을 경우 훈련 데이터와 평가 데이터로만 분할하여 사용 가능

3. 평가 데이터는 학습 과정에서 과적합 발생 여부 등을 파악하고 모형의 튜닝에도 사용 가능 

4. 데이터를 일반적으로 훈련 데이터와 검증 데이터를 60 ~80% 사용하고, 평가 데이터를 20~40%로 분할하여 사용


★ 선형 회귀 모형의 가정에서 잔차항과 관련 없는 것은?

1. 선형성

2. 독립성

3. 등분산성

4. 정상성

 

★ 다음 중 회귀 모형의 가정으로 옳지 않은 것은?

1. 등분산성

2. 독립성

3. 선형성

4. 일관성

 

★ 다음 중 오차항의 분산이 독립변수와 무관하게 일정해야 한다는 특성은?

1. 선형성

2. 등분산성

3. 비상관성

4. 정상성

 

★ 회귀 분석의 가정 중 정상성이란 (가)이/가 정규분포를 이뤄야 함을 가정한다. 여기서 (가)는?

 

★ 다음 회귀 모형 결과를 해석한 것으로 옳은 것을 모두 고르시오.

  Estimate Std.Error t value Pr(>|t|)
(Intercept) 41.107678 2.842426 14.462 1.62e-14
X1 0.007473 0.011845 0.631 0.00651
X2 -3.635677 1.040138 -3.495 0.00160
X3 -4.784944 0.607110 -2.940 0.53322

 

가. 유의수준 0.05에서 X1, X2는 유의하다고 할 수 있다. 
나. X2의 계수는 41.107678이다
다. 변수 X3는 회귀 모형에서 제거 가능하다. 

▶ 


★ 의사결정나무의 분석 과정으로 가장 알맞지 않은 것은?

1. 데이터의 분류 및 예측에 활용

2. 부적절한 나뭇가지는 가지치기로 제거

3. 분석의 목적과 자료 구조에 따라서 적절한 분리 기준으로 마지막 끝 마디까지 생성 

4. 이익, 위험, 비용 등을 고려하여 모형 평가

 

 

★ 다음 중 의사결정나무에서 이산형 목표변수에 사용되는 분리 기준에 대한 설명으로 올바르지 않은 것은?

1. 카이제곱 통계량의 p값은 p-값이 가장 작은 예측 변수와 그 당시의 최적 분리를 통해서 자식 마디 형성

2. 지니 지수는 불순도를 측정하는 하나의 지수로서 지니 지수를 가장 감소시켜주는 예측변수와 그 당시의 최적 분리를 통해서 자식 마디를 선택

3. 분산 분석에서 F-통계량은 P값이 가장 작은 예측변수와 그 당시의 최적분리에 의해서 자식 마디를 형성 

4. 엔트로피 지수는 엔트로피 지수가 가장 작은 예측변수와 그 당시의 최적 분리를 통해서 자식 마디 형성

 

★ 다음 중 의사결정나무 기법의 학습 방법에 대한 설명으로 가장 올바르지 않은 것은?

1. 가지치기: 분류 오류를 크게 할 위험이 있거나 적적절하지 못한 규칙을 가진 가지를 제거하는 작업

2. 이익도표 또는 검정용 자료에 의한 교차 타당성 등을 이용하여 의사결정나무 평가

3. 각 마디에서의 최적 분리 규칙은 분리 변수의 선택과 분리 기준에 의해 결정

4. 분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받지 않고 이루어짐

 

★ 다음 중 의사결정나무의 분류나무 (이산형 목표변수)에서 사용되는 분리기준이 아닌 것은?

1. 지니지수 

2. 엔트로피 지수

3. 카이제곱 분포

4. 분산 분석에서 F-통계량 

 

★ 다음 중 아래에서 설명하는 의사결정나무 알고리즘은?

- 호주의 연구원 J. Ross Quinlan에 의하여 개발
- 초기 버전은 ID 3로 1986년에 개발
- 가지치기를 사용할 때 학습자료를 사용
- 종속변수가 이산형이며, 불순도의 척도로 엔트로피 지수 사용

 

1. C4.5와 C5.0

2. CART 

3. CHAID 

4. QUEST

 

★ 특정 기준에 따라 회귀계수에 벌점을 부여하여 모형의 복잡도를 낮추는 분석 기법은?

▶ 

 

★ 모형의 복잡도에 벌점(Penalty)을 주는 방법에 대한 설명으로 가장 알맞지 않은 것은?

1. AIC (Akaike Information Criterion)는 실제 데이터의 분포와 모형이 예측하는 분포 사이의 차이를 나타낸 지표

2. AIC의 값이 낮을수록 모형의 적합도가 낮다

3. AIC의 단점은 표본이 커질수록 부정확해진다는 점인데, 이를 보완한 지표가 BIC(Bayesian Information Criterion)

4. BIC는 표본의 크기가 커질수록 복잡한 모형을 더 강하게 처벌

 

★ 연관 알고리즘으로 가장 알맞은 것은?

1. C5.0

2. 아프리오리 

3. CART

4. QUEST

 

★ 가능한 모든 경우의 수를 탐색하는 방식을 개선하기 위하여 데이터들의 발생빈도가 높은 빈발항목을 찾는 알고리즘은?

1. 아프리오리

2. FP-Growth

3. 지지도

4. 향상도


★ 아래와 같은 데이터 셋이 주어졌을 때 연관규칙 '오렌지, 사과 → 자몽'의 지지도와 신뢰도는?

{오렌지, 사과, 자몽},
{수박, 레몬},
{오렌지, 사과, 레몬, 자몽}
{딸기, 수박, 사과, 레몬},
{딸기, 수박, 레몬, 자몽},
{오렌지, 사과}

 

▶ 

 

★ 다음 중 A 상품을 샀을 때 B 상품을 살 지표로 가장 알맞은 것은?

1. 지지도

2. 신뢰도

3. 향상도

4. 조건부 확률

 

★ 다음 중 연관규칙의 측정지표인 향상도에 대한 설명으로 알맞은 것은?

1. 품목 B에 대한 A의 조건부 확률로 나타냄

2. 품목 A와 B의 구매가 서로 관련이 없는 경우 향상도는 0

3. 향상도가 1보다 크면 해당 규칙은 결과를 예측하는 데 있어 우수

4. 전체거래 중에서 품목 A,B가 동시에 포함된 거래의 비율

 

★ 다음은 여학생과 남학생이 선호하는 책에 대한 빈도 교차표이다. 전체에서 1명을 뽑았을 때 그 학생이 남학생일 경우 소설책을 좋아할 확률은?

  소설책 여행책
남학생 50 30
여학생 10 20

 

 

 

★ 다음은 쇼핑몰의 거래 내역이다. 연관규칙 '우유→빵' 에 대한 신뢰도는?

항목 거래수
우유 10
20
{우유, 빵} 50
{빵, 초콜렛} 20
전체 거래 수 100

 


★ 소프트맥스 함수에 대한 설명으로 가장 올바르지 않은 것은?

1. 출력값은 0에서 1 사이의 실수

2. 분산 1이 된다

3. 출력값을 확률로 해석 가능

4. 출력값의 총합은 1

 

★ 다음 중 활성화 함수에 대한 설명으로 가장 알맞지 않은 것은?

1. 하이퍼볼릭 탄젠트는 -1에서 1의 값을 가짐

2. 부호 함수는 임곗값을 기준으로 활성화 또는 비활성화 됨 

3. ReLU 함수는 시그모이드의 기울기 소실 문제를 해결

4. 시그모이드 함수 입력값이 0일 때, 미분값은 0.25

 

★ 인공지능 활성화 함수 중에서 출력값이 여러 개로 주어지고 목표치가 다 범주인 경우 각 범주에 속할 사후 확률을 제공하는 함수는?

▶ 

 

★ 다음 중에서 아래 예시의 빈칸 (   )에 들어가는 활성화 함수는?

입력층이 직접 출력층에 연결이 되는 단층신경망(Single Layer Neural Network) 에서 활성화 함수를 (   )로 사용하면 로지스틱 회귀 모형과 작동원리가 유사해진다

 

▶ 

 

★ 다음 중 활성화 함수(Activation Function)에 대한 설명으로 올바르지 않은 것은?

1. 활성화 함수는 순 입력함수로부터 전달받은 값을 출력값으로 변환해주는 함수

2. 시그모이드 함수는 인공 뉴런의 활성화 함수인 실함수로서 유한한 영역을 가지는 집합이고 미분 가능하며, 모든 점에서 음이 아닌 미분 값을 가지고 단 하나의 변곡점을 가지는 함수

3. ReLU 함수는 x값이 0보다 작은 경우 y값도 지속적으로 증가하는 함수로 시그모이드의 기울기 소실 문제를 해결한 함수

4. 소프트 맥스 함수는 출력값이 여러 개로 주어지고 목표 치가 다범주인 경우 각 범주에 속할 사후 확률을 제공


★ 다음 중 군집 분석에서의 유사도 측정에 대한 설명으로 가장 올바르지 않은 것은?

1. 맨하탄 거리: 각 방향 직각의 이동 거리 합으로 계산

2. 표준화 거리: 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리를 계산한 거리

3. 마할라노비스 거리: 변수의 표준편차를 고려한 거리 측도이나 변수 간에 상관성이 있는 경우에는 표준화 거리 사용 검토 필요

4. 유클리드 거리: 두 점을 잇는 가장 짧은 직선거리

 

★ 아래 데이터 세트 A, B 간의 유사성을 맨하탄 거리로 계산하면?

신체정보/ 대상자 김00 강00
165 180
몸무게 50 65

 

 

★ 군집 간의 거리를 측정하는 방법 중에서 군집 내의 오차 제곱합에 기초하여 군집을 수행하는 방법은?

1. 평균 연결법 

2. 와드 연결법

3. 최단 연결법

4. 중심 연결법 

 


★ 다음의 이원교차표를 이용하여 학년별 과목의 성적에 대한 카이제곱 분석을 실시하려고 한다. 다음 중 옳은 것은?

  국어 영어 수학
1학년 80 75 72
2학년 76 82 68
3학년 83 79 75

가. 카이제곱값이 클수록 귀무가설을 기각한다 

나. 표본의 수가 많을수록 포아송분포에 가까워진다 

다. 자유도는 4이다 

▶ 

 

★ 고등학교 학년별 (1, 2, 3학년)로 3과목(국어,영어,수학)에 대한 선호도를 조사 시, 카이제곱 검정을 하려면 자유도는?

▶ 

 

★ 다음 중 아래와 같은 데이터가 있는 경우 카이제곱 통계량은?

  Good Bad Total
Left 32 48 80
Right 178 42 220
Total 210 90 300

 

 

★ 다음은 100명의 남/여학생을 대상으로 A 과목에 대한 수강 신청 여부가 균일한지를 알아보고자 한다. 카이제곱 적합도 검정을 이용하여 이 문제를 풀려고 할 때 x^2 의 값은?

학년 학생수
60
40
100


★ 차원의 단순화를 통해 서로 상관성이 있는 변수들 간 복잡한 구조를 분석하는 것이 목적인 주성분 분석에 대한 설명으로 가장 올바르지 않은 것은?

1. 차원 감소 폭의 결정은 스크리 플롯(Scree Plot), 전체 변이의 공헌도, 평균 고유값 등을 활용하는 방법이 있다

2. 변수들이 서로 상관이 있는 경우, 해석상의 복잡한 구조적 문제가 발생하기 때문에 변수들 사이의 구조를 쉽게 이해하기 위해 주성분 분석이 필요하다 

3. 주성분 분석에서 차원의 저주는 데이터 차원이 증가할 때, 데이터의 구조를 변환하여 차원을 감소하는 방법으로 해결이 필요

4. p개의 변수를 중요한 m(P) 개의 주성분으로 표현하여 전체 변동을 설명하는 것으로 m개의 주성분은 원래 변수들의 선형 결합으로 표현된다

 

★ 주성분 분석에 대한 설명으로 옳지 않은 것은?

1. 주성분 분석은 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법

2. 분산이 가장 작은 것을 제1주성분으로 함 

3. 주성분 분석은 고윳값, 고유벡터를 통해 분석 

4. 주성분 분석의 목적 중 하나는 데이터를 이해하기 위한 차원 축소

 

★ 주성분 분석에서 제1주성분에서 제 k 주성분까지의 주성분을 이용하여 설명할 수 있는 데이터의 전체 정보량의 비율은?

▶ 


★ 다음의 앙상블 (Ensemble) 방법 중에서 전체 변수 집합에서 부분 변수 집합을 선택하여 각각의 집합에 대해 모형을 생성한 후 결합을 하는 방식의 앙상블 방법은?

1. 배깅 

2. 부스팅 

3. 랜덤 포레스트

4. 부트 스트랩 

 

 

★ 다음 중 랜덤 포레스트에 대한 설명으로 올바르지 않은 것은?

1. 포레스트가 작으면 트리들의 구성 및 테스트 시간이 짧은 대신, 일반화 능력이 떨어지는 반면, 포레스트의 크기가 크면 훈련과 테스트 시간은 증가하지만 포레스트 결괏값의 정확성 및 일반화 능력 우수

2. 랜덤 포레스트의 최대 허용 깊이가 작으면 과대적합, 크면 과소 적합이 일어나기 때문에 적절한 값 설정 필요

3. 랜덤 포레스트의 임의성의 정도에 따라 비상관화 수준 결정 됨

4. 랜덤 포레스트는 분석을 위해 준비된 데이터로부터 임의복원 추출을 통해 여러 개의 훈련 데이터를 추출하고 각각 개별 학습을 시켜 트리를 생성하여 투표 또는 확률 등을 이용하여 최종 목표변수를 예측

 

 

★ 앙상블 학습의 장점을 모두 선택하시오.

가. 개별 모델을 결합하는 과정에서 분산이 낮아져 과적합 감소 효과

나. 모형의 투명성이 높아 정확한 현상의 원인 분석에 적합 

다. 이상값에 대한 대응력이 높아지고, 전체 분산 감소

▶ 

 

★ 다음 중 앙상블 기법의 특징으로 올바르지 않은 것은?

1. 다양한 모형의 예측 결과를 결합함으로써 단일 모형으로 분석했을 때보다 높은 신뢰성

2. 연속형 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 근방에서는 예측 오류가 클 가능성 있다는 단점 존재

3. 이상값에 대한 대응력이 높아지고, 전체 분산을 감소 시킴

4. 모형의 투명성이 떨어지게 되어 정확한 현상의 원인 분석에는 부적합

 

★ 다음 중 앙상블에서 베이스 모형의 독립성을 최적화하기 위한 방법으로 가장 알맞지 않은 것은?

1. 입력변수를 다양하게 한다

2. 테스트 데이터를 다르게 한다

3. 서로 다른 알고리즘을 사용한다

4. 매개변수를 다양하게 한다

 

★ 데이터 집합에서 크기가 같은 표본 여러 개를 단순 임의 복원 추출하여 분류기를 생성하고 결과를 앙상블 하는 기법은?

1. 배깅 

2. 부트스트랩 

3. 의사결정나무

4. ReLU


★ 다음 중 시계열 예측에서 정상성을 만족한다는 것이 의미하는 것은?

1. 평균이 시점에 의존

2. 표준편차가 시점에 의존

3. 공분산이 시차에 의존하지 않음

4. 분산이 시점에 의존하지 않음

 

★  다음 중 ARIMA 에 대한 설명으로 가장 알맞지 않은 것은?

1. 자기회귀 누적 이동평균 모형

2. 차분이나 변환을 통해 AR이나 MA 모형, ARMA 모형으로 정상화 가능

3. 현시점의 자료를 유한개의 백색잡음의 선형결합으로 표현되어 항상 정상성 만족

4. ARIMA (p, d, q) 모형은 차수 p, d, q 가 있음

 

★ 다음 중 시계열 모형으로 가장 알맞지 않은 것은?

1. AR 모형 

2. MA 모형 

3. ARIMA 모형

4. 로지스틱 회귀 모형

 

★ 다음 중 ARIMA에 대한 설명으로 가장 알맞지 않은 것은?

1. 백색잡음은 독립적이지 않다 

2. ARMA의 일반화 형태이다

3. 일간, 주간, 월간으로 예측 가능

4. ARIMA는 비정상 시계열 모형

 

★ 아래는 자기 회귀 누적 이동평균모형 (ARIMA) 을 나타낸 것이다. 아래 모형은 ARIMA에서 ARMA로 정상화할 때 몇 번 차분을 하였는가?

ARIMA (1, 2, 3)

▶ 

 


★ 다음 중 서포트 벡터 머신에 대한 설명 중 가장 올바르지 않은 것은?

1. 기계학습의 한 분야로 지도 학습 모델

2. 다차원 공간상에서 최적의 분리 초평면을 찾아서 분류 및 회귀 수행

3. 최적의 분리 초평면은 마진을 최소화 

4. 마진은 결정 경계에서 서포트 벡터까지의 거리

 

 

★ 다음 중 SVM RBF(Radial Basis Function) 에 대한 설명으로 가장 옳지 않은 것은?

1. 비선형 데이터가 있는 경우에 일반적으로 활용

2. 2차원의 점을 3차원의 점으로 변환 

3. 가장 많이 사용되는 커널

4. 데이터에 대한 사전 지식이 없는 경우 적절하게 분리할 때 사용

 


★ 다음 중 SNA 중심성으로 가장 알맞지 않은 것은?

1. 연결정도 중심성

2. 근접 중심성

3. 매개 중심성

4. 조화 중심성


★ 다음 중 k-FOLD Cross Validation 에 대한 설명으로 옳지 않은 것은?

1. 데이터 집합을 k등분

2. 1개 부분 집합을 평가 데이터로 선정

3. (k-1) 개의 부분 집합을 학습 데이터로 선정

4. k값이 증가하면 수행시간과 계산량이 줄어듦


★ 텍스트 마이닝에서 여러 문서로 이루어진 문서 군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지 추출하는 기법은?

1. 토픽 모델링

2. 워드 클라우드

3. 소셜 네트워크 분석

4. TF-IDF(Term Frequency-Inverse Document Frequency)

 

★ 텍스트 마이닝에서 데이터 전처리에 대한 설명으로 올바르지 않은 것은?

1. 데이터 전처리는 문서 내 표현된 단어, 구, 절에 해당하는 내용을 가공할 수 있는 데이터로 변환하는 작업

2. Text 레벨 전처리는 크롤링 등으로 데이터 추출 후 HTML 태그나 XML 문법을 제거하는 작업

3. Token 레벨 전처리 중 어간 (Stemming) 추출은 텍스트의 단어, 어절을 분리하는 작업

4. Sentence 레벨 전처리는 마침표, 문장 부호를 사용하여 문장을 구분하는 작업

 

★ 다음 중 텍스트 마이닝의 텍스트 벡터화 방법이 아닌 것은?

1. Word2Vec

2. TF-IDF

3. Bag of Words

4. POS Tagging 


★ 오토인코더에 대한 설명으로 가장 알맞지 않은 것은?

1. 비지도학습 신경망

2. 인코더는 차원 축소의 역할

3. 입력층 노드 개수는 출력층 노드 개수보다 커야 한다 

4. 인코드 입력 노드 개수는 디코드 출력 노드 개수와 동일


★ 다음 중 요인 분석에 대한 설명으로 가장 알맞지 않은 것은?

1. 변수들 간의 상관관계를 고려한 분석 방법

2. 요인이란 특정 현상에 영향을 미치는 중요한 인자

3. 요인은 상관계수가 높은 변수를 제거하여 신규로 생성한 변수의 집합 

4. 요인은 관측이 불가능하지만 해석이 가능


★ 흡연 여부에 다른 폐암의 발생 여부를 조사결과 아래와 같이 나왔다고 가정할 때 상대위험도는?

  폐암 발생 폐암 없음
흡연 10 900
비흡연 8 902

 

 

 

 

★ 흡연 여부에 따른 폐암의 발생 여부를 조사결과 아래와 같이 나왔다고 가정시, 흡연으로 폐암 발생의 승산비(Odds Rate)는?

  폐암 발생 폐암 없음
흡연 10 700
비흡연 8 900

 

 

★ 한국이 축구에서 독일을 이길 확률이 10%라고 할 때 승산(Odds)은?

 

 

★남/여 학생 200명을 대상으로 남/여 학생이 선호하는 커피에 연관성이 있는지 여부를 알아보고자 한다. 이때 남자이면서 B 커피를 좋아하는 학생의 기댓값은?

성별 A 커피 B 커피 C 커피
30 50 20 100
50 30 20 100
80 80 40 200

 


★ 다음 중 한 집단의 평균이 모집단의 평균과 같은지 검정하는 방법은?

1. 단일표본 T-검정

2. 대응표본 T-검정

3. 다중표본 T-검정

4. 독립표본 T-검정 


★ 다음 중 자카드 계수에 대한 설명으로 가장 옳지 않은 것은?

1. 명목형 변수 거리에 사용되는 방법

2. 0과 1사이의 값을 가지며 두 집합이 동일하면 0의 값, 공통의 원소가 하나도 없으면 1의 값

3. 두 집합 사이의 유사도를 측정하는 방법

4. 수식은 J(A, B) = |A∩B| / |A∪B| = |A∩B| / {(|A|+|B|) - |A∩B| }


[ 정답 및 해석]

 

[빅데이터 분석기사] 3과목 기출문제 오답노트

★ 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법을 의미하는

puppy-foot-it.tistory.com

 

728x90
반응형