TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 3과목 기출문제 오답노트

by 기록자_Recordian 2024. 3. 24.
728x90
반응형

★ 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법을 의미하는 분석 기법은?

1. 상관 분석 (CA) ▶ 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법

2. 회귀 분석 (RA) ▶ 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법

3. 분산 분석 (AV)

4. 주성분 분석 (PCA) ▶ 많은 변수의 분산방식 (분산-공분산)의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계 기법

 

★ 다음 중 초매개변수 (Hyper Parameter)로 설정 가능한 것은?

1. 편향 (Variance)

2. 기울기 (Bias)

3. 서포트 벡터(Support Vector)

4. 은닉층 (Hidden Layer) 수

▶ 초매개변수로 설정 가능한 예시: 학습률, 의사결정나무의 깊이, 신경망에서 은닉층의 개수 등

 

 다음 중 초매개변수 사례로 가장 부적절한 것은?

1. 신경망 학습에서 학습률

2. 서포트 벡터 머신에서의 코스트값인 C

3. KNN에서 K의 개수

4. 선형 회귀나 로지스틱 분석에서의 결정계수 ▶매개변수


★ 다음 중 다변량 분석에 대한 설명 중 옳지 않은 것은?

1. 곡선 회귀 분석은 독립변수가 1개이며, 종속변수와의 관계가 곡선

2. 회귀 분석은 종속변수의 개수가 2개 이상 ▶ 회귀 분석에서 종속변수의 개수는 1개

3. 분산 분석은 3개 이상의 집단에 대해 비교 가능

4. 비선형 회귀 분석은 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져 있지 않은 모형

단순선형 회귀 독립변수 1개, 종속변수와의 관계가 직선
다중선형 회귀 독립변수 K개, 종속변수와의 관계가 선형
다항 회귀 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계
곡선 회귀 독립변수 1개, 종속변수와의 관계가 곡선
로지스틱 회귀 종속변수가 범주형 (2진 변수)인 경우 적용
비선형 회귀 회귀식의 모양이 선형관계로 이뤄져 있지 않은 모형

 

  고객의 상품 구매 여부를 예측하기 위해 고객의 거주 지역, 성별, 연령 등의 변수를 사용하여 모델을 수립하려고 할 때, 다음 중 사용 가능한 모형이 아닌 것은?

1. 선형 회귀 모형 ▶ 종속변수가 연속형인 경우에 독립변수가 종속변수에 미치는 영향 추정할 수 있는 모형

2. 로지스틱 회귀 모형

3. 랜덤 포레스트

4. 서포트 벡터 머신 (SVM)

 고객의 구매 여부를 예측하기 위해서는 데이터가 어떤 그룹에 속하는지 예측하는 데 사용되는 기법으로 분류기법인 로지스틱 회귀 분석, 의사결정나무, 서포트 벡터 머신 등을 이용해야 한다

 

★ 다음 중 로지스틱 회귀 분석에 대한 설명으로 가장 올바르지 않은 것은?

1. 독립변수가 범주형이다 ▶ 독립변수는 수치형

2. 종속변수는 0과 1이다

3. 로짓 변환을 사용한다

4. 시그모이드 함수를 사용한다

▶ 로지스틱 회귀 분석은 독립변수가 수치형이고 반응변수(종속변수)가 범주형인 경우 적용되는 회귀 분석 모형.

새로운 독립변수의 값이 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여 추정 확률을 기준치에 따라 분류하는 목적으로 사용

 

 다음 중 로지스틱 회귀 분석에 대한 설명으로 가장 알맞은 것은?

1. 반응변수를 1과 0으로 이진 분류하는 경우에 사용

2. 반응 변수가 수치형일 경우에 사용하는 분석 방법 ▶ 반응변수가 범주형일 경우 사용

3. 반응 변수를 로짓으로 변환할 때 오즈(odds)는 사용 되지 않음 ▶ 반응변수를 로짓으로 변경 시 오즈 사용

4. 로짓 변환 후에 반응 변수는 0과 1사이의 값을 가짐 ▶ -∞(음의 무한대) 와 + ∞(양의 무한대)의 값 가짐

 

★ 로지스틱 회귀분석에 대한 설명으로 알맞지 않은 것은?

1. 승산비를 로그 변환한 것이 로짓 함수이다

2. 로짓함수의 값은 로그 변환에 의해 음의 무한대부터 양의 무한대까지 값을 가질 수 있다

3. 로지스틱함수는 로짓 함수의 역함수이다

4. 로지스틱함수는 입력변수를 -1부터 1사이의 값을 가지는 출력변수로 변환한 것이다

▶ 로지스틱함수는 음의 무한대부터 양의 무한대까지의 값을 가지는 입력변수를 0부터 1사이 값을 가지는 출력변수로 변환한 것

 

★ 로지스틱 회귀 모형에 대한 설명으로 옳은 것은?

1. 설명변수가 한 개인 경우 종형 그래프를 가진다

2. 설명변수는 모두 연속형이어야 한다 ▶ 범주형인 경우에 적용

3. 연속형 반응변수에 대해서도 적용할 수 있다

4. 분류의 목적으로 사용될 수 있다 ▶ 설명변수의 값이 주어질 때 각 범주에 속할 추정 확률을 기준치에 따라 분류하는 목적으로 사용

 

★ 로지스틱 회귀 모형에서 설명변수가 한 개인 경우 회귀계수의 부호가 0보다 작을 때 표현되는 그래프의 형태는?

 역 S자 그래프

 

★ 범주형 데이터를 분류할 수 없는 것은?

1. 인공신경망

2. 의사결정나무

3. 선형 회귀 분석 ▶ 범주형이 아닌 연속형 데이터의 회귀 분석에 사용

4. SVM

 

★ 다음 중 독립변수가 연속형이고, 종속변수가 연속성일 때 사용할 수 있는 분석 기법은?

1. K-최근접 이웃기법 (K-NN)

2. 로지스틱 회귀 분석  독립변수 연속형 또는 범주형(이산형), 종속변수 범주형(이산형)

3. 카이제곱 분석

4. 군집 분석

※ K-NN: 분류와 회귀에 모두 사용 가능

- 예측 변수에 따른 정답 데이터가 제공되는 지도 학습 모형

- 훈련용 데이터 집합으로부터 미리 모형을 학습하는 것이 아니라 새로운 자료가 들어올 때 거리를 측정하여 모형을 구성 (Lazy Model)

- K값에 다라 예측 결과 달라짐

 

★ 종속변수가 범주형이고 독립변수가 수치형 변수 여러 개로 이루어진 변수 간의 관계 분석을 위해 적용할 수 있는 알고리즘은?

1. 로지스틱 회귀 분석

2. k-평균 군집

3. 주성분 분석

4. DBSCAN

k-평균 군집 K개 소집단의 중심좌표를 이용하여 각 객체와 중심좌표 간의 거리를 산출하고, 가장 근접한 소집단에 배정한 후 해당 소집다느이 중심좌표를 업데이트하는 방식의 군집화 알고리즘
주성분 분석 데이터 분포를 잘 설명함과 동시에 정보의 손실을 최소화하도록 고차원의 데이터를 저차원의 데이터로 변환하는 차원축소 분석 기법
DBSCAN 개체들의 밀도(Density) 계산을 기반으로 밀접하게 분포된 개체끼리 그룹핑하는 군집 분석 알고리즘

 

★ 다음 중 k-평균 군집 알고리즘을 통해 K값을 구하는 기법은?

1. K-Centroid 기법

2. 최장 연결법

3. 엘보우 기법

4. 역전파 알고리즘

엘보우 기법 x축에 클러스터의 개수 (k값)를 y축에 SSE 값을 두었을 때 기울기가 완만한 부분 (팔꿈치 부분)에 해당하는 클러스터를 선택하는 기법
실루엣 기법 - 각 군집 간의 거리가 얼마나 분리되어 있는지를 나타내는 기법
- 실루엣 계수는 1에 가까울수록 군집 간 거리가 멀어서 최적화가 잘 되어 있다고 할 수 있음
- 0에 가까울수록 군집 간 거리가 가까워서 최적화가 잘 안 되었다고 할 수 있음
덴드로그램 계층적 군집 분석의 덴드로그램 시각화를 이용하여 군집의 개수 결정

 

k-평균 군집 절차
1) 초기 군집 중심으로 k개의 객체를 임의로 선택
2) 각 자료를 가장 가까운 군집 중심에 할당
3) 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신(Update)
4) 군집 중심의 변화가 거의 없을 때(또는 최대 반복 수) 까지 단계 2와 3 반복

 

★ 다음 중 관측되지 않은 잠재변수에 의존하는 확률모델에서 최대 가능도나 최대 사후 확률을 갖는 모수의 측정값을 찾는 반복적인 알고리즘은?

1. k-평균 군집 ▶ 각 군집의 평균을 재계산을 반복하여 최종 군집을 형성하는 방법

2. 계층적 군집 ▶ 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집 형성 (군집의 개수는 미리 정하지 않음)

3. EM 알고리즘 ▶ E-단계, M-단계를 반복적으로 수행

4. SOM ▶ 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 비지도 신경망

  

★ 다음 중 DBSCAN 알고리즘의 구성요소가 아닌 것은?

1. 중심점 ▶ 해당 데이터 포인트 주변 반경 내에 최소 데이터 개수 이상의 다른 데이터를 가지고 있는 경우 (반경 내에 존재해야 하는 최소 데이터 개수는 일종의 초매개변수로 설정해주어야 함)

2. 경계점  중심점은 아니지만, 중심점이 주변 반경 내에 존재하는 경우 (중심점을 중심으로 하는 군집에는 포함되며 주로 군집의 외곽을 이룸)

3. 최소점

4. 잡음점  중심점도 아니고 경계점 조건도 만족하지 못하는 이웃점 (이상치)

※ DBSCAN의 구성요소: 중심점, 경계점, 이웃점, 잡음점

이웃점 : 특정 데이터 포인트 주변 반경 내에 존재하는 다른 데이터 포인트

 

★ 군집의 개수를 미리 정하지 않아도 되는 장점으로 탐색적 분석에 사용하는 군집 모형은?

1. k-평균 군집 모형

2. SOM 모형

3. 혼합 분포 군집 모형

4. 계층적 군집 모형 ▶군집의 개수를 미리 정하지 않고 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법 (병합적 방법 / 분할적 방법) ↔ 비계층적 군집: 미리 군집의 개수 지정 (분할 기반 / 분포 기반 / 밀도 기반 / 그래프 기반)

 

★ 다음 중 다중공선성을 제거하는 방법으로 가장 올바르지 않은 것은?

1. Box-Cox

2. 릿지

3. PCA

4. 변수 제거

▶※ 다중공선성: 회귀 분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제 (PCA, 릿지, 변수 제거 등을 통해 제거 가능)

- Box-Cox: 선형회귀모형에서 정규성 가정이 성립한다고 보기 어려울 경우에 종속변수를 정규분포에 가깝게 변환시키기 위하여 사용하는 기법

 

★ 다음 중 선형회귀와 로지스틱 회귀에 대한 설명으로 가장 알맞지 않은 것은?

1. 선형회귀에서 잔차는 정규분포를 따른다

2. 선형회귀는 독립변수를 사용해 종속변수의 움직임을 예측한다

3. 로지스틱 회귀는 종속변수가 이진이면 분류에 사용

4. 선형회귀에서 로짓 변환 사용 ▶로짓 변환은 로지스틱 회귀에서 사용

 

 다중 회귀 분석에 대한 설명으로 가장 알맞지 않은 것은?

1. 독립변수의 수가 많아지면 다중공선성의 문제 발생

2. 회귀식에 대한 검정은 독립변수의 기울기 (회귀계수)가 0이 아니라는 가정을 귀무가설, 기울기가 0인 것을 대립가설로 놓음

▶ 기울기가 0이라는 가정을 귀무가설, 0이 아니라는 가정을 대립가설로 놓는다

3. 선형성, 독립성, 등분상성, 정상성을 만족하는지 확인

4. 회귀 분석의 가설검정에서 p-값이 0.05보다 작으면 통계적으로 유의한 결과로 받아들일 수 있음

 

★ 다음 중 추정된 다중 회귀 모형이 통계적으로 유의미한지 확인하는 방법으로 적절한 것은?

1. F-통계량 확인

2. 수정된 결정계수 확인

3. t-통계량 확인

4. 잔차와 종속변수의 산점도로 확인

 

★ 회귀 분석에서 결정계수 (R^2)에 대한 설명으로 부적절한 것은?

1. 총 변동 중에서 설명이 되지 않는 오차에 의한 변동이 차지하는 비율

▶ 총 변동 중에서 회귀 모형에 의해 설명되는 변동이 차지하는 비율

2. 회귀 모형에서 입력변수가 증가하면 결정계수도 증가

3. 다중 회귀 분석에서는 최적 모형의 선정기준으로 결정계수 값보다는 수정된 결정계수 값을 사용하는 것이 적절

4. 수정된 결정계수는 적절하지 않은 변수들을 추가할수록 그 값이 감소

 

※ 설명변수를 무한대로 늘리면 결정계수가 1로 수렴한다. 해당 요소가 유의하다는 가정하에 모집단을 설명하는 요소를 모델에 많이 추가할수록 설명력이 높아진다. 이런 현상을 방지하기 위해 수정된 결정계수 사용

 

★ 다음 중 최적 회귀방정식을 선택하기 위한 방법을 설명한 것으로 부적절한 것은?

1. 가능한 범위 내에서 적은 수의 설명변수 포함

2. 모든 가능한 독립변수들의 조합에 대한 회귀 모형을 생성한 뒤 가장 적합한 회귀 모형 선택

3. 전진 선택법이나 후진 소거법과 동일한 최적 모형을 선택하는 것이 단계적 방법

▶ 단계적방법: 기존의 모형에서 예측 변수를 추가, 제거를 반복하여 최적의 모형을 찾는 방법 → 전진선택법과 후진선택법과 동일한 최적의 모형을 갖는 것은 아니다

4. 전진선택법은 절편만 있는 상수 모형부터 시작해 중요하다고 생각되는 설명변수를 차례로 모형에 추가하는 방식


★  다음 중 학습된 모형을 기반으로 최종 출력층을 바꾸어 재학습하는 알고리즘은?

1. 전이학습 (Transfer Learning)

2. 딥러닝 (Deep Learning) ▶ 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습 알고리즘의 집합

3. 강화학습 (Reinforcement Learning)

4. 비지도 학습 (Unsupervised Learning)

 

★ 비지도 학습으로 가장 알맞지 않은 것은?

1. 군집 분석

2. 연관

3. 선형회귀 ▶ 선형회귀는 지도 학습에 사용

4. 신경망

 

★ 다음 중 비지도 학습 기법은?

1. SOM

2. 인공신경망

3. SVM

4. 랜덤 포레스트 

지도 학습 - 입력 데이터에 대한 레이블이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습 시키는 방법
- 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해내는 것에 초점
- 주로 인식, 분류, 진단, 예측 문제 해결에 적합
랜덤 포레스트, 인공신경망, SVM
비지도 학습 - 입력 데이터에 대한 레이블이 없는 상태에서 데이터가 어떻게 구성되었는지를 알아내는 기계 학습 기법
- 목적변수에 대한 정보 없이 학습이 이루어지는 방법
- 예측의 문제보다는 주로 현상의 설명이나 특징 도출, 패턴 도출 등의 문제에 많이 활용
- 사전 정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 데이터 마이닝의 성격이 더 강함
SOM, 차원 축소 기법

 

★ 다음 중 자기 조직화 지도 (Self-Organizing Map) 방법에 대한 설명으로 가장 알맞지 않은 것은?

1. SOM은 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 강도를 반복적으로 재조정하는 학습 과정을 거치면서 연결 강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 된다

2. SOM은 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해하기 쉬울 뿐 아니라 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상 가깝게 표현된다

3. SOM은 입력변수의 위치 관계를 그대로 보존하여 입력변수의 정보와 그들의 관계가 지도상에 그대로 나타난다

4. SOM을 이용한 군집 분석은 역전파 알고리즘을 사용함으로써 군집의 성능이 우수하고 수행속도가 빠르다

▶ 역전파 알고리즘은 인공신경망에서 사용 / SOM은 단 하나의 전방 패스를 사용함으로써 속도가 매우 빠르다

 

★ 다음 중 SOM에 대한 설명으로 가장 옳은 것은?

1. 경쟁 학습으로 연결 강도가 입력 패턴과 가장 차이가 발생하는 경쟁층 뉴런이 승자가 된다

2. 군집 분할을 위하여 역전파 알고리즘을 이용  역전파 알고리즘이 아닌 경쟁 학습 방법 사용

3. 지도의 형태로 형상화를 하여 입력변수의 위치 관계를 보존하지 않음 ▶ 위치 관계를 보존함

4. SOM은 입력층과 경쟁층으로 구성 

※ SOM(Self-Organizing Maps)

- 코호넨에 의해 제시, 개발되었으며 코호넨 맵으로 알려져 있음

- 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화

- 실제 공간의 입력변수가 가까이 있으면 지도상에는 가까운 위치에 있게 됨

- 입력층과 경쟁층으로 구성


★ 인공신경망은 어떤 값을 알아내는 게 목적인가?

1. 커널값 ▶ CNN 에서의 필터

2. 뉴런 ▶ 인공신경망의 가장 기본적인 단위

3. 가중치 ▶ 출력 층에서 계산된 출력과 실제 출력의 값 차이를 최소화시키는 가중치를 알아내는 게 인공신경망의 목적

4. 오차 ▶ 인공신경망에서 가중치의 변화에 따른 오차의 변화를 계산

 

★ 인공신경망의 과대 적합(Overfitting)을 방지하는 방법으로 옳지 않은 것은?

1. 가중치의 합 조절

2. 설명 노드의 수를 줄여서 가중치의 비중 조절 ▶설명 노드의 수를 줄이는 것이 아니라, 설명 변수의 수를 줄여야 함

3. 학습률을 감소하는 방향으로 변경

4. 에포크(epoch)를 제한

 

★ 인공신경망에 대한 설명으로 가장 알맞지 않은 것은?

1. 인공신경망에서 역전파는 입력층(Input Layer)에서 출력층(Output Layer) 까지 정보가 전달되는 과정

▶ 역전파가 아닌 순전파

2. 인공신경망은 입력값을 받아서 출력값을 만들기 위해 활성화 함수 사용

3. 인공신경망은 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델

4. 활성화 함수는 순 입력함수로부터 전달받은 값을 출력값으로 변환해 주는 함수

 

  다음 중 인공신경망 학습에 대한 설명으로 옳지 않은 것은?

1. 인공신경망에서 순전파는 입력층에서 출력층까지 정보가 전달되는 과정

2. 인공신경망 학습에서는 최적의 매개변수 (가중치와 편향)를 탐색할 때 손실 함수의 값을 크게 하는 매개변수의 값을 찾음

▶ 손실 함수의 값을 작게 하는 매개변수의 값을 찾음 (손실함수: 실제값과 예측값의 차이를 비교하는 지표)

3. 경사 하강법은 기울기를 낮은 쪽으로 계속 이동시켜서 최적의 매개변수를 찾는 기법

4. 경사 하강법은 랜덤하게 선택한 가중치를 미분하여 최적값을 찾는 방법

 

★ 다음은 인공신경망의 무엇에 관한 설명인가?

- 실제값과 예측값의 차이를 비교하는 지표
- 값이 낮을수록 학습이 잘 된 것이라고 볼 수 있고, 정답과 알고리즘 출력을 비교할 때 사용
- 최적의 매개변수 (가중치와 편향)를 탐색할 때 이것의 값을 가능한 한 작게 하는 매개변수 값을 찾음

1. 경사 하강법  함수의 기울기를 구하고 경사의 절대값이 낮은 쪽으로 계속 이동시켜 극값에 이를 때까지 반복시키는 기법

2. 오차역전파  계산 결과와 정답의 오차를 구하고 오차와 관련된 값들의 가중치를 수정하여 오차가 작아지는 방향으로 일정 횟수를 반복해서 수정하는 방법

3. GMM  전체 데이터의 확률분포가 k개인 가우시안 분포 (정규분포)의 선형 결합으로 이뤄졌음을 가정하고 각 분포에 속할 확률이 높은 데이터 간의 군집을 형성하는 방법 (주어진 데이터에 대하여 적절한 k개의 가우시안 분포의 가중치, 평균, 공분산 추정)

4. 손실 함수

 

★ 다음 중 오차역전파에 대한 설명으로 올바르지 않은 것은?

1. 계산 그래프에서 계산을 왼쪽에서 오른쪽으로 진행하는 단계를 순전파, 오른쪽에서 왼쪽으로 진행하면 역전파라 한다

2. 오차역전파는 계산 결과와 정답의 오차를 구하고 오차와 관련된 값들의 가중치를 수정하여 오차가 작아지는 방향으로 일정 횟수를 반복해서 수정하는 방법

3. 수치 미분과 오차역전파의 결과를 비교하여 두 방식으로 구한 기울기의 차이가 거의 없는지를 확인하는 작업은 기울기 확인

4. 오차역전파의 단점을 극복하기 위하여 확률적 경사 하강법, 모멘텀 등의 매개변수 최적화 기법을 사용

▶ 확률적 경사 하강법, 모멘텀 등의 매개변수 최적화 기법은 경사 하강법의 단점을 극복하기 위하여 사용

 

★ 다층 신경망 모형에서 은닉층의 개수를 너무 많이 설정하게 되면 역전파 과정에서 가중치 조정이 이루어지지 않아 신경망의 학습이 제대로 이루어지지 않는다. 이러한 현상을 나타내는 용어는?

1. 기울기 소실 문제 ▶ 다층퍼셉트론의 활성화 함수인 시그모이드 함수는 편미분을 진행할수록 0으로 근접해져 기울기가 소실되는 문제점 발생

2. 지역 최적화 ▶ 단시간에 일부 탐색 영역 내에서 최적의 해를 찾아 전체 탐색 영역에서 최적의 해가 아닌 문제

3. XOR 문제 ▶ 퍼셉트론에서 선형 분리할 수 없는 문제

4. 과대 적합 문제 ▶ 훈련 데이터가 부족하여 훈련 데이터에는 잘 동작하지만, 실제 데이터에는 예측을 못하는 문제

 

★ 다음 중 은닉층이 순환적으로 연결된 것은?

1. CNN ▶ 시각적 이미지를 분석하는 데 사용되는 심층 신경망 (합성곱 신경망) / 합성곱 연산을 통해 사용자가 입력한 이미지에서 필터를 이용하여 특징을 추출한 피처 맵하고 서브샘플링 연산을 통해 화면의 크기를 줄여 차원 축소

2. ANN

3. RNN ▶ 입력층, 은닉층, 출력층으로 구성되며 은닉층에서 재귀적인 신경망을 갖는 알고리즘 (순환신경망)

4. DNN  입력층, 다수의 은닉층, 출력층으로 구성 (심층신경망) 오파 역전파를 사용

 

 다음 중 순환신경망(RNN)에서 발생하는 GV (기울기 소실) GE(기울기 폭발) 에 대한 설명으로 가장 알맞은 것은?

1. 기울기 클리핑은 기울기 소실을 막기 위해 기울기 값을 자르는 방법

 기울기 클리핑: 기울기 폭발을 막기 위해 일정 임곗값을 넘어서지 못하게 기울기 값을 자르는 방법

2. 기울기 소실이란 오차역전파 과정에서 입력층으로 갈수록 가중치에 따른 결괏값의 기울기가 작아져 0에 수렴하는 문제

3. RNN 은 LTSM(Long Short Term Memory) 의 장기 의존성 문제를 보완하기 위한 알고리즘

  LTSM은 RNN 의 장기의존성 문제를 보완하기 위한 알고리즘

4. 순환 신경망은 입력 게이트, 망각 게이트, 출력 게이트로 구성  LTSM은 입력 게이트, 망각 게이트, 출력 게이트로 구성


★ 세 개의 집단의 평균 차이를 검정하는 것은?

1. 윌콕슨 부호 검정

2. 다차원 척도법

3. 분산 분석 ▶ 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산의 비교로 얻은 분포를 이용하여 가설검정 수행

4. 판별 분석

 

★ 다차원 척도법에 대한 설명으로 옳지 않은 것은?

1. 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법

2. 공분산행렬을 사용하여 고윳값이 1보다 큰 주성분의 개수 이용  주성분 분석 (PCA) 설명

3. 스트레스 값이 0에 가까울수록 적합도가 좋음 ▶ 0에 가까울수록 좋고, 1에 가까울수록 나쁨

4. 유클리드 거리와 유사도를 이용하여 구분

 

★ 다음 중 다차원 척도법에 대한 설명으로 올바르지 않은 것은?

1. 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법

2. 주어진 거리는 추상적인 대상들 간의 거리가 될 수도 있고, 실수 공간에서의 거리가 될 수도 있다

3. 주로 자료들의 상대적 관계를 이해하는 시각화 방법의 근간으로 주로 사용

4. 상관관계가 있는 고차원 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법

▶ 다차원 척도법은 원래 차원보다 낮은 차원의 공간으로 위치시켜서 관계 파악 (3차원 이상 → 2,3 차원)

- 차원이 높은 데이터의 경우 실수 공간으로 변환시켜 차원 낮춤

- 차원을 낮추면 원래 데이터들의 위치가 바뀌게 되는데, 그 점들 간의 거리는 변화하기 전의 실제 데이터가 추상적인 대상들(다차원) 간의 거리가 될 수도 있고, 실수 공간 (2, 3차원) 간의 거리가 될 수도 있


★ 다음은 머신러닝에 대한 일련의 처리 과정이다. ( ) 에 들어갈 용어는?

표현 - 평가 - (    ) - 일반화

1. 정규화

2. 최적화

3. 합리화

4. 시각화

▶ 표현: 예측 모형으로 입력한 일련의 데이터를 처리하는 방법 결정

평가: 결정된 모형을 목표한 과업이 정확히 수행되었는지 판단

최적화: 평가기준에서 가장 만족도가 높은 조건을 찾아 최적화

일반화: 표현 - 평가 - 최적화 단계를 통해 충분히 학습되어진 예측 모형을 일반화 하여 새로운 데이터로부터 결과를 에측하는 데 활용


★ 데이터 마이닝 기법 중 항목들 간의 '조건-결과' 식으로 표현되는 유용한 패턴을 발견해내는 방법은?

1. 인공신경망

2. 의사결정나무

3. 연관성분석 ▶ 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용 (장바구니 분석 또는 서열 분석)

4. 자기 조직화 지도(SOM)

 

★ 다음 중 연관분석의 장점으로 가장 올바르지 않은 것은?

1. 목적변수가 없어 분석 방향이나 목적이 없어도 적용 가능

2. 조건 반응(if-then)으로 표현되어 결과를 쉽게 이해

3. 매우 간단하게 분석을 위한 계산 가능

4. 품목 세분화와 관계없이 의미 있는 규칙 발견 가능

▶ 적절한 세분화로 인한 품목 결정이 장점이나, 너무 세분화된 품목은 의미 없는 결과 도출

 

★ 다음 중 비즈니스 모델에서 빅데이터 분석 방법과 사례를 연결한 것으로 부적절한 것은?

1. 연관규칙 학습: 맥주를 사는 사람은 콜라도 같이 구매하는 경우가 많은가?

2. 분류 분석: 택배 차량을 어떻게 배치하는 것이 가장 좋을까?

3. 소셜 네트워크 분석 ; 친분 관계가 승진에 미치는 영향

4. 회귀 분석: 고객의 만족도가 충성도에 미치는 영향

▶ 분류분석은 문서를 분류하거나 조직을 그룹으로 나눌 때 또는 온라인 수강생들을 특성에 따라 분류할 때 사용하는 기법으로, 사용자가 어떤 특성을 가진 집단에 속하는지 알아볼 때 사용


★ 다음 중 분석 모형을 정의할 때 고려사항으로 가장 부적절한 것은?

1. 분석 대상인 데이터에 비해 모델이 너무 간단하면 과소 적합(Under-Fitting)이 바생하므로 적합한 모델 선정

2. 종속변수와 하나 또는 둘 이상의 독립변수 사이에 관계가 있는 것은 모델에서 누락시키지 않음

3. 관련 있는 변수만을 설정

4. 모델 복잡도와 상관없이 관련 있는 모델을 모두 선택 ▶ 적합하지 않은 모형을 선택하면 오류가 발생하므로, 복잡도를 고려하여 적합한 모델 선택

 

★ 분석 모형의 구축 절차는?

 요건 정의 → 모델링  → 검증 및 테스트  → 적용 

 

 분석 모형의 구축 단계 중 모델링 절차는?

 모델링 마트 설계 및 구축 → 탐색적 분석과 유의 변수 도출  → 모델링  → 모델링 성능평가 

 

★ 다음 중 모델링 단계에서 수행하는 것을 설명한 것으로 가장 부적절한 것은?

1. 다양한 모델링 기법 중에서 업무 특성에 적합한 기법을 선택하거나 모델링 기법을 결합해 적용

2. 프로세스 및 자원에 대해 제약이 있고 입력값이 확률분포이면 시뮬레이션 기법 적용

3. 프로세스 및 자원에 대한 제약이 있고 상수값을 가질 때는 최적화 기법 적용

4. 시뮬레이션과 최적화 기법 중 반드시 한 가지 선택 ▶비즈니스 및 데이터 특성 등 경우에 따라서 시뮬레이션과 최적화를 결합하여 사용 가능


★ 다음 중 데이터 분할에 대한 설명으로 가장 올바르지 못한 것은?

1. 데이터는 학습, 검증, 평가 데이터로 구분

2. 훈련 데이터를 한 번 더 분할하여 훈련 데이터와 검증 데이터로 나누어서 사용

3. Early Stopping 사용 가능

4. 평가 데이터는 학습에 사용 가능 ▶ 평가 데이터는 학습 과정에 사용되지 않고 오로지 모형 평가를 위한 과정에만 사용

 

★ 다음 중에서 데이터 분활과정에서의 훈련 데이터와 검증 데이터, 평가 데이터의 설명 중 옳지 않은 것은?

1. 훈련 데이터와 검증 데이터는 학습 과정에서 사용

2. 데이터가 충분하지 않을 경우 훈련 데이터와 평가 데이터로만 분할하여 사용 가능

3. 평가 데이터는 학습 과정에서 과적합 발생 여부 등을 파악하고 모형의 튜닝에도 사용 가능 ▶ 평가 데이터는 학습 과정에서는 미사용

4. 데이터를 일반적으로 훈련 데이터와 검증 데이터를 60 ~80% 사용하고, 평가 데이터를 20~40%로 분할하여 사용


★ 선형 회귀 모형의 가정에서 잔차항과 관련 없는 것은?

1. 선형성

2. 독립성

3. 등분산성

4. 정상성

▶ 선형 회귀 모형의 가정은 선형성, 독립성, 등분산성, 비상관성, 정상성

 

★ 다음 중 회귀 모형의 가정으로 옳지 않은 것은?

1. 등분산성

2. 독립성

3. 선형성

4. 일관성

 

★ 다음 중 오차항의 분산이 독립변수와 무관하게 일정해야 한다는 특성은?

1. 선형성

2. 등분산성

3. 비상관성

4. 정상성

 

★ 회귀 분석의 가정 중 정상성이란 (가)이/가 정규분포를 이뤄야 함을 가정한다. 여기서 (가)는?

 잔차항

선형성 - 독립변수와 종속변수가 선형적이어야 함
- 독립변수의 변화에 따라 종속변수도 일정 크기로 변화
독립성 - 단순선형 회귀 분석에서는 잔차와 독립변수의 값이 서로 독립적이어야 함
- 다중선형 회귀 분석에서는 독립변수 간 상관성이 없이 독립적이어야 함
등분산성 - 잔차의 분산이 독립변수와 무관하게 일정해야 함
- 잔차가 고르게 분포되어야 함
비상관성 - 관측치의 잔차끼리 상관이 없어야 함
- 잔차끼리 서로 독립이면 비상관성이 있다고 판단
정상성(정규성) - 잔차항이 정규분포의 형태를 이뤄야 함
- Q-Q Plot 에서는 잔차가 대각 방향의 직선의 형태를 띠면 잔차는 정규분포를 따른다고 할 수 있음

 

★ 다음 회귀 모형 결과를 해석한 것으로 옳은 것을 모두 고르시오.

  Estimate Std.Error t value Pr(>|t|)
(Intercept) 41.107678 2.842426 14.462 1.62e-14
X1 0.007473 0.011845 0.631 0.00651
X2 -3.635677 1.040138 -3.495 0.00160
X3 -4.784944 0.607110 -2.940 0.53322

 

가. 유의수준 0.05에서 X1, X2는 유의하다고 할 수 있다. ▶ X1, X2는 Pr(>|t|) 값이 0.05보다 작으므로 통계적으로 유의 (O)
나. X2의 계수는 41.107678이다 ▶ X2의 게수는 -3.635677 (X)
다. 변수 X3는 회귀 모형에서 제거 가능하다. ▶ X3는 Pr(>|t|) 값이 0.05보다 커서 통계적으로 유의하지 않으므로 제거 가능(O)

 답은 가, 다


★ 의사결정나무의 분석 과정으로 가장 알맞지 않은 것은?

1. 데이터의 분류 및 예측에 활용

2. 부적절한 나뭇가지는 가지치기로 제거

3. 분석의 목적과 자료 구조에 따라서 적절한 분리 기준으로 마지막 끝 마디까지 생성 ▶ 분석의 목적과 자료 구조에 따라서 적절한 분리 기준과 정지 규칙을 정하여 의사결정 나무 생성

4. 이익, 위험, 비용 등을 고려하여 모형 평가

※ 의사결정나무의 분석 과정: 의사결정나무 성장 → 가지치기  → 타당성 평가  → 해석 및 예측

 

★ 다음 중 의사결정나무에서 이산형 목표변수에 사용되는 분리 기준에 대한 설명으로 올바르지 않은 것은?

1. 카이제곱 통계량의 p값은 p-값이 가장 작은 예측 변수와 그 당시의 최적 분리를 통해서 자식 마디 형성

2. 지니 지수는 불순도를 측정하는 하나의 지수로서 지니 지수를 가장 감소시켜주는 예측변수와 그 당시의 최적 분리를 통해서 자식 마디를 선택

3. 분산 분석에서 F-통계량은 P값이 가장 작은 예측변수와 그 당시의 최적분리에 의해서 자식 마디를 형성 ▶ F-통계량은 이산형이 아닌 연속형 목표변수에서 사용

4. 엔트로피 지수는 엔트로피 지수가 가장 작은 예측변수와 그 당시의 최적 분리를 통해서 자식 마디 형성

 

★ 다음 중 의사결정나무 기법의 학습 방법에 대한 설명으로 가장 올바르지 않은 것은?

1. 가지치기: 분류 오류를 크게 할 위험이 있거나 적적절하지 못한 규칙을 가진 가지를 제거하는 작업

2. 이익도표 또는 검정용 자료에 의한 교차 타당성 등을 이용하여 의사결정나무 평가

3. 각 마디에서의 최적 분리 규칙은 분리 변수의 선택과 분리 기준에 의해 결정

4. 분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받지 않고 이루어짐

▶ 분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받음

※ 가지치기: 의사결정나무 형성과정 중 오차를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요한 가치를 제거하는 단계

(의사결정나무의 끝마디가 너무 많이 나오면 모형이 과대 적합된 상태로 현실 문제에 적용할 수 있는 규칙이 나오지 않게 된다. 이를 해결하기 위해 분류된 관측치의 비율이나 MSE (평균 제곱 오차) 등을 고려하여 과적합 문제를 해결하는 세부기법)

 

★ 다음 중 의사결정나무의 분류나무 (이산형 목표변수)에서 사용되는 분리기준이 아닌 것은?

1. 지니지수 ▶노드의 불순도를 나타내는 값. 값이 클수록 이질적이며 순수도가 낮음

2. 엔트로피 지수 ▶ 열역학에서 쓰는 개념으로 무질서 정도에 대한 측도

3. 카이제곱 분포

4. 분산 분석에서 F-통계량 ▶ 회귀나무 (연속형 목표변수)에서 사용

분류나무 (이산형 목표변수)에서 시용되는 분리 기준 카이제곱 통계량의 p-값, 지니 지수, 엔트로피 지수
회귀나무 (연속형 목표변수)에서 사용되는 분리 기준 분산 분석에서 F-통계량, 분산의 감소량

 

★ 다음 중 아래에서 설명하는 의사결정나무 알고리즘은?

- 호주의 연구원 J. Ross Quinlan에 의하여 개발
- 초기 버전은 ID 3로 1986년에 개발
- 가지치기를 사용할 때 학습자료를 사용
- 종속변수가 이산형이며, 불순도의 척도로 엔트로피 지수 사용

 

1. C4.5와 C5.0

2. CART ▶각 독립변수를 이분화하는 과정을 반복하여 이진 트리 형태를 형성함으로써 분류를 수행하는 방

3. CHAID ▶분리 기준으로는 카이제곱 통계량을 사용하고, 분리 방법은 다지 분리를 사용하는 의사결정나무 알고리즘

4. QUEST

 

★ 특정 기준에 따라 회귀계수에 벌점을 부여하여 모형의 복잡도를 낮추는 분석 기법은?

 벌점화 회귀

 

★ 모형의 복잡도에 벌점(Penalty)을 주는 방법에 대한 설명으로 가장 알맞지 않은 것은?

1. AIC (Akaike Information Criterion)는 실제 데이터의 분포와 모형이 예측하는 분포 사이의 차이를 나타낸 지표

2. AIC의 값이 낮을수록 모형의 적합도가 낮다 ▶값이 낮을수록 적합도가 높다

3. AIC의 단점은 표본이 커질수록 부정확해진다는 점인데, 이를 보완한 지표가 BIC(Bayesian Information Criterion)

4. BIC는 표본의 크기가 커질수록 복잡한 모형을 더 강하게 처벌

 

★ 연관 알고리즘으로 가장 알맞은 것은?

1. C5.0

2. 아프리오리 ▶ 가능한 모든 경우의 수를 탐색하는 방식을 개선하기 위하여 데이터들의 발생빈도가 높은 것(빈발항목)을 찾는 알고리즘

3. CART

4. QUEST

▶ C5.0, CAR, QUEST는 의사결정나무 알고리즘

 

★ 가능한 모든 경우의 수를 탐색하는 방식을 개선하기 위하여 데이터들의 발생빈도가 높은 빈발항목을 찾는 알고리즘은?

1. 아프리오리

2. FP-Growth ▶ 아프리오리 알고리즘을 개선한 알고리즘, FP-Tree 라는 구조를 통해 최소 지지도를 만족하는 빈발 아이템 집합을 추출하는 알고리즘

3. 지지도

4. 향상도


★ 아래와 같은 데이터 셋이 주어졌을 때 연관규칙 '오렌지, 사과 → 자몽'의 지지도와 신뢰도는?

{오렌지, 사과, 자몽},
{수박, 레몬},
{오렌지, 사과, 레몬, 자몽}
{딸기, 수박, 사과, 레몬},
{딸기, 수박, 레몬, 자몽},
{오렌지, 사과}

[풀이]

A: 오렌지, 사과, B: 자몽

지지도; (A와 B가 동시에 포함된 거래 수) / 전체거래수 = 2/6 = 33%

신뢰도: (A와 B가 동시에 포함된 거래 수) / A를 포함하는 거래 수 = 2/3 = 66%

▶ 답은 지지도: 33%, 신뢰도: 66%

 

★ 다음 중 A 상품을 샀을 때 B 상품을 살 지표로 가장 알맞은 것은?

1. 지지도

2. 신뢰도

3. 향상도

4. 조건부 확률

 

★ 다음 중 연관규칙의 측정지표인 향상도에 대한 설명으로 알맞은 것은?

1. 품목 B에 대한 A의 조건부 확률로 나타냄

2. 품목 A와 B의 구매가 서로 관련이 없는 경우 향상도는 0

3. 향상도가 1보다 크면 해당 규칙은 결과를 예측하는 데 있어 우수

4. 전체거래 중에서 품목 A,B가 동시에 포함된 거래의 비율

※ 향상도는 A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가비

- 두 폼목의 상관관계를 기준으로 도출된 규칙의 예측력을 평가하는 지표

- 규칙이 우연히 일어날 경우 대비 얼마나 나은 효과를 보이는지에 대한 척도

- 향상도가 1인 경우는 서로 독립적인 관계

지지도 전체 거래 중 항목 A와 B를 동시에 포함하는 거래의 비율
신뢰도 A 상품을 샀을 때 B 상품을 살 조건부 확률에 대한 척도
향상도 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관성의 정도를 측정하는 척도

 

★ 다음은 여학생과 남학생이 선호하는 책에 대한 빈도 교차표이다. 전체에서 1명을 뽑았을 때 그 학생이 남학생일 경우 소설책을 좋아할 확률은?

  소설책 여행책
남학생 50 30
여학생 10 20

[풀이]

P(소설책|남학생) = P(소설책 ∩ 남학생) / P (남학생)

= (50/110)/({(50+30)/110} = 5/8

 

★ 다음은 쇼핑몰의 거래 내역이다. 연관규칙 '우유→빵' 에 대한 신뢰도는?

항목 거래수
우유 10
20
{우유, 빵} 50
{빵, 초콜렛} 20
전체 거래 수 100

[풀이]

A: 우유, B: 빵

P(A) : 우유가 포함된 거래가 있는 확률 = (10+50)/100 = 3/5 = 0.6

P(A ∩ B) = 우유와 빵을 동시에 거래한 확률 = 50/100 = 1/2 = 0.5

신뢰도 = 0.6/0.5 = 0.83


★ 소프트맥스 함수에 대한 설명으로 가장 올바르지 않은 것은?

1. 출력값은 0에서 1 사이의 실수

2. 분산 1이 된다

3. 출력값을 확률로 해석 가능

4. 출력값의 총합은 1

▶ 소프트맥스 함수: 출력값이 여러 개로 주어지고 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공하는 함수

 

★ 다음 중 활성화 함수에 대한 설명으로 가장 알맞지 않은 것은?

1. 하이퍼볼릭 탄젠트는 -1에서 1의 값을 가짐

2. 부호 함수는 임곗값을 기준으로 활성화 또는 비활성화 됨 ▶ 부호함수는 임곗값을 기준으로 양의 부호 또는 음의 부호 출력

3. ReLU 함수는 시그모이드의 기울기 소실 문제를 해결

4. 시그모이드 함수 입력값이 0일 때, 미분값은 0.25

계단 함수 임곗값을 기준으로 활성화 (y축 1) 또는 비활성화 (y축 0)가 되는 함수
시그모이드 함수 인공 뉴런의 활성화 함수인 실함수로서 유한한 영역을 가지는 집합이고 미분 가능하며, 모든 점에서 음이 아닌 미분 값을 가지고 단 하나의 변곡점을 가지는 함수
(입력값이 0일 때, 미분값은 0.25)
tanh 함수 하이퍼볼릭 탄젠트 함수로 -1에서 1의 값을 가지는 함수
ReLU 함수 x값이 0보다 큰 경우 y값도 지속적으로 증가하고, x값이 0보다 작거나 같은 경우 기울기가 0이기 때문에 뉴런이 죽을 수 있는 단점이 존재하는 함수
(시그모이드의 기울기 소실 문제 해결)

 

★ 인공지능 활성화 함수 중에서 출력값이 여러 개로 주어지고 목표치가 다 범주인 경우 각 범주에 속할 사후 확률을 제공하는 함수는?

 소프트맥스 함수 (Sotfmax 함수는 확률로 변환해 주며, 출력값의 총합은 1)

 

★ 다음 중에서 아래 예시의 빈칸 (   )에 들어가는 활성화 함수는?

입력층이 직접 출력층에 연결이 되는 단층신경망(Single Layer Neural Network) 에서 활성화 함수를 (   )로 사용하면 로지스틱 회귀 모형과 작동원리가 유사해진다

 

 시그모이드 함수 (시그모이드 함수는 로지스틱함수로 불리기도 한다 / 시그모이드 함수는  0~1의 확률 값 가짐 )

 

★ 다음 중 활성화 함수(Activation Function)에 대한 설명으로 올바르지 않은 것은?

1. 활성화 함수는 순 입력함수로부터 전달받은 값을 출력값으로 변환해주는 함수

2. 시그모이드 함수는 인공 뉴런의 활성화 함수인 실함수로서 유한한 영역을 가지는 집합이고 미분 가능하며, 모든 점에서 음이 아닌 미분 값을 가지고 단 하나의 변곡점을 가지는 함수

3. ReLU 함수는 x값이 0보다 작은 경우 y값도 지속적으로 증가하는 함수로 시그모이드의 기울기 소실 문제를 해결한 함수

▶ x값이 0보다 큰 경우 y값도 지속적으로 증가하는 함수 (시그모이드의 기울기 소실 문제 해결)

4. 소프트 맥스 함수는 출력값이 여러 개로 주어지고 목표 치가 다범주인 경우 각 범주에 속할 사후 확률을 제공


★ 다음 중 군집 분석에서의 유사도 측정에 대한 설명으로 가장 올바르지 않은 것은?

1. 맨하탄 거리: 각 방향 직각의 이동 거리 합으로 계산

2. 표준화 거리: 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리를 계산한 거리

3. 마할라노비스 거리: 변수의 표준편차를 고려한 거리 측도이나 변수 간에 상관성이 있는 경우에는 표준화 거리 사용 검토 필요

▶ 표준화 거리는 변수 간의 상관관계가 고려되지 않음.

4. 유클리드 거리: 두 점을 잇는 가장 짧은 직선거리

수학적 거리 유클리드 거리 두 점을 잇는 가장 짧은 직선거리
맨하탄 거리(시가거리) 각 방향 직각의 이동 거리 합
통계적 거리 표준화 거리 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리를 계산한 거리
마할라노비스 거리 - 변수들의 산포를 고려하여 표준화한 거리
- 두 벡터 사이의 거리는 산포를 의미하는 표본 공분산으로 나눠주어야 하며, 그룹에 대한 사전 지식 없이는 표본 공분산을 계산할 수 없으므로 사용하기 곤란

 

★ 아래 데이터 세트 A, B 간의 유사성을 맨하탄 거리로 계산하면?

신체정보/ 대상자 김00 강00
165 180
몸무게 50 65

[풀이]

|165-180| + |50-65| = 15+15 = 30

 

★ 군집 간의 거리를 측정하는 방법 중에서 군집 내의 오차 제곱합에 기초하여 군집을 수행하는 방법은?

1. 평균 연결법 ▶ 모든 항목에 대한 거리를 평균을 구하면서 가장 유사성이 큰 군집을 병합해 나가는 방법 (계산량이 불필요하게 많아질 수 있음. 이상치에 덜 민감)

2. 와드 연결법

3. 최단 연결법 ▶ n * n 거리행렬에서 거리가 가장 가까운 데이터를 묶어서 군집 형

4. 중심 연결법 ▶ 두 군집의 중심 간의 거리 측정 (계산량이 적고, 중심 사이의 거리를 한 번만 계산)

※ 최장연결법: 두 군집 사이의 거리를 각 군집에서 하나씩 관측값을 뽑았을 때 나타날 수 있는 거리의 최댓값으로 측정


★ 다음의 이원교차표를 이용하여 학년별 과목의 성적에 대한 카이제곱 분석을 실시하려고 한다. 다음 중 옳은 것은?

  국어 영어 수학
1학년 80 75 72
2학년 76 82 68
3학년 83 79 75

가. 카이제곱값이 클수록 귀무가설을 기각한다 ▶ (O)

나. 표본의 수가 많을수록 포아송분포에 가까워진다 ▶ (X), 표본의 수가 많을수록 정규분포에 가까워진다 

다. 자유도는 4이다 ▶ (O)

 정답은 가, 다

 

★ 고등학교 학년별 (1, 2, 3학년)로 3과목(국어,영어,수학)에 대한 선호도를 조사 시, 카이제곱 검정을 하려면 자유도는?

▶ 카이제곱 검정의 자유도: {(범주1의 수) -1} * {(범주2의 수)-1} = (3-1) * (3-1) = 2 * 2 = 4

 

★ 다음 중 아래와 같은 데이터가 있는 경우 카이제곱 통계량은?

  Good Bad Total
Left 32 48 80
Right 178 42 220
Total 210 90 300

 

[풀이]

Left 기대도수: 80 * 210/300 = 56, 80 * 90/300 = 24

Right 기대도수: 220 * 210/300 = 154, 220 * 90/300 = 66

▶ 카이제곱 통계량 구하기

= {(56-32)^2/56} + {(24-48)^2/24} + {(154-178)^2/154} + {(66-42)^2/66}

= 46.75

 

★ 다음은 100명의 남/여학생을 대상으로 A 과목에 대한 수강 신청 여부가 균일한지를 알아보고자 한다. 카이제곱 적합도 검정을 이용하여 이 문제를 풀려고 할 때 x^2 의 값은?

학년 학생수
60
40
100

 

[풀이]

주어진 분포표에 대한 상대도수분포표 작성

학년 학생수 기대 확률 기대 빈도
60 0.5 50
40 0.5 50
100 1 100

(60-50)^2/50 + (40-50)^2/50 =100/50 + 100/50 = 2+2 = 4


★ 차원의 단순화를 통해 서로 상관성이 있는 변수들 간 복잡한 구조를 분석하는 것이 목적인 주성분 분석에 대한 설명으로 가장 올바르지 않은 것은?

1. 차원 감소 폭의 결정은 스크리 플롯(Scree Plot), 전체 변이의 공헌도, 평균 고유값 등을 활용하는 방법이 있다

2. 변수들이 서로 상관이 있는 경우, 해석상의 복잡한 구조적 문제가 발생하기 때문에 변수들 사이의 구조를 쉽게 이해하기 위해 주성분 분석이 필요하다 ▶ 분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하기는 어렵다

3. 주성분 분석에서 차원의 저주는 데이터 차원이 증가할 때, 데이터의 구조를 변환하여 차원을 감소하는 방법으로 해결이 필요

4. p개의 변수를 중요한 m(P) 개의 주성분으로 표현하여 전체 변동을 설명하는 것으로 m개의 주성분은 원래 변수들의 선형 결합으로 표현된다

▶ 주성분 분석: 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법

  • 다변량 분석 기법
  • 데이터 간 높은 상관관계가 존재하는 상황에서 상관관계를 제거하여 분석의 용이성 증가
  • 누적 기여율이 70~90% 사이가 되는 주성분의 수로 결정
  • 스크리 산점도의 기울기가 완만해지기 직전까지 주성분의 수로 결정
  • 차원축소 시 변수추출 방법 사용
  • Eigen Decomposition, Singular Value Decomposition 을 이용한 행렬분해기법
  • 수학적으로 직교 선형 변환으로 정의
  • 변동폭이 큰 축을 선택
  • 고윳값이 높은 순으로 정렬해서, 높은 고윳값을 가진 벡터만으로 데이터 복원
  • 차원 축소를 통해 원본 데이터를 직관적으로 파악하기 어려운 단점 존재

 주성분 분석에 대한 설명으로 옳지 않은 것은?

1. 주성분 분석은 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법

2. 분산이 가장 작은 것을 제1주성분으로 함 ▶ 제1주성분은 데이터의 변동을 최대로 설명해주는 방향에 대한 변수들의 선형 결합식으로 데이터 분산이 가장 큰 방향에 대한 변수들의 선형 결합식

3. 주성분 분석은 고윳값, 고유벡터를 통해 분석 고윳값이 높은 순으로 정렬해서, 높은 고윳값을 가진 벡터만으로 데이터 복원

4. 주성분 분석의 목적 중 하나는 데이터를 이해하기 위한 차원 축소

 

★ 주성분 분석에서 제1주성분에서 제 k 주성분까지의 주성분을 이용하여 설명할 수 있는 데이터의 전체 정보량의 비율은?

 누적기여율


★ 다음의 앙상블 (Ensemble) 방법 중에서 전체 변수 집합에서 부분 변수 집합을 선택하여 각각의 집합에 대해 모형을 생성한 후 결합을 하는 방식의 앙상블 방법은?

1. 배깅    훈련 데이터에서 다수의 부트스트랩 자료를 주어진 자료에서 동일한 크기의 표본을 랜덤 복원추출로 뽑은 자료

2. 부스팅 ▶ 점가중치를 주어 표본을 추출하는 기법

3. 랜덤 포레스트

4. 부트 스트랩 ▶ 주어진 자료에서 단순 랜덤 복원 추출 방법을 활용하여 동일한 크기의 표본을 여러 개 생성하는 샘플링 방법

※ 앙상블 기법: 예측력이 약한 모형을 연결하여 강한 모형으로 만드는 기법

 

◆ 랜덤 포레스트

- 의사결정나무가 트리의 수가 많아지면 과대적합(Overfitting)이 될 수 있으며, 이 문제를 해결한 알고리즘

- 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법

- 여러 개의 의사결정 트리를 모아놓은 구조

- 훈련을 톻애 다수의 나무들로부터 투표를 통해 분류 결과 도출

- 분류기를 여러 개 쓸수록 성능이 좋아짐

 

★ 다음 중 랜덤 포레스트에 대한 설명으로 올바르지 않은 것은?

1. 포레스트가 작으면 트리들의 구성 및 테스트 시간이 짧은 대신, 일반화 능력이 떨어지는 반면, 포레스트의 크기가 크면 훈련과 테스트 시간은 증가하지만 포레스트 결괏값의 정확성 및 일반화 능력 우수

2. 랜덤 포레스트의 최대 허용 깊이가 작으면 과대적합, 크면 과소 적합이 일어나기 때문에 적절한 값 설정 필요

▶ 허용 깊이가 작으면 과소적합, 허용 깊이가 크면 과대 적합이 일어나기 때문에 적절한 값 설정 필요

3. 랜덤 포레스트의 임의성의 정도에 따라 비상관화 수준 결정 됨

4. 랜덤 포레스트는 분석을 위해 준비된 데이터로부터 임의복원 추출을 통해 여러 개의 훈련 데이터를 추출하고 각각 개별 학습을 시켜 트리를 생성하여 투표 또는 확률 등을 이용하여 최종 목표변수를 예측

 

앙상블기법 주요 알고리즘 알고리즘 설명
배깅 랜덤 포레스트 부트스트랩을 통해 조금씩 다른 훈련 데이터에 대해 훈련된 기초 분류기들을 결합시키는 알고리즘
부스팅 AdaBoost
(Adaptive Boost)
잘못 예측한 데이터에 가중치를 부여하여 오류를 개선하는 알고리즘
GBM
(Gradient Boost Machine)
경사 하강법(Gradient Descent)을 이용하여 가중치를 업데이트함으로써 최적화된 결과를 얻는 알고리즘

 

◆ 배깅

- 최적 모델 결정은 독립수행 후 다수결로 결정

- 일반적으로 성능 향상에 효과적이고, 결측값이 존재할 때 강함

- 소량의 데이터(데이터 세트의 관측값 수)일수록 유리

- 주요 알고리즘은 랜덤 포레스트

 

◆ 부스팅

- 잘못 분류된 개체들에 가중치를 적용, 새로운 분류 규칙을 만들고, 이 과정을 반복해 최종 모형을 만드는 알고리즘

- 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법

- 최적 모델을 결정하기 위해서 이전 분류에서 정분류 데이터에는 낮은 가중치를 부여하고, 이전 분류에서 오분류 데이터에는 높은 가중치 부여

- 부스팅 기법의 목표는 분류하기 힘든 관측값들에 대해서 정확하게 분류를 잘하도록 유도해서 예측력을 강화시키는 것

- 부스팅은 대용량 데이터일수록 유리하고, 데이터와 데이터의 속성이 복잡할수록 유리

- 주요 알고리즘은 에이다 부스트 (AdaBoost)

- 특정 케이스의 경우 상당히 높은 성능 보임

- 다소 높은 계산 복잡

 

★ 앙상블 학습의 장점을 모두 선택하시오.

가. 개별 모델을 결합하는 과정에서 분산이 낮아져 과적합 감소 효과 ▶ (O)

나. 모형의 투명성이 높아 정확한 현상의 원인 분석에 적합 ▶ (X), 모형의 투명성이 떨어지게 되어 정확한 현상의 원인 분석에는 부적합

다. 이상값에 대한 대응력이 높아지고, 전체 분산 감소 ▶ (O)

 답은 가, 다

 

★ 다음 중 앙상블 기법의 특징으로 올바르지 않은 것은?

1. 다양한 모형의 예측 결과를 결합함으로써 단일 모형으로 분석했을 때보다 높은 신뢰성

2. 연속형 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 근방에서는 예측 오류가 클 가능성 있다는 단점 존재

▶ 의사결정나무에 대한 설명

3. 이상값에 대한 대응력이 높아지고, 전체 분산을 감소 시킴

4. 모형의 투명성이 떨어지게 되어 정확한 현상의 원인 분석에는 부적합

 

★ 다음 중 앙상블에서 베이스 모형의 독립성을 최적화하기 위한 방법으로 가장 알맞지 않은 것은?

1. 입력변수를 다양하게 한다

2. 테스트 데이터를 다르게 한다 ▶ 테스트 데이터는 평가 과정에서 한 번만 사용

3. 서로 다른 알고리즘을 사용한다

4. 매개변수를 다양하게 한다

 

★ 데이터 집합에서 크기가 같은 표본 여러 개를 단순 임의 복원 추출하여 분류기를 생성하고 결과를 앙상블 하는 기법은?

1. 배깅 

2. 부트스트랩 ▶ 주어진 자료에서 단순 랜덤 복원 추출 방법을 활용하여 동일한 크기의 표본을 여러 개 생성하는 샘플링 방법

3. 의사결정나무 ▶ 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 및 예측 모델 (앙상블하는 방법 아님)

4. ReLU ▶ 시그모이드의 사라지는 경사 현상(기울기 소실) 문제를 해결한 활성화 함수


★ 다음 중 시계열 예측에서 정상성을 만족한다는 것이 의미하는 것은?

1. 평균이 시점에 의존

2. 표준편차가 시점에 의존

3. 공분산이 시차에 의존하지 않음

4. 분산이 시점에 의존하지 않음

 

  다음 중 ARIMA 에 대한 설명으로 가장 알맞지 않은 것은?

1. 자기회귀 누적 이동평균 모형

2. 차분이나 변환을 통해 AR이나 MA 모형, ARMA 모형으로 정상화 가능

3. 현시점의 자료를 유한개의 백색잡음의 선형결합으로 표현되어 항상 정상성 만족 ▶ 해당 설명은 MA(이동평균모형)

4. ARIMA (p, d, q) 모형은 차수 p, d, q 가 있음

 

★ 다음 중 시계열 모형으로 가장 알맞지 않은 것은?

1. AR 모형 ▶ 자기 회귀 모형, 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있는 모형

2. MA 모형 ▶ 이동 평균 모형, 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형

3. ARIMA 모형

4. 로지스틱 회귀 모형

▶ 시계열 모형: 자기 회귀 모형(AR) , 이동 평균 모형 (MA), 자기 회귀 누적 이동평균 모형 (ARIMA)

시계열 구성요소: 추세, 계절, 순환, 불규칙

추세 데이터가 장기적으로 증가하거나 감소하는 것이며, 추세가 꼭 선형일 필요는 없음
순환 경기변동과 같이 정치, 경제, 사회적 요인에 의한 변화로, 일정 주지가 없으며 장기적인 변화 현상
계절 주, 월, 분기, 반기 등 특정 시간의 주기로 나타나는 패턴
불규칙 설명될 수 없는 요인 또는 돌발적인 요인에 의하여 일어나는 변화로, 예측 불가능한 임의의 변동

 

★ 다음 중 ARIMA에 대한 설명으로 가장 알맞지 않은 것은?

1. 백색잡음은 독립적이지 않다 ▶ 백색잡음은 독립적이고 동일한 분산을 가짐

2. ARMA의 일반화 형태이다

3. 일간, 주간, 월간으로 예측 가능

4. ARIMA는 비정상 시계열 모형

 

★ 아래는 자기 회귀 누적 이동평균모형 (ARIMA) 을 나타낸 것이다. 아래 모형은 ARIMA에서 ARMA로 정상화할 때 몇 번 차분을 하였는가?

ARIMA (1, 2, 3)

 ARIMA (p, d, q) : d는 2

※ d는 ARIMA에서 ARMA로 정상화할 때 몇 번 차분을 했는지 의미

※ p는 AR 모형과 관련

※ q는 MA 모형과 관련이 있는 차수

 

[ARIMA 차수에 따른 모형] 

ARIMA (0, 0, 0) 백색잡음 모형
ARIMA (0, 1, 0) 확률 보행 모형
ARIMA (p, 0, 0) 자기 회귀 모형
ARIMA (0, 0, q) 이동평균 모형

★ 다음 중 서포트 벡터 머신에 대한 설명 중 가장 올바르지 않은 것은?

1. 기계학습의 한 분야로 지도 학습 모델

2. 다차원 공간상에서 최적의 분리 초평면을 찾아서 분류 및 회귀 수행

3. 최적의 분리 초평면은 마진을 최소화 ▶ SVM은 최대 마진을 가지는 비확률적 선형 판별에 기초한 이진 분류기

4. 마진은 결정 경계에서 서포트 벡터까지의 거리

 

[서포트 벡터 머신 - SVM]

  • 다른 방법보다 과대 적합의 가능성이 낮은 모델, 노이즈의 영향도 적음
  • 선형으로 분리가 불가능한 분류 문제에는 저차원 공간을 고차원 공간으로 매핑하여 분류 가능
  • 훈련 시간이 상대적으로 느리지만 정확성 뛰어남
  • 서포트 벡터 만을 이용해서 결정경계를 생성하므로 데이터가 적을 때 효과적
  • 데이터 세트의 크기가 클 경우 모델링에 많은 시간 소요
  • 커널 트릭을 활용하여 비선형 모델 분류 가능
  • 구성요소: 초평면, 슬랙변수, 결정 경계, 마진, 서포트 벡터

※ 슬랙변수: 서포트 벡터 머신에서 선형적으로 완벽한 분리가 불가능할 때 분류를 위해 허용된 오차를 위한 변수

※ 초평면: 데이터 임베딩 공간에서 한 차원 낮은 부분 공간 (데이터가 n차원이라면, 초평면은 n-1 차원 가짐). 최적의 초평면이 되기 위한 조건은 초평면과 결정 영역 근처의 데이터와의 거리가 최대가 되어야 함

 마진: 결정 경계와 서포트 벡터 사이의 거리 (최적의 결정 경계를 구하기 위해서는 결정영역의 초평면을 둘러싸고 있는 마진을 최대화 시켜야 함)

 

★ 다음 중 SVM RBF(Radial Basis Function) 에 대한 설명으로 가장 옳지 않은 것은?

1. 비선형 데이터가 있는 경우에 일반적으로 활용

2. 2차원의 점을 3차원의 점으로 변환 ▶ 2차원의 점을 무한한 차원의 점으로 변환

3. 가장 많이 사용되는 커널

4. 데이터에 대한 사전 지식이 없는 경우 적절하게 분리할 때 사용

 

[서포트 벡터 머신에서 사용되는 커널]

선형 커널 기본 유형의 커널이며 1차원이고 다른 함수보다 빠름
다항 커널 선형 커널의 일반화된 공식이며, 효과성과 정확도 측면에서 효율이 적어 비선호
가우시안 커널 일반적으로 사용하는 커널이며, 데이터에 대한 사전 지식이 없는 경우 활용
가우시안 RBF 커널 가장 많이 사용하는 커널이며, 비선형 데이터가 있는 경우에 일반적으로 활용
시그모이드 커널 인공신경망에서 선호되는 커널, 인공신경마으이 다층 퍼셉트론 모델과 유사

★ 다음 중 SNA 중심성으로 가장 알맞지 않은 것은?

1. 연결정도 중심성

2. 근접 중심성

3. 매개 중심성

4. 조화 중심성

▶ SNA: 개인과 집단 간의 관계를 노드와 링크로 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법 (중심성: 연결정도 중심성, 근접 중심성, 매개 중심성, 위세 중심성)

 

[주요 속성]

응집력 행위자들 간 강한 사회화 관계의 존재
구조적 등위성 한 네트워크의 구조적 지위와 그 위치가 주는 역할이 동일한 사람들 간의 관계
명성 네트워크에서 누가 권력을 가지고 있는지 확인
범위 행위자의 네트워크 규모
중계 다른 네트워크와 연결해주는 정도

★ 다음 중 k-FOLD Cross Validation 에 대한 설명으로 옳지 않은 것은?

1. 데이터 집합을 k등분

2. 1개 부분 집합을 평가 데이터로 선정

3. (k-1) 개의 부분 집합을 학습 데이터로 선정

4. k값이 증가하면 수행시간과 계산량이 줄어듦 ▶ k값이 증가하면 수행시간과 계산량이 늘어남


★ 텍스트 마이닝에서 여러 문서로 이루어진 문서 군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지 추출하는 기법은?

1. 토픽 모델링

2. 워드 클라우드

3. 소셜 네트워크 분석

4. TF-IDF(Term Frequency-Inverse Document Frequency)

토픽 모델링 기계학습 및 자연어처리 분야에서 토픽이라는 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법
워드 클라우드 자연어처리를 통해 사람들의 관심사 또는 빈도수를 단순 카운트하여 시각화하는 방법
소셜 네트워크 분석 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법

 

★ 텍스트 마이닝에서 데이터 전처리에 대한 설명으로 올바르지 않은 것은?

1. 데이터 전처리는 문서 내 표현된 단어, 구, 절에 해당하는 내용을 가공할 수 있는 데이터로 변환하는 작업

2. Text 레벨 전처리는 크롤링 등으로 데이터 추출 후 HTML 태그나 XML 문법을 제거하는 작업

3. Token 레벨 전처리 중 어간 (Stemming) 추출은 텍스트의 단어, 어절을 분리하는 작업 ▶ 해당 작업은 파싱

4. Sentence 레벨 전처리는 마침표, 문장 부호를 사용하여 문장을 구분하는 작업

문장 토큰화/파싱 텍스트의 단어, 어절을 분리하는 작업
불용어 (Stopword) 제거 의미없는 단어 (The, of 등) 제거
어간(Stemming) 추출 단어들에서 공통 음절을 뽑아내는 작업

 

★ 다음 중 텍스트 마이닝의 텍스트 벡터화 방법이 아닌 것은?

1. Word2Vec

2. TF-IDF

3. Bag of Words

4. POS Tagging ▶ 품사를 기반으로 모든 문서의 토큰에 태그를 할당하는 방법

※ 벡터화: 텍스트 마이닝에서 텍스트의 분류 또는 군집화를 위하여 각 문서가 벡터로 표현되도록 변환하는 작업

BoW 단어들의 순서는 고려하지 않고, 한 문서에 단어가 몇번 출현 했는지를 표현하는 출현빈도에만 집중하여 텍스트 데이터를 벡터화하는 방법
Word2Vec 비슷한 의미를 갖는 단어는 문서에서 근처에 존재할 것이라는 가정으로 단어에 벡터값을 부여하여 유사한 단어를 거리 기반으로 매핑하는 방법
TF-IDF - 정보 검색과 텍스트 마이닝에서 이용하는 가중치
- 여러 문서로 이루어진 문서 군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 추출하는 기법

★ 오토인코더에 대한 설명으로 가장 알맞지 않은 것은?

1. 비지도학습 신경망

2. 인코더는 차원 축소의 역할

3. 입력층 노드 개수는 출력층 노드 개수보다 커야 한다 ▶ 입력층 노드 개수는 출력층 노드 개수와 동일

4. 인코드 입력 노드 개수는 디코드 출력 노드 개수와 동일

 

[오토인코더 특징]

1) 비지도 학습 신경망

2) 인코더는 차원 축소의 역할

3) 디코더는 생성 모델의 역할

4) 입력층의 노드 개수는 출력층의 노드 개수와 동일

5) 은닉층의 노드 개수는 입력층의 노드 개수보다 작음


★ 다음 중 요인 분석에 대한 설명으로 가장 알맞지 않은 것은?

1. 변수들 간의 상관관계를 고려한 분석 방법

2. 요인이란 특정 현상에 영향을 미치는 중요한 인자

3. 요인은 상관계수가 높은 변수를 제거하여 신규로 생성한 변수의 집합 ▶ 요인은 상관계수가 높은 변수를 묶어 신규로 생성한 변수의 집합

4. 요인은 관측이 불가능하지만 해석이 가능


★ 흡연 여부에 다른 폐암의 발생 여부를 조사결과 아래와 같이 나왔다고 가정할 때 상대위험도는?

  폐암 발생 폐암 없음
흡연 10 900
비흡연 8 902

 

[풀이]

상대위험도 (RR) = 관심집단의위험률 / 비교관심집단의위험률 = [a/(a+b) / c(c+d) ]

= {10/(10+900)} / {8/(8+902)} = 10/8

 

  사건 발생 사건 발생 안함 합계
관심 집단 a b a + b
비교 집단 c d c + d
합계 a + c b + d a + b + c + d

 

★ 흡연 여부에 따른 폐암의 발생 여부를 조사결과 아래와 같이 나왔다고 가정시, 흡연으로 폐암 발생의 승산비(Odds Rate)는?

  폐암 발생 폐암 없음
흡연 10 700
비흡연 8 900

 

[풀이]

승산비 = ad/bc = (10*900) / (8*700) = 90/56

 

★ 한국이 축구에서 독일을 이길 확률이 10%라고 할 때 승산(Odds)은?

[풀이]

성공 확률: p = p/(1-p) = 0.1/(1-0.1) = 0.1/0.9 = 1/9

 

★남/여 학생 200명을 대상으로 남/여 학생이 선호하는 커피에 연관성이 있는지 여부를 알아보고자 한다. 이때 남자이면서 B 커피를 좋아하는 학생의 기댓값은?

성별 A 커피 B 커피 C 커피
30 50 20 100
50 30 20 100
80 80 40 200

 

[풀이]

Eij = (Oi * Oj) / n 

Oi: 남자, Oj : B커피, n : 200

 (100*80)/200 = 40


★ 다음 중 한 집단의 평균이 모집단의 평균과 같은지 검정하는 방법은?

1. 단일표본 T-검정

2. 대응표본 T-검정 ▶ 동일한 집단의 처치 전후 차이를 알아보기 위해 사용하는 검정 방법

3. 다중표본 T-검정

4. 독립표본 T-검정 ▶ 독립된 두 집단의 평균 차이를 검정하는 방법


★ 다음 중 자카드 계수에 대한 설명으로 가장 옳지 않은 것은?

1. 명목형 변수 거리에 사용되는 방법

2. 0과 1사이의 값을 가지며 두 집합이 동일하면 0의 값, 공통의 원소가 하나도 없으면 1의 값

▶ 두 집합이 동일하면 1, 공통의 원소가 하나도 없으면 0

3. 두 집합 사이의 유사도를 측정하는 방법

4. 수식은 J(A, B) = |A∩B| / |A∪B| = |A∩B| / {(|A|+|B|) - |A∩B| }

728x90
반응형