[빅데이터 분석기사] 4과목 기출문제

728x90

★ K-Fold에 대한 설명으로 옳지 않은 것은?
1. 데이터를 K개로 나눈다.
2. 1개는 훈련 데이터, (K-1)개는 검증 데이터로 사용
3. K번 반복 수행
4. 결과를 K에 다수결 또는 평균으로 분석

★ 다음 중 비복원 추출을 이용한 교차 검증 방법은?
1. Bootstrap
2. Holdout Cross Validation
3. K-Fold Cross Validation
4. Leave-One-Out Cross Validation

★ 다음 중 주어진 자료에서 단순 랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러 개 생성하는 샘플링 방법은?
1. 모수 유의성 검정
2. 부트스트랩
3. 랜덤 샘플링
4. 홀드 아웃 교차 검증

★ 10개의 샘플 데이터를 LpOCV (Leave-p-Out Cross Validation)틀 통하여 교차 검증을 실시할 때, p=2일 경우에는 반복되는 교차 검증은 몇 번인가?
1. 20
2. 80
3. 45
4. 90

★ 다음은 혼동행렬 (Confusion Matrix) 이다. 민감도 (Sensitive)와 정밀도 (Precision) 는?

		실제 (Actual)
		참	거짓
예측 (Predict)	참	4	2
예측 (Predict)	거짓	1	3

▶

★ 혼동행렬의 평가지표에서 실제로 '부정'인 범주 중에서 '부정'으로 올바르게 에측한 비율은?
1. 민감도 (Sensitive)
2. 특이도 (Specificity)
3. 지지도 (Support)
4. 유사도 (Similarity)

★ 다음은 암진단을 예측한 것과 실제 암 진단 결과를 혼동 행렬로 나타낸 것이다. 아래 표를 보고 TPR, FPR의 확률을 계산하시오.

		Actual
		0	1
Predict	0	45	15
Predict	1	5	235

▶

★ y=0 혹은 y=1 값을 가지는 이진 분류 분석에서 민감도, 특이도가 둘 다 1일 때 정확도는?
1. 0
2. 1/2
3. 1
4. 알 수 없음

★ 혼동 행렬에서 FN이 의미하는 것은?
1. 실제 True, 예측 True
2. 실제 False, 예측 True
3. 실제 True, 예측 False
4. 실제 False, 예측 False

★ 재현율(Recall)이 60%, 정밀도 (Precision)가 40%일 때, F1-Score는?
48%
▶

★ 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표 형태로 정리한 평가지표는?
▶

★ 아래에서 설명하고 있는 혼동 행렬을 통한 분류 모형의 평가지표는?

- 참 긍정률 (TP Rate) 라고도 불리는 지표
- 실제로 '긍정'인 범주 중에서 '긍정'으로 올바르게 예측 (TP)한 비율
- Recall, Hit Ratio, TP Rate 로도 지칭

1. 정확도 (Accuracy)
2. 정밀도 (Precision)
3. 특이도 (Specificity)
4. 민감도 (Sensitive)

★ 다음 중 ROC 커브에 대한 설명으로 적합하지 않은 것은?
1. x축은 특이도를 의미한다.
2. y축은 민감도를 의미한다.
3. AUC (Area Under ROC) 1.0에 가까울수록 분석 모형 성능 우수
4. AUC (Area Under ROC) 0.5일 경우, 랜덤 선택에 가까운 성능

★ 다음 중 ROC 곡선에 대한 설명으로 올바르지 않은 것은?
1. ROC 곡선은 가로축(x)을 혼동 행렬의 거짓 긍정률로 두고 세로축(y)을 참 긍정률로 두어 시각화한 그래프
2. 거짓 긍정률(FPR) 은 특이도와 같음
3. AUC 는 ROC 곡선 아래의 면적으로, 면적을 모형의 평가지표로 삼는다
4. 참 긍정률(TPR) 은 민감도와 같음

★ ROC 곡선에 대한 설명으로 틀린 것은?
1. 민감도0, 특이도 1인 점을 지닌다
2. 민감도 1, 특이도 0인 점을 지닌다
3. 가장 이상적인 것은 민감도 1, 특이도 1일 때이다
4. ROC 곡선의 가로축의 값이 증가할수록 특이도 증가

★ 독립변수와 종속변수의 유형에 따른 분석방법으로 틀린 것은?
1. T-검정은 종속변수가 수치형이고 2개 범주의 독립변수를 사용하여 분석하는 방법이다
2. 로짓 모형은 종속변수가 범주형이고 독립변수가 수치형 또는 범주형일 경우 사용하는 분석 방법이다
3. X^2 검정(카이제곱 검정)은 독립변수와 종속변수가 모두 범주형일 경우 사용하는 분석 방법이다
4. 공분산 분석(ANCOVA)는 종속변수가 범주형, 독립변수가 연속형인 방법이다.

★ 다음 중 회귀 모형의 평가에 많이 사용되는 모형의 평가지표이며 오차 제곱합으로 계산되는 평가지표는?
1. AE
2. SSE
3. MAE
4. 결정계수

★ 다음 중 회귀모형의 기본 평가지표에 대한 설명 중 가장 올바르지 않은 것은?
1. SSE: 오차 제곱합. 예측값과 실제값의 차이 제곱의 합
2. SST: 전체 제곱합, 예측값과 평균값의 차이 제곱의 합
3. AE: 평균 오차. 에측한 결과값의 오류 평균
4. MAE: 평균 절대 오차. 실제값과 예측값 차이의 절대값에 대한 평균

★ 다음 중 회귀 모형의 결정계수에 대한 설명으로 가장 올바르지 않은 것은?
1. 선형 회귀 분석의 성능 검증지표로 많이 이용 됨
2. 회귀 모형이 실제값을 얼마나 잘 나타내는지에 대한 비율
3. 결정계수가 1에 가까울수록 실제값을 잘 설명
4. 값의 범위는 -1 ≤ R^2 ≥ 1

★ 다음 중 수정된 결정계수에 대한 설명 중 가장 옳지 않은 것은?
1. 적절하지 않은 독립변수를 추가하는 것에 페널티를 부과한 결정계수
2. 모형에 유용한 변수들을 추가할수록 수정된 결정계수의 값은 감소
3. 수정된 결정계수는 항상 결정계수보다 작음
4. 독립변수의 개수가 다른 모형을 평가할 때 사용

★ 다음 중 Q-Q Plot에 대한 설명 중 가장 옳지 않은 것은?
1. Q-Q Plot은 그래프를 통하여 정규성 가정을 검정하는 방법
2. 대각선 참조선을 따라서 값들이 분포하게 되면 정규성 가정을 만족한다고 판단
3. 결과 해석이 객관적
4. 대각선 참조선을 따라서 값들이 한쪽으로 치우치는 모습이라면 정규성 가정에 위배되었다고 판단

★ 다음 중 데이터의 정규성을 확인하기 위한 방법으로 가장 올바르지 않은 것은?
1. 히스토그램
2. 샤피로-윌크 검정
3. 더빈-왓슨 테스트
4. Q-Q Plot

★ 다음 중 정규성 기법 중 Q-Q Plot에 대한 설명으로 올바르지 않은 것은?
1. 그래프를 이용하여 정규성 가정을 시각적으로 검정하는 방법
2. Q-Q Plot에서 대각선 참조선을 따라서 값들이 분포하게 되면 정규성 가정을 만족한다고 판단
3. 데이터가 어떤 특정한 분포를 따르는가를 비교할 때도 사용
4. 정규성 가정에 위배되었다는 판단 기준이 모호해서 Q-Q Plot은 보조용으로 사용하는 것을 권장

★ 다음 중 두 모집단 분산 간의 비율에 대한 검정으로 가장 옳은 것은?
1. F-검정
2. 일원 분산 분석
3. ANOVA
4. 이원 분산 분석

★ 다음 중 귀무가설에서 검정 통계량의 분포를 정규분포로 근사할 수 있는 통계 검정은?
1. Z-검정
2. T-분포
3. 분산 분석
4. 카이제곱 검정

★ 다음 중에서 표본 집단의 분포가 주어진 특정 이론을 따르고 있는지를 검정하는 기법은?
1. 적합도 검정
2. F-검정
3. 모수 유의성 검정
4. T-검정

★ 다음 중 T-분포에 대한 설명으로 올바르지 않은 것은?
1. 적은 표본으로도 모집단 평균을 추정하려고 정규분포 대신에 사용되는 확률 분포
2. 자유도가 감소할수록 표준 정규분포에 가까워짐
3. 모집단이 정규분포라는 정도만 알고, 모분산을 모를 때 표본분산으로 대체하여 모평균을 구할 때 사용
4. 표준 정규분포와 유사하게 0을 중심으로 좌우대칭이나, 표준 정규분포보다 평평

★ 분석 변수 선택 기법 중 가중치의 제곱합을 추가하는 것은?
1. 릿지 (Ridge)
2. 라쏘 (Lasso)
3. 엘라스틱 넷 (Elastic Net)
4. RFE (Recursive Feature Elimination)

★ 다음은 확률적 경사 하강법 (SGD)에 대한 설명이다. ( ) 안에 들어갈 올바른 용어는?

- 확률적 경사 하강법 (Stochastic Gradient Descent; SGD) 이란 손실 함수의 기울기를 구하여, 그 기울기를 따라 조금씩 아래로 내려가 최종적으로는 손실 함수가 가장 작은 지점에 도달하도록 하는 알고리즘이다
- 손실 함수 그래프에서 ( A ) 에 갇혀 ( B ) 을 찾지 못하는 경우가 많고, 손실 함수가 비등방성 함수일 때에서는 최적화에 있어 매우 비효율적이고 오래 걸리는 탐색 경로를 보여준다.

1. A: 전역 극소점, B: 지역 최대점
2. A: 지역 최대점, B: 전역 극소점
3. A: 전역 극소점, B: 지역 극소점
4. A: 지역 극소점, B: 전역 극소점

★ 다음 중 인공신경망에서 Dropout과 같은 효과를 나타내는 것은?
1. 학습률 조정
2. 활성화 함수 변경
3. 은닉층 수 감소
4. 부스팅

★ 다음 중 인공신경망의 복잡도를 결정하는 것은?
1. 은닉층의 수
2. 비용 함수
3. 손실 함수
4. 노이즈

★ 다음 중 비교 시각화의 유형으로, 설명 변수가 늘어날 때마다 축이 늘어나는 시각화 방법은?
1. 플로팅 바 차트
2. 막대 차트
3. 스타 차트
4. 히트맵

★ 다음에서 설명하는 시각화 기법은?

- 여러 축을 평행으로 배치하는 비교 시각화 기술
- 수직선엔 변수를 배치
- 측정 대상은 변수값에 따라 위아래로 이어지는 연결 선으로 표현

1. 산점도
2. 박스플룻
3. 스타 차트
4. 평행 좌표계

★ 다음 중 히스토그램에 대한 설명으로 틀린 것은?
1. 질적, 양적 자료 표현에 사용
2. 종속변수를 확률 단위로도 표현 가능
3. 데이터 표현을 잘하려면 구간을 잘 정해야 함
4. 누적해서 표현하면 누적확률밀도함수를 항상 가짐

★ 다음 중 비교 시각화 유형에 대한 설명으로 가장 옳지 않은 것은?
1. 히트맵: 칸 별로 색상을 구분하여 데이터 값을 표현하는 시각화 그래프로 여러 가지 변수 비교 가능
2. 플로팅 바 차트: 막대가 가장 낮은 수치부터 가장 높은 수치까지 걸쳐있게 표현한 차트. 범주 내 값의 다양성, 중복 및 이상값 파악 가능
3. 체르포트 페이스; 데이터를 눈, 코, 귀, 입 등과 일대일 대응하여 얼굴 하나로 표현하는 시각화 방법
4. 스타 차트: 각 변수를 표시 지점을 연결선을 통해 그려 별 모양의 도형으로 나타낸 차트. 중심점은 축이 나타내는 값의 최대값, 가장 먼 끝점은 최소값 의미

★ 다음 중 인포그래픽의 유형으로 가장 거리가 먼 것은?
1. 지도형 (연예인 선호도, 매장분포)
2. 도표형 (대부분의 수치 데이터)
3. 스토리텔링형 (유명인사, 기업정보 뉴스)
4. 문자형 (텍스트 중심의 정보)

[정답 및 해석]

[빅데이터 분석기사] 4과목 기출문제 오답노트

★ K-Fold에 대한 설명으로 옳지 않은 것은? 1. 데이터를 K개로 나눈다. 2. 1개는 훈련 데이터, (K-1)개는 검증 데이터로 사용 ▶ 1개는 평가 데이터, (K-1) 개는 훈련 데이터 3. K번 반복 수행 4. 결과를 K

puppy-foot-it.tistory.com

728x90

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

[빅분기 필기] 출제 빈도 높은 기출 오답 노트 (0)	2024.04.04
[빅분기 필기] 자주 헷갈리는 개념 (1)	2024.04.02
[빅데이터 분석기사] 3과목 기출문제 (1)	2024.03.29
[빅데이터 분석기사] 2과목 기출문제 (1)	2024.03.29
[빅데이터 분석기사] 1과목 기출 문제 (1)	2024.03.29

Recordian, 기록의 힘을 믿는다.

[빅데이터 분석기사] 4과목 기출문제

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

티스토리툴바

[빅데이터 분석기사] 4과목 기출문제

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

관련글

티스토리툴바