1. 데이터베이스의 구성요소에 대한 설명이다. 각각 무엇에 대한 설명인가?
가. 데이터를 설명해주는 데이터로 데이터의 특성, 구조, 정의 및 관리 정보를 설명하는 데이터
나. 데이터를 빠르고 쉽게 찾을 수 있게 해주는 자료구조
1) 가: 테이블, 나: 인덱스
2) 가: 메타데이터, 나: 인덱스
3) 가: 메타데이터, 나: 속성
4) 가: 테이블, 나: 속성
2. 다음 중 상용DB가 아닌 것은 무엇인가?
1) DB2
2) Tableau
3) SQL Server
4) Oracle
3. 데이터 크기를 작은 것부터 큰 것 순서로 올바르게 나열한 것은?
1) PB < EB < ZB < YB
2) PB < YB < EB < ZB
3) YB < ZB < EB < PB
4) PB < ZB < EB < YB
4. 다음 데이터베이스의 특징에 대한 설명 중 옳지 않은 것은 무엇인가?
1) 통합된 데이터로 동일한 내용의 데이터가 중복되어 저장된다.
2) 저장된 데이터로 컴퓨터가 접근할 수 있는 저장매체에 저장된다.
3) 공용 데이터로 여러 사용자에게 서로 다른 목적으로 데이터가 공동 이용된다.
4) 변화되는 데이터로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 한다.
5. 다음 중 빅데이터 활용을 위한 3요소에 대한 내용으로 틀린 것은?
1) 데이터 : 모든것의 데이터화
2) 기술 : 진화하는 알고리즘, 인공지능
3) 인력 : 데이터 사이언티스트, 알고리즈미스트
4) 프로세스 : 이전과는 다른 데이터 관리를 위한 작업 절차
6. 다음 중 빅데이터로 인한 본질적인 변화로 옳지 않은 것은?
가. 이미 가치가 있을 것이라고 정해진 특정한 정보만 모아서 처리하던 것에서 가능한 많은 데이터를 모으고 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
나. 일부 데이터의 샘플링을 통한 표본조사를 수행하는 환경으로 변화되었다.
다. 질보다 양의 관점을 갖는다.
라. 인과관계에 의한 미래 예측이 데이터 기반의 상관관계 분석을 점점 더 압도하는 추세이다.
1) 가, 나
2) 나, 라
3) 가, 다
4) 다, 라
7. 빅데이터의 위기요인이 아닌 것은?
1) 익명화
2) 사생활 침해
3) 데이터 오용
4) 책임원칙의 훼손
8. 데이터 사이언티스트가 가져야 할 역량 중 종류가 다른 하나는?
1) 다분야간 협력
2) 통찰력 있는 분석
3) 설득력 있는 전달
4) 빅데이터에 대한 이론적 지식
9. 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화 시키기 위한 솔루션은 무엇인가? (주관식)
10. 데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 계층구조로 설명하는 것은 무엇인가? (객관식)
11. 데이터 분석 수준 진단 결과에서 분석 준비도와 분석 성숙도 둘 다 낮은 경우에 해당하는 것은?
1) 정착형
2) 확살형
3) 준비형
4) 도입형
12. 다음 중 비즈니스 모델 캔버스를 활용한 과제 발굴의 영역으로 틀린것은?
1) 혁신
2) 업무
3) 고객
4) 제품
13. 다음 분석과제의 우선순위 선정 관련 설명 중 틀린 것은?
1) 우선순위를 시급성에 둔다면 Ⅲ - Ⅳ - Ⅱ 순서로 진행한다.
2) 우선순위를 난이도에 둔다면 Ⅲ - Ⅰ - Ⅱ 순서로 진행한다.
3) 시급성과 난이도 둘 다 높은 것이 우선순위가 가장 높다.
4) 시급성의 판단기준은 전략적 중요도가 핵심이다.
14. 다음 분석 성숙도 관련 내용으로 옳지 않은 것은?
1) 유사 업종, 경쟁업체와의 비교 분석을 포함한다.
2) 성숙도 수준에 따라 도입, 활용, 확산, 최적화 단계로 구분해 살펴 볼 수 있다.
3) 시스템 개발 업무능력과 조직의 성숙도 파악을 위해 CMMI 모델을 활용하여 분석 성숙도를 평가한다.
4) 데이터 분석 수준 진단은 분석 준비도와 분석 성숙도를 함께 평가함으로써 수행될 수 있다.
15. 분석 마스터플랜 수립 시 적용 범위/방식의 고려요소가 아닌 것은?
1) 업무 내재화 적용 수준
2) 분석 데이터 적용 수준
3) 기술 적용 수준
4) 실행 용이성
16. 데이터 분석을 위한 분석 업무 조직 구조에 대한 설명으로 옳지 않은 것은?
1) 집중형 조직 구조는 일부 협업 부서와 분석 업무가 중복 또는 이원화될 가능성이 있다.
2) 기능 중심 조직 구조는 전사적 관점에서 핵심 분석이 어렵다.
3) 분산 조직 구조는 분석 결과 실무 적용에 대한 대응이 느리다.
4) 분석 조직의 인력들이 협업부서에 배치되어 업무를 수행하는 것은 분산 조직 구조이다.
17. 분석 활용 시나리오에 대한 설명으로 틀린 것은?
1) 데이터 확보가 가장 중요하다.
2) 데이터 분석을 특정 목적에 맞게 활용하는 방법 또는 계획을 의미한다.
3) 분석 목표와 분석 방법을 설명하고 예상 결과를 제시하는 문서이다.
4) 프로젝트 진행 중에도 변경될 수 있다.
8. 분석 기획 시 고려해야 할 것으로 적절하지 않은 것은?
1) 데이터 확보가 될 수 있는지, 데이터 유형에 대한 분석이 필요하다.
2) 비용보다 분석력에 최우선 해야 한다.
3) 기존에 잘 구현되어 활용되고 있는 유사 시나리오 및 솔루션을 최대한 활용한다.
4) 장애요소에 대한 사전 계획 수립이 고려 되어야 한다.
19. 아래 설명의 답을 작성하시오. (주관식)
[설명]
데이터 분석 준비도 프레임워크 에서 운영 시스템 데이터 통합, EAI,
ETL 등 데이터 유통체계, 분석 전용 서버 및 스토리지, 빅데이터 분석 환경,
비주얼 분석 환경 등과 관련된 항목은 무엇인가?
20. 아래 설명을 읽고 빈칸 ( ? ) 을 작성하시오.(주관식)
[설명]
기존의 논리적인 단계별 접근법에 기반한 문제해결 방식은 최근 복잡하고다양한 환경에서 발생하는 문제에 적합하지 않을 수 있다. 이를 해결하기 위해 ( ? )접근법을 통해 전통적인 분석적 사고를 극복하려고 한다.이 접근법은 상향식 방식의 발산단계와 도출된 옵션을 분석하고 검증하는하향식 접근 방식의 수렴단계를 반복하여 과제를 발굴한다.
21. 수면유도제 데이터를 통한 t-test 결과이다. 다음 중 결과 해석이 적절하지 않은 것은?
> t.test(extra~group, data=sleep, var.equal=TRUE) Two Sample t-test data: extra by group t = -1.8608, df = 18, p-value = 0.07919 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -3.363874 0.203874 sample estimates: mean in group 1 mean in group 2 0.75 2.33 |
1) 수면유도제 2가 수면유도제 1보다 효과적이다.
2) 유의수준 0.05이하에서 두 집단의 평균이 동일하다는 귀무가설을 채택할 수 있다.
3) 두 개의 표본집단이 크기가 클 경우(N>30) 집단의 정규성 검정없이 이 표본 t검정을 사용할 수 있다.
4) 독립표본 t 검정 분석 전에 등분산 검정을 실시한다.
22. 다음 중 분류 모형 평가에 사용되는 도구가 아닌 것은?
1) ROC 그래프
2) 덴드로그램
3) 향상도 곡선
4) 이익도표
23. 증거가 확실할 때 가설검정으로 증명하고자 하는 것은?
1) 귀무가설
2) 영가설
3) 대립가설
4) 기각가설
24. 다음 중 성격이 다른 한가지는 무엇인가?
1) K-means
2) Single Linkage Method
3) DBSCAN
4) 주성분 분석
25. 다음 중 스피어만 상관계수 관련 설명으로 틀린 것은?
1) 스피어만 상관계수는 비선형적인 관계를 나타낼 수 없다.
2) 대상자료는 서열척도를 사용한다.
3) 원시 데이터가 아니라 각 변수에 대해 순위는 매긴 값을 기반으로 한다.
4) 연속형 외에 이산형 데이터도 사용 가능한다.
26. 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화 하는 알고리즘을 무엇이라고 하는가?
1) SOM
2) DBSCAN
3) PCA
4) EM-알고리즘
27. 아래의 설명에 해당하는것을 고르시오.
[설명]
공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 변수를 찾는 방법으로,
상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수를 만들고
분산을 극대화하는 변수로 축약하는 방법으로 새로운 변수들은 변수들의 선형결합으로 이루어져 있다.
1) 요인 분석
2) 회귀 분석
3) 주성분 분석
4) 다차원 척도
28. 다음 중 확률 및 확률분포에 관한 설명으로 틀린 것은?
1) (사건 A가 일어나는 경우의 수) / (일어날 수 있는 모든 경우의 수)를 P(A)라 할 때 이를 A의 수학적 확률이라 한다.
2) 한 사건 A가 일어날 확률을 P(A)라 할 때 N번의 반복시행에서 사건 A가 일어난 횟수를 R이라 하면, 상대도수 R/N은 N이 커짐에 따라 확률 P(A)에 가까워짐을 알 수 있다. P(A)를 사건 A의 통계적 확률이라 한다.
3) 두 사건 A,B가 독립일 때 사건 B의 확률은 A가 일어났다는 가정 하에서의 B의 조건부 확률과는 다르다.
4) 표본공간에서 임의의 사건 A가 일어날 확률 P(A)는 항상 0과 1사이에 있다.
29. 다음은 TV광고수에 따른 Sales에 대한 산점도 이다. 이에 대한 설명으로 알맞지 않은 것은?
1) TV 광고가 증가할 수록 Sales도 증가하는 경향이 있다.
2) TV 광고와 Sales는 양의 상관관계를 가진다.
3) TV 광고와 증가할수록 Sales의 분산은 동일하다.
4) Sales를 설명하기 위해 TV광고를 독립변수로 하는 단순선형회귀모델은 적절하다.
30. Hitters dataset의 일부이다. 다음 설명 중 적절하지 않은 것은?
1) Salary 변수 분포는 왼쪽꼬리가 긴 분포를 가진다.
2) NewLeague 변수는 범주형 자료이다.
3) Hits 변수에는 결측값이 없음을 알 수 있다.
4) HmRun 변수의 최대값은 40이다.
31. 모집단의 크기가 비교적 작을 때 주로 사용되며 한번 추출된 표본의 재추출될 수 있는 표본 추출 방법은 무엇인가?
1) 복원추출법
2) 층화추출법
3) 군집추출법
4) 계층추출법
32. 다음은 닭 사료의 종류(feed)와 닭의 성장에 대한 boxplot결과 이다. 옳지 않은 것은?
1) 이상치가 존재하지 않는 것을 알 수 있다.
2) casein의 경우 horsebean 보다 중위수가 크다.
3) soybean의 경우 meatmeal 보다 최소값은 크고, 최대값이 작다.
4) horsebean 사료를 먹은 닭의 무게가 가장 작은 쪽에 분포해 있다.
33. 자료의 척도에 대한 설명으로 부적절한 것은?
1) 명목척도 : 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 사용된다.
2) 서열척도 : 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없다.
3) 등간척도 : 사칙연산이 가능하다.
4) 비율척도 : 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도이다.
34. 다음 연관 분석에 대한 설명 중 잘못된 것은?
1) 비목적성 분석 기법으로 계산이 간편하다.
2) 대표적인 알고리즘으로 Aprior가 있다.
3) 조건 반응으로 표현되는 연관분석의 결과를 이해하기 쉽다.
4) 품목 수가 증가해도 분석에 필요한 계산이 늘어나지 않는다.
35. 데이터 분할에 대한 설명 중 틀린 것은?
1) 데이터마이닝 적용 후 결과의 신빙성 검증을 위해 데이터를 학습, 검증, 테스트 데이터로 나누어 사용한다.
2) 검증용 데이터는 모델 성능 평가에 사용한다.
3) 테스트용 데이터와 학습 데이터는 섞여서는 안된다.
4) 검증용 데이터는 학습 단계에서 사용된다.
36. 다음 표준오차에 대한 설명 중 틀린 것은?
1) 표본평균이 모평균과 얼마나 떨어져 있는가를 나타낸다.
2) 표준오차는 σ/√𝒏 로 구한다.
3) 표준오차 95%는 신뢰구간에 모수의 참값이 포함되어 있음을 나타낸다.
4) 더 작은 표준 오차는 추정치가 모집단 파라미터를 더 정확하게 반영한다는 것을 나타낸다.
37. 아래의 불순도 측정 결과를 사용해서 구한 지니 지수는 얼마인가?
◆ ● ● ● ● |
1) 0.5
2) 0.32
3) 0.48
4) 0.38
38. 어떤 슈퍼마켓 고객 6명의 장바구니별 구입품목이 다음과 같을때, 연관 규칙(콜라 -> 맥주)의 지지도는?
1) 0.6
2) 0.4
3) 0.5
4) 0.3
39. 다음의 품목/거래량 표를 사용하여 연관 규칙(딸기->사과)의 향상도는 무엇인가?
품목 거래량 ---------------------------- 딸기, 사과, 포도 100 딸기, 포도 400 사과, 포도, 바나나 150 사과, 딸기, 바나나 200 포도, 바나나 150 |
1) 0.3
2) 0.3/(0.7*0.45)
3) 0.3/0.7
4) 0.3/(0.7 + 0.45)
40. 다음 설명에 해당되는 앙상블 기법은?
[설명]
여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후
결합하여 최종 예측 모형을 만드는 방법
1) Bagging
2) Voting
3) Boosting
4) Stacking
41. 군집분석 관련 설명으로 틀린 것은?
1) 계층적 군집분석은 사전에 군집 수 k를 설정할 필요가 없는 탐색적 모형이다.
2) 집단간 이질화, 집단내 동질화 모두 낮은 것을 군집으로 선택한다.
3) K-means 군집은 잡음이나 이상값에 영향을 받기 쉽다.
4) 군집분석은 비지도학습이다.
42. 신경망 노드 중 무작위로 노드를 선정하여 다수의 모형을 구성하고 학습한 뒤 각 모형의 결과를 결합해 분류 및 예측하는 기법을 무엇이라고 하는가?
1) Mini-Batch
2) Bagging
3) Drop-out
4) AdaBoost
43. 다음 회귀분석의 결과 해석으로 틀린 것은?
> library(MASS) > data(ChickWeight) > Chick = ChickWeight[ChickWeight$Diet==1 & ChickWeight$Chick==1,] > model = lm(weight ~ Time, Chick) > summary(model) Call: lm(formula = weight ~ Time, data = Chick) Residuals: Min 1Q Median 3Q Max -14.3202 -11.3081 -0.3444 11.1162 17.5346 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 24.4654 6.7279 3.636 0.00456 ** Time 7.9879 0.5236 15.255 2.97e-08 *** --- Signif. codes: 0 '***' 0.001 '***' 0.01 '*' 0.05 ',' 0.1 ' ' 1 Residual standard error: 12.29 on 10 degrees of freedom Multiple R-squared: 0.9588, Adjusted R-squared: 0.9547 F-statistic: 232.7 on 1 and 10 DF, p-value: 2.974e-08 |
1) 결정계수는 0.9588이다.
2) 5% 유의수준에서 모형은 통계적으로 유의미 하다.
3) Time이 1단위 증가하면 Weight가 평균적으로 8.8 증가한다.
4) 추정된 회귀식은 weight = 24.4654 + 7.9879 * Time 이다.
44. 아래 설명에 해당하는 정답을 고르시오.
[설명]
독립변수간 상관관계가 높아 많은 문제점을 발생하는 현상으로 회귀계수의 분산을 증가시켜
불안정하고 해석하기 어렵게 만들게 되는 것을 다중공선성이라고 한다.
이것의 해결 방법으로 사용할 수 있는 것은 무엇인가?
1) 주성분 분석
2) 교차 분석
3) 오차 분석
4) 연관 분석
45. 아래 설명의 답을 작성하시오. (주관식)
[설명]
시계열분석에서 시계열의 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것으로
미래는 확률적으로 과거와 동일하다는 것을 의미하는 용어는?
46. 다음 오분류표를 사용하여 F1 Score를 구하시오. (주관식, 분수로 표기할 것)
오분류표 | 예측값 | ||
TRUE | FALSE | ||
실제값 | TRUE | 15 | 60 |
FALSE | 60 | 30 |
47. 다음 빈칸에 알맞은 단어를 작성하시오.
완전 연결법이라고도 하며, 두 군집 사이의 거리를 군집에서 하나씩
관측 값을 뽑았을 때 나타날 수 있는 거리의 ( )을 측정한다.
48. 다음 주성분 분석 결과에서 주성분 1개를 사용했을 때 분산을 구하시오. (주관식, 소수점 둘째 자리에서 반올림)
49. 아래 설명의 답을 작성하시오. (주관식)
[설명]
생물학적 진화 과정을 모방하여 최적화 및 검색 문제를 해결하는데 사용되는 계산 알고리즘으로
다양한 해를 탐색하고 선택, 교차, 변이와 같은 유전 연산을 통해 최적의 해를 찾아내는데 효과적인 알고리즘은?
50. 아래 설명의 답을 작성하시오. (주관식)
[설명]
모집단을 먼저 서로 겹치지 않는 여러 개의 층으로 분할한 후,
각 층에서 단순 임의 추출법에 따라 배정된 표본을 추출하는 방법은?
'자격증 > ADsP' 카테고리의 다른 글
[ADsP] 추가 내용 - 40회 기출 문제 기준 (0) | 2024.05.10 |
---|---|
[ADsP] 제38회 기출문제 [풀이] (0) | 2024.05.04 |
[ADsP] 예상 기출 문제 (1) | 2024.05.02 |
[ADsP] 시험의 주요 내용 (0) | 2024.05.02 |
[ADsP] 예상 문제 기출 오답 노트 (1) | 2024.04.16 |