★ 미래 사회 특성으로 보기 어려운 것은?
(1) 다양한 기술들의 융합과 관련하여 창조력이 요구된다
(2) 다양한 위험 사항(리스크)에 대해 대응력이 요구된다.
(3) 확실성에 대한 통찰력이 요구된다.
(4) 스마트한 경쟁력이 요구된다
▶ 미래 사회는 불확실성에 대한 통찰력이 요구되는 시대가 될 것이다.
★ 아래 내용은 데이터, 정보, 지식의 차이점을 예시로 설명한 것이다. 각각의 용어와 예시가 적절하게 연결된 것은?
(가) A 마트는 500원, B마트는 400원에 볼펜을 판매한다.
(나) A 마트는 볼펜 가격이 싸다.
(다) 상대적으로 저렴한 A 마트에서 볼펜을 사야겠다.
(라) A 마트의 다른 상품도 B 마트보다 저렴할 것이다.
(1) 데이터-(가), 정보-(라), 지식-(다)
(2) 데이터-(가), 정보-(다), 지식-(라)
(3) 데이터-(가), 정보-(나), 지식-(라)
(4) 데이터-(가), 정보-(나), 지식-(다)
▶ A 마트의 다른 상품도 B 마트보다 저렴할 것이다’는 지혜에 해당된다.
★ 내재된 경험을 문서나 매체로 저장하는 것은?
(1) 표출화
(2) 공통화
(3) 내면화
(4) 연결화
표출화 : 암묵적 지식 노하우를 책이나 교본 등 형식지로 만드는 것
•공통화 : 암묵적 지식 노하우를 다른 사람에게 알려주는 것
•연결화 : 책이나 교본(형식지)에 자신이 알고 있는 새로운 지식(형식지)을 추가하는 것
•내면화 : 만들어진 책이나 교본(형식지)을 보고 다른 직원들이 암묵적 지식(노하우)을 습득
★ 다음 보기는 암묵지와 형식지의 상호작용에 관한 설명이다. 알맞게 연결된 것은?
1단계 : 암묵적 지식 노하우를 다른 사람에게 알려주는 것 - ( )
2단계 : 암묵적 지식 노하우를 책이나 교본 등 형식지로 만드는 것 - ( )
3단계 : 책이나 교본(형식지)에 자신이 알고 있는 새로운 지식(형식지)를 추가하는 것 - ( )
4단계 : 만들어진 책이나 교본(형식지)를 보고 다른 직원들이 암묵적 지식(노하우)을 습득 - ( )
(1) 공통화 → 표출화 → 연결화 → 내면화
(2) 표출화 → 공통화 → 연결화 → 내면화
(3) 연결화 → 내면화 → 공통화 → 표출화
(4) 내면화 → 공통화 → 연결화 → 표출화
★ 다양한 데이터 유형 중 정형 데이터 - 반정형 데이터 - 비정형 데이터 순서로 가장 알맞은 것은?
(1) RFID - IoT 센서데이터 - 동영상 데이터
(2) 인스타그램 게시물 - HTML - 이메일 전송 데이터
(3) CRM 데이터 - 카카오톡 대화 데이터 -Twitter 상태 메시지
(4) SCM 데이터 - 기상청 날씨 데이터 - QR 코드
▶ 정형 데이터 : 데이터베이스 구조와 형식에 맞게 저장되도록 구성하여 고정된 필드에 저장되는 데이터. ERP, SCM, CRM 등
•비정형 데이터 : 정의된 구조가 없는 동영상, 텍스트, 오디오, 사진 등과 같이 정형화 되지 않은 데이터. 온도, RFID, QR코드, 이메일 등
•반정형 데이터 : 데이터 형식과 구조가 변경될 수 있는 데이터. XML, JSON, HTML, 웹 로그, 모바일 데이터 등이 대표적인 반정형 데이터
★ 인간에 대한 관찰과 공감을 바탕으로 다양한 대안을 찾는 확산적 사고와 주어진 상황에 대한 제일 나은 방법을 찾는 수렴적 사고의 반복을 통해 혁신적 결과를 도출하는 창의적 문제 해결하는 상향식 접근 방법은 무엇인가?
(1) 프로토타이핑
(2) 브레인스토밍
(3) 디자인 싱킹
(4) 리터러시
▶ 디자인 싱킹은 인간과 사물을 관찰하고 공감, 이해하고 다양한 방법을 찾는 창의적 문제 해결 방법이다. 또한, 사람과 사물에 대한 공감적 관찰 (empathic observation)을 통해 문제를 재해석(reframing issues)하고, 시각적 아이디어 도출을 통해 직접적인 고객(사용자)를 포함한 이해 관계자를 이끌어내, 빠른 시일 내에 가시적인 프로토타입을 공동 제작하는 액션 전략 (action strategy)이다.
★ 빅데이터 분석은 분석 주제 유형의 구분 기준에 따라 4가지로 나눌 수 있다. 이때 분석 주제 유형의 구분 기준은 다음 중 무엇인가?
(1) What, How
(2) Where, What
(3) How, Why
(4) What, Why
▶ 분석의 대상(What)과 방법(How)에 따라 4가지로 분류된다.
★ 분석 기회 발굴의 범위 확장에 있어, 니즈 탐색 관점 영역에 해당되지 않는 것은?
(1) 채널
(2) 고객
(3) 사회
(4) 영향자들
▶ 사회는 거시적 관점 분석 모델 영역에 해당된다.
1. 거시적 관점의 요인 : 사회, 기술, 경제, 환경, 정치
2. 경쟁자 확대 관점: 대체재, 경쟁자, 신규진입자
3. 시장의 니즈 탐색: 고객, 채널, 영향자들
4. 역량의 재해석 관점: 내부역량, 파트너와 네트워크
자세한 내용은
★ 비즈니스 모델 관점에서 기업의 사업 모델을 도식화 해놓은 비즈니스 모델 캔버스의 구성 단위로만 묶여진 것은?
(1) 채널
(2) 고객
(3) 사회
(4) 영향자들
▶비즈니스 모델 캔버스는 기업의 사업 모델을 시각적으로 표현하는 도구로, 주요 구성 요소들을 여러 가지 블록으로 나누어 설명하며 이 중에서도 고객은 비즈니스 모델 캔버스의 중요한 구성 요소 중 하나이다.
비즈니스 모델 캔버스의 구성 요소로는 주로 다음과 같은 블록들이 있다:
- 가치 제안 (Value Proposition): 제품이나 서비스가 어떻게 고객의 문제를 해결하고 어떤 가치를 제공하는지를 설명
- 고객 세그먼트 (Customer Segments): 제품이나 서비스를 사용할 고객 그룹을 정의
- 채널 (Channels): 제품이나 서비스를 고객에게 전달하는 방법을 나타냄
- 고객 관계 (Customer Relationships): 고객과의 상호 작용과 관계 유지에 대한 전략을 기술
- 수익 모델 (Revenue Streams): 제품이나 서비스를 통해 어떻게 수익을 창출할 것인지를 설명
- 핵심 자원 (Key Resources): 사업을 수행하는 데 필요한 주요 자원을 나열
- 핵심 활동 (Key Activities): 핵심 자원을 활용하여 수행하는 주요 활동들을 정의
- 핵심 파트너 (Key Partnerships): 외부 파트너와의 협력을 설명하고 중요한 파트너 관계를 지정
- 비용 구조 (Cost Structure): 비즈니스 운영에 필요한 비용 구성 요소를 나타냄
이 중에서도 (2) 고객 세그먼트 (Customer Segments)는 비즈니스의 목표 대상 고객을 정의하고, 이들의 요구와 니즈를 파악하여 비즈니스 모델을 구성하는 핵심 요소이다. 비즈니스 모델은 고객을 중심으로 구성되어야 하며, 고객을 향한 가치 제안과 고객과의 관계 형성을 통해 비즈니스의 성공을 결정
따라서, 비즈니스 모델 캔버스에서는 고객 세그먼트가 기업의 사업 모델을 도식화할 때 가장 중요한 구성 요소 중 하나로 간주됨
★ 다음 중 목표 시점별로 당면한 과제를 빠르게 해결해 나가는 과제 중심적인 접근 방식의 특징이 아닌 것은?
(1) Accuracy & Deploy
(2) Problem Solving
(3) Speed & Test
(4) Quick - Win
▶Accuracy & Deploy는 마스터플랜 단위의 중장기 방안으로서, 장기적 마스터 플랜을 세워 지속적인 분석 문화를 내재화하는 접근 방법이다.
★ 먼저 분석을 시도해 보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법으로, 시행착오를 겪어가면서 문제 해결을 위해 사용하는 방법은 무엇인가?
(1) 디자인싱킹
(2) 비지도학습
(3) 프로토타이핑
(4) 리터러시
▶프로토타이핑 접근법은 사용자 요구사항을 정확히 파악하기 어렵고 데이터를 규정하기 어려운 상황에서 먼저 분석을 시도해보고 결과를 확인해가며 반복적으로 모델을 개선해 나가는 방법이다.
★ 분석 조직 구조 유형에 해당되지 않는 것은?
(1) 집중형 조직 구조
(2) 상속형 조직 구조
(3) 기능 중심 조직 구조
(4) 분산 조직 구조
▶ 분석 조직 구조 유형에는 집중형, 기능형, 분산형이 있다.
★ 다음 중 확률분포에 대한 설명 중 가장 적절하지 않은 것은?
(1) 구간추정은 일정한 구간을 두어 추정하는 것으로서 단측(one-sided) 구간추정과 양측(two-sided) 구간추정으로 나뉜다.
(2) 정규분포가 아닌 경우 구간추정을 사용할 수 없다.
(3) 추정치(estimate)는 표본의 자료로 구한 추정량의 구체적 수치 값을 뜻한다.
(4) 점 추정은 미지의 분포에 대하여 가장 근사한 단일값을 구하는 것이다.
▶ 자료가 관찰된 모집단의 분포가 정규분포가 아닌 경우에도 중심극한 정리(Central limit theorem)에 의하여 구간 추정이 가능하다.
★ 표본공간과 확률에 관한 설명 중 부적절한 것은?
(1) 모든 사건의 확률값은 0과 1사이에 있다.
(2) 배반 사건이란 교집합이 공집합인 사건들을 말한다.
(3) 이산형 확률분포에는 베르누이 분포, 이항 분포, 포아송 분포, 기하 분포 등이 있다.
(4) 독립하는 두 사건 A, B가 독립이면 P(B|A)≠P(B)가 성립한다.
▶ 두 사건 A, B가 독립이면, P(B|A)=P(B), P(A|B) = P(A), P(A∩B) = P(A)P(B)
★ R에서 서로 다른 데이터 타입을 담을 수 있는 구조는 무엇인가?
(1) 행렬(Matrix)
(2) 벡터(Vector)
(3) 리스트(List)
(4) 배열(Array)
▶ 벡터, 배열, 행렬은 모두 한 가지 데이터 타입을 가진 원소만 저장할 수 있다.
•데이터 프레임과 리스트는 다양한 타입을 가진 원소를 저장할 수 있다.
★ 다음중 코드의 결과로 적절한 것은 무엇인가?
s <- c(“Monday”, “Tuesday”, “Wednesday”) substr(s, 1, 2)
(1) “Monday”, “Tuesday””
(2) “Mo”, “Tu”, “We”
(3) “Mo”, “Tu”
(4) “ay”, “ay”, “ay”
▶ substr 함수는 문자열에서 일부를 추출하는 함수이다.
•substr(문자열, 시작위치, 끝위치) 이므로, substr(s, 1, 2)는 s에 저장된 각각의 문자열에 대해 1번째 위치부터 2번째 위치의 문자까지를 추출하라는 의미가 된다.
★ 다음 확률분포에 대한 설명 중 가장 적절하지 않은 것은?
(1) 확률변수란 표본공간의 각 원소에 하나의 실숫값을 대응시켜 주는 함수이다.
(2) 확률변수가 취할 수 있는 값이 유한하거나 또는 무한히 많더라도 하나씩 셀 수 있는 경우를 이산형 확률변수라고 한다.
(3) 이산확률변수의 확률분포를 나타내는 함수를 확률밀도함수라고 한다.
(4) 결과가 두 가지 중 하나로만 나오는 실험이나 시행을 베르누이 시행(Bernoulli trial)이라고 한다.
▶ 확률밀도함수는 연속형 확률변수의 확률분포를 의미한다.
★ 자료의 척도에 설명으로 부적절한 것은?
(1) 명목척도 : 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 숫자를 부여한다.
(2) 서열척도 : 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없다.
(3) 등간척도 : 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능하다.
(4) 비율척도 : 측정값 사이의 비율 계산이 가능한 척도이며, 절대 영점이 존재하지 않는다.
▶ <명목 척도>
•단순히 측정대상의 특성을 분류하거나 확인하기 위한 목적
•숫자로 바꾸어도 그 값이 크고 작음을 나타내지 않고 범주를 표시함
<서열(순위) 척도>
•대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없음
•항목들 간에 서열이나 순위가 존재
<등간 척도>
•순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능함
•절대 0점이 존재하지 않음
<비율 척도>
절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도
★ 다음 중 비율 척도에 대한 예시로 가장 적절한 것은?
(1) 무게, 나이
(2) 성별, 출생지
(3) 온도, 지수
(4) 선호도
▶비율 척도는 절대 영점이 존재하며, 사칙 연산이 가능하다.
★ 다음의 통계 검정 중 표본특성이 2개 이상일 때의 비모수 검정이 아닌 것은?
(1) 부호검정
(2) 크루스칼-왈리스 검정
(3) 맨-휘트니 검정
(4) 카이스퀘어 적합성 검정
▶ 표본특성이 2개 이상일 때의 비모수 검정은 부호 검정, 크루스칼-왈리스 검정, 맨-휘트니 검정, 카이스퀘어 독립성 검정이 있다.
★ 다음 중에서 자료들의 중간 50%에 흩어진 정도를 나타내는 통계량은 무엇인가?
(1) 중위수
(2) 사분위수
(3) 평균
(4) 분산
▶사분위수의 범위(InterQuartile Range, IQR) = 3사분위수 - 1사분위수, IQR은 자료들의 중간 50%(75%-25%)에 해당되는 자료들의 범위이다.
★ 다중 공선성에 대한 설명 중 올바르지 않은 것은?
(1) 다중 공선성 문제가 발생하면 문제가 있는 변수를 제거하고 분석할 수 있다.
(2) 다중 공선성 문제로 불확실성이 감소할 수 있다.
(3) 독립변수 간에 상관관계가 높아서 데이터를 분석할 때 부정적 영향을 미치는 경우 발생한다.
(4) VIF가 4보다 크면 다중 공선성이 존재하는 것으로 해석한다.
▶ 다중 공선성이 발생하면 불확실성은 증가하게 된다.
★ 동전 3개를 동시에 던져서 앞면이 한번 나올 확률은?
(1) 1/6, 16.7%
(2) 3/8, 37.5%
(3) 2/8, 25%
(4) 1/3, 33%
▶ 전체 경우의 수 8개에서 앞면이 한 번 나오는 경우는 ‘앞뒤뒤, 뒤앞뒤, 뒤뒤앞’
★ 저차원(2차원 내지 3차원) 격자에 고차원 데이터의 각 개체들이 대응하도록 인공신경망과 유사한 방식의 학습을 통해 군집을 도출해내는 기법을 무엇이라 하는가?
(1) 자기 조직화 지도(SOM)
(2) 다차원 척도법(MDS)
(3) 인공 신경망(ANN)
(4) 로지스틱 회귀 분석
▶ SOM은 사람이 눈으로 볼 수 있는 저차원 격자에 고차원 데이터의 각 개체들이 대응하도록 인공신경망과 유사한 방식의 학습을 통해 군집을 도출해내는 기법이며, 고차원의 데이터 공간에서 유사한 개체들은 저차원에 인접한 격자들과 연결된다. 저차원 격자에서의 유사도는 고차원 입력 공간에서의 유사도를 최대한 보존하도록 학습한다.
★ 다음 앙상블 모형 중 매번 분할을 수행할 때마다 설명변수의 일부분만을 고려하여 성능을 높이는 방법은 무엇인가?
(1) 배깅
(2) 부스팅
(3) 랜덤 포레스트
(4) 의사결정나무
▶ 랜덤 포레스트는 앙상블 기법 중 하나로 여러 개의 의사 결정 트리를 생성하고 각 트리가 독립적으로 예측한 결과를 종합하여 최종 예측을 수행한다. 트리 구성 시 일부 특성을 랜덤하게 선택하여 각 분할에서 최적의 특성을 선택한다
★ 시계열 분석을 위해서는 정상성을 만족해야 하는데, 자료가 추세를 보일 때에는 현 시점의 자료에서 이전 시점의 자료를 빼는 방법을 통해 비정상 시계열을 정상 시계열로 바꾸어 준다. 현 시점에서 이전 시점의 자료를 빼는 방법은 무엇인가?
(1) MSE
(2) 차분
(3) RMSE
(4) F-score
▶ 시점에서 이전 시점의 자료를 빼는 방법은 차분이다.
★ 다음 중 신경망 모델 학습 모드에 해당되지 않는 것은?
(1) 온라인 학습 모드
(2) 확률적 학습 모드
(3) 배치 학습 모드
(4) 재귀 학습 모드
▶ 신경망 모델 학습 모드에는 온라인, 확률적, 배치 학습 모드가 있다.
- 온라인 학습 모드 : 관측값을 순차적으로 입력하여 가중치 변수값을 매번 업데이트
- 확률적 학습 모드 : 관측값을 랜덤하게 입력하여 가중치 변수값을 매번 업데이트
- 배치 학습 모드 : 전체 데이터를 동시에 입력하여 학습
★ 다 중 앙상블 방법론의 종류가 아닌 것은 무엇인가?
(1) 배깅(Bagging)
(2) 의사결정나무(Decision Tree)
(3) 스태킹(Stacking)
(4) 부스팅(Boosting)
▶ 의사결정나무는 여러 의사결정의 규칙을 나무 구조로 나타내어 순차적으로 적용하면서 독립변수 공간을 분할하는 분류 모델이다.
★ 특정 건이 발생할 확률과 사건이 발생하지 않을 확률에 대한 비율을 무엇이라 하는가?
(1) 로짓
(2) 조건부확률
(3) 소프트맥스
(4) 오즈비
★ 다음 중 연관 분석에서 Apriori 함수를 활용하여 연관규칙을 생성한 후에 생성된 연관규칙을 확인하기 위해 사용하는 함수는?
(1) sort()
(2) arule()
(3) Inspect()
(4) transaction()
▶ 발견된 연관규칙을 확인하기 위해서는 inspect() 함수를 이용한다.
★ 오분류표 중 정확도와 재현율의 조화평균을 나타내며 정확도와 재현율에 같은 가중치를 부여하여 평균한 지표를 무엇이라 하는가?
(1) F1 score
(2) Precision
(3) Recall
(4) Specificity
▶ F1 score = 2 x precision x recall / (precision + recall)
★ 7활성화 함수 종류 중에서 다중 분류를 수행하기 위한 목적으로 사용되며, 출력값을 확률로 변환해주는 함수는 무엇인가?
(1) 쌍곡 탄젠트 함수
(2) 시그모이드 함수
(3) 소프트맥스 함수
(4) 리키 렐루 함수
▶ 소프트맥스 함수는 다중 분류를 수행하기 위한 목적으로 사용되며, 출력값을 확률로 변환해주는 함수이다.
★ 다음 중 연관 분석(Association analysis)에 대한 설명으로 적절하지 않은 것은?
(1) 품목 수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다.
(2) 너무 세부화된 품목을 가지고 연관규칙을 찾으려 하면 의미없는 분석 결과가 나올 수도 있다.
(3) 향상도가 1이면 두 품목 간에 연관성이 없는 서로 독립적인 관계이고, 1보다 작으면 서로 음의 관계로 품목 간에 연관성이 없다.
(4) 시차 연관분석은 인과관계 분석이 가능하다.
▶ 향상도( Lift )는 연관규칙에서 품목 간의 연관성을 측정하는 지표. 향상도가 1보다 크면 양의 연관성이 있으며, 향상도가 1보다 작으면 음의 연관성 또는 반비례 관계가 있다.
향상도가 1이라고 해서 두 품목이 독립적이거나 연관성이 없는 것은 아니다. 향상도가 1인 경우는 기본적인 연관성 수준을 나타내며, 이상의 값이면 높은 연관성을 나타내고, 1보다 작은 값이면 음의 연관성을 나타냅니다.
따라서, 향상도가 1이면 두 품목이 서로 독립적인 관계이거나 연관성이 없는 것은 아니며, 해당 설명은 정확하지 않다.
★ 다음은 특정 산업의 일차원적 분석 사례를 나열한 것이다. 어떤 산업의 분석 애플리케이션 사례인가?
트레이딩, 공급 및 수요예측
1. 운송업
2. 에너지
3. 금융서비스
4. 소매업
▶ 산업 분야 데이터 분석 애플리케이션의 사례에서 트레이딩, 공급 및 수요 예측은 에너지에 속한다.
★ 다음중 빅데이터의 특징을 설명할 수 있는 4V에 속하지 않는 것은 무엇인가?
1. 규모(Volume)
2. 다양성(Variety)
3. 정확성(Validity)
4. 속도(Velocity)
▶ 빅데이터 4V : 규모(Volume), 다양성(Variety), 속도(Velocity), 가치(Value)
★ 데이터 사이언스 구성요소에 해당되지 않는 것은?
1. IT
2. 분석
3. 비즈니스 컨설팅
4. RFID
▶ 데이터 사이언스 구성요소에는 IT, 분석, 비즈니스 컨설팅이 있다.
★ 데이터 구조에 대한 메타 정보를 포함한 데이터, Parsing을 통해 구조를 파악하고 정보 활용 가능한 유형의 데이터는 무엇인가?
1.비정형 데이터
2. 정형 데이터
3. 원시 데이터
4. 반정형 데이터
▶ 반정형 데이터는 고정된 스키마가 없기 때문에 테이블 형식 데이터 모델이나 관계형 데이터베이스의 형식을 따르지 않는다. HTML, XML, JSON,RSS, Web Log, 보안 및 특정 센서 데이터 등이 있다.
★ 다음중 빅데이터 활용 기술에 관한 설명이다. 적절하지 않은 것은?
1. 택배 차량을 어떻게 배치하는 것이 비용에 효율적인가? - 분류 분석
2. 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가? - 유전자 알고리즘
3. 우유 구매자가 기저귀를 더 많이 구매하는가? - 연관 분석
4. 사용자의 만족도가 충성도에 어떤 영향을 미치는가? - 회귀 분석
▶ 유전 알고리즘은 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 알고리즘으로서, 택배 차량을 어떻게 배치하는 것이 비용에 효율적인가는 유전 알고리즘에 속한다.
★ 데이터베이스 설계 단계 중에서 DBMS에 독립적인 E-R 다이어그램을 작성하는 단계는 무엇인가?
1. 요구조건 분석
2. 개념적 설계
3. 논리적 설계
4. 물리적 설계
▶ 개념적 설계는 E-R 모델, 정보를 추상적 개념으로 표현하는 과정으로서, DBMS에 독립적인 E-R 다이어그램을 작성하는 단계이다.
★ 빅데이터가 만든 본질적인 변화에 대한 설명 중 적절하지 않은 것은?
1. 사전 처리에서 사후 처리 시대로의 변화
2. 표본조사에서 전수조사로의 변화
3. 질보다 양을 강조하는 변화
4. 상관관계에서 인과관계로의 변화
▶ 빅데이터의 변화로는 사후처리, 전수조사, 질보다 양, 상관관계로의 변화가 있다.
★ 하향식 접근법의 프로세스 단계는 무엇인가?
1. 타당성 평가 → 문제 정의 → 문제 탐색 → 해결방안 탐색
2. 문제 정의 → 문제 탐색 → 해결방안 탐색 → 타당성 평가
3. 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 평가
4. 타당성 평가 → 문제 탐색 → 문제 정의 → 해결방안 탐색
▶ 하향식 접근법의 프로세스 단계 : 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 평가
★ 빅데이터 분석 절차를 순서대로 올바르게 나열한 것은?
1. 분석 기획(Plann ing) → 데이터 준비(Preparing) → 데이터 분석(Analyzing) → 시스템 구현(Developing) → 평가 및 전개(Deploying)
2. 데이터 분석(Ana lyz ing) → 분석 기획(Planning) → 데이터 준비(Preparing) → 시스템 구현(Developing) → 평가 및 전개(Deploying)
3. 데이터 준비(Prepar ing) → 분석 기획 (Planning) → 데이터 분석(Analyzing) → 시스템 구현(Developing) → 평가 및 전개(Deploying)
4. 평가 및 전개(Deploying) → 데이터 준비 (Preparing) → 분석 기획(Planning) → 데이터 분석(Analyzing) → 시스템 구현(Developing)
★ 다음 설명에 해당하는 데이터 분석 방법론의 적용 업무 특성에 따른 모델은 무엇인가?
- 반복을 통해 점증적으로 개발
- 반복에 대한 관리 체계가 효과적으로 갖춰지지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있음
- 반복을 통해 점층적으로 개발하는 방법으로 처음 시도하는 프로젝트 적용에 용이
- 관리체계를 효과적으로 갖추지 못한 경우, 복잡도가 상승해 프로젝트 진행이 어려울 수 있음
1. 나선형 모델
2. 프로토타입 모델
3. 폭포수 모델
4. CMMI 모델
▶ 나선형 모델은 폭포수 모형과 프로토타입 모형의 장점을 수용하고 위험분석을 추가한 점증적 개발 모델이며, 프로젝트 수행 시 발생하는 위험을 관리하고 최소화하려는 것이 목적이다
※ 프로토타입 모델: 사용자 중심의 개발 방법으로 고객의 요구를 완전히 이해하지 못할 경우 프로토타입 모델 적용.
일부분을 먼저 개발하고, 그 이후 사용자의 요구를 분석, 정당성 점검, 성능을 평가하는 등의 과정을 통한 개선 작업을 시행하면서 점진적으로 시스템을 개발해 나가는 방법
※ 폭포수 모델: 단계를 거쳐 순차적으로 진행하는 방법으로, 현재 단계가 완료되어야 다음 단계로 진행될 수 있는 하향식 방향으로 진행. 하지만, 문제나 개선사항이 발견될 경우 이전 단계로 돌아가 피드백 과정을 수행할 수도 있음.
※ CMMI 모델 (능력 성숙도 통합 모델): 소프트웨어 및 시스템 공학의 역량 성숙도를 파악하기 위한 모델로서 다음과 같이 5단계로 나눠서 역량 평가
1단계) 개인의 역량이 프로젝트의 성공과 실패를 나누는 주요 요인으로 프로젝트의 개발 프로세스가 거의 없다
2단계) 일정이나 비용과 같은 요소가 프로세스의 중심으로, 약간의 개발 프로세스하에서 통제되는 상태다
3단계) 2단계에서 존재하지 않는 조직을 관리하기 위한 프로세스가 존재하는 상태다
4단계) 체계적인 관리하에 프로젝트 및 산출물 등에 대한 정량적인 측정이 가능한 상태다
5단계) 조직적으로 최적화된 프로세스를 보유하고 지속적인 개선을 목표로 하는 상태다
★ 데이터 분석 과제 수행시 고려하는 5요소가 아닌 것은?
1. 데이터 크기
2. 데이터 복잡성
3. 속도
4. 데이터 분석 방법
▶ 분석 과제의 주요 5가지 특성 관리 역 : Data Size, Data Complexity, Speed, Analytic Complexity, Accuracy & Precision
★ R에서 새로운 패키지를 설치 및 사용하고자 할 때 명령어와 순서로 적절한 것은?
1. install.packages(“패키지명”)
→ library(패키지명)
2. setup.packages(“패키지명”)
→ library(패키지명)
3. library(패키지명)
→ install.packages(“패키지명”
4. library(패키지명)
→ setup.packages(“패키지명”)
▶ 패키지 설치 : install.packages(“패키지명”)
패키지 불러오기 : library(패키지명)
★ 프로그래밍에서 연산 혹은 분석에 필요한 자료(Data)를 일시적으로 저장하거나 처리 결과를 담을 수 있는 기억장소를 무엇이라 하는가?
1. 상수
2. 변수
3. 함수
4. 클래스
▶ 프로그래밍에서 연산 혹은 분석에 필요한 자료(Data)를 일시적으로 저장하거나 처리 결과를 담을 수 있는 기억장소를 변수라 한다.
★ 모집단을 먼저 서로 겹치지 않는 여러 개의 층으로 분할한 후, 각 층에서 단순임의추출법에 따라 배정된 표본을 추출하는 방법을 무엇이라 하는가?
1. 층화 추출법(stratified sampling)
2. 집단 추출(cluster sampling)
3. 계통 추출(systematic sampling)
4. 편의 표본 추출(convenience sampling)
▶ 층화 추출법은 모집단을 먼저 서로 겹치지 않는 여러 층으로 분할한 후, 각 층에서 단순 임의추출법에 따라 배정된 표본을 추출하는 방법이다.
만약 전국 가구를 모집단으로 하는 “생활실태조사”를 한다면, 전국 모든 구는 경제적 수준, 문화적·정치적 성향이 다르고, 단순임의 추출을 하게 되면 일부 구의 과소 또는 과다 현상이 불가피하게 발생하여 서울시 전체에 대한 추정치가 불안정한 결과를 가져올 수 있으므로 각 구를층으로 하는 임의추출을 한다.
★ R의 가장 기본이 되는 자료구조 중에서 동일한 자료형을 갖는 값들의 집합으로, 일반적으로 하나의 속성을 저장하는 단위를 무엇이라 하는가?
1. 함수
2. 배열
3. 벡터
4. 객체
▶ 벡터 데이터 구조는 하나의 스칼라 값, 혹은 하나 이상의 스칼라 원소를 갖는 자료구조이다.
★ sumary(Hitters)에 대한 설명 중 적절하지 않은 것은?
> summary(Hitters)
AtBat Hits HmRun NewLeague
Min. : 16.0 Min. : 1 Min. : 0.00 A : 176
1st Qu. : 255.2 1st Qu. : 64 1st Qu. : 4.00 N : 146
Median : 379.5 Median : 96 Median : 8.00
Mean : 380.9 Mean : 101 Mean : 10.77
3rd Qu.: 512.0 3rd Qu.: 137 3rd Qu.: 16.00
Max. : 687.0 Max. : 238 Max. : 40.00
1. AtBat 변수 분포는 왼쪽 꼬리가 긴 분포를 가진다
2 .AtBat 변수 분포는 왼쪽 꼬리가 긴 분포를 가진다
3. Hits 자료에는 결측값이 없음을 알 수 있다.
4. HmRun 변수의 최대값은 40이다.
▶ 평균이 중위수보다 크므로 왼쪽으로 치우친 분포이며, 오른쪽으로 긴 꼬리를 갖는다.
★ 주성분 그림에서 주성분 2개를 수용했을 때 잃는 정보량은 얼마인가?
Importance of components: PC1 PC2 PC3 PC4
Standard deviation 2.0494 0.4910 0.2787 0.1539
Proportion of Varioance 0.9246 0.0531 0.0171 0.0052
Comulative Proportion 0.9246 0.9777 0.9948 1.0000
1. 0.49%
2. 2.23%
3. 7.54%
4. 97.77%
▶ 주성분 축을 2차원까지 수용하므로, 주성분 첫 번째 축(PC1)에서 두 번째 축(PC2)까지의 합은 0.9246+0.0531=0.9777이 된다. 따라서 97.77%의 정보를 갖게 되며, 100%-97.77%=2.23%의 정보를 손실하게 된다.
Comulative Proportion 0.9246 0.9777 0.9948 1.0000
1 - 0.9777 = 2.23
★ 다음의 통계 검정 중 표본특성이 2개 이상일 때의 비모수 검정이 아닌 것은?
1. 부호검정
2. 크루스칼-왈리스 검정
3. 맨-휘트니 검정
4. 카이스퀘어 적합성 검정
▶ 표본특성이 2개 이상일 때의 비모수 검정은 부호 검정, 크루스칼-왈리스 검정, 맨-휘트니 검정, 카이스퀘어 독립성 검정이 있다.
★ 분류 분석 알고리즘에 해당되지 않는 것은?
1. 의사결정트리
2. 로지스틱 회귀분석
3. 신경망
4. 연관분석
▶ 분류를 위해 사용되는 데이터마이닝 기법으로서 로지스틱 회귀분석, 의사결정나무, 베이지안 분류, 인공신경망, K 최근접 이웃 알고리즘 등이 해당된다.
★ k-means 군집 분석에 대한 설명으로 가장 적절하지 않은 것은?
1. 초기 군집의 중심으로 k 개의 객체를 임의로 선택한다.
2. 각 자료를 가장 가까운 군집 중심에 할당한다.
3. 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신한다.
4. 군집의 중심 변화가 자료의 95% 이상 변화가 없으면 군집분석을 종료한다.
▶ 군집중심의 변화가 없을 때까지 반복한다.
'자격증 > ADsP' 카테고리의 다른 글
[ADsP] 제38회 기출문제 (1) | 2024.05.03 |
---|---|
[ADsP] 예상 기출 문제 (1) | 2024.05.02 |
[ADsP] 시험의 주요 내용 (0) | 2024.05.02 |
[ADsP] 시험 접수 (0) | 2024.04.09 |
[ADsP] 데이터분석 준전문가 시험이란 (0) | 2024.04.03 |