TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 1과목 기출 문제

by 기록자_Recordian 2024. 3. 29.
728x90
반응형

★ 다음 중 진단 분석에 대한 설명으로 가장 적합한 것은?
1. 과거에 어떤 일이 일어났고 현재는 무슨 일이 일어나고 있는지?
2. 데이터를 기반으로 왜 발생했는지?
3. 무슨 일이 일어날 것인지?
4. 어떤 대응을 해야 하는지?
 
 
★ 다음 중 머신러닝, 빅데이터 분석으로 미래 혹은 알려지지 않은 결과를 분석하는 기법으로 가장 알맞은 것은?
1. Prescriptive Analytics
2. Predictive  Analytics
3. Descriptive Analytics
4. Diagnostic  Analytics


★ 1제타바이트에 1 byte 에 아스키코드를 넣을 수 있는 수의 크기는?
1. 2의 10승
2. 2의 30승
3. 2의 50승
4. 2의 70승


★ 다음 중 지식에 대한 예시로 가장 적절한 것은?
1. B 사이트의 USB 판매 가격이 A 사이트 보다 더 비싸다
2. A 사이트는 1,000원에 B 사이트는 1,200원에 USB를 팔고 있다
3. B 사이트보다 가격이 상대적으로 저렴한 A 사이트에서 USB를 사야겠다.
4. A 사이트가 B 사이트 보다 다른 물건도 싸게 팔 것이다.


★ 다음 중 사분면 분석 결과 중 기업에서 활용하는 분석 업무, 기법 등은 부족하지만 적용조직 등 준비도가 높아서 바로 도입할 수 있는 기업에 해당하는 유형은?
1. 정착형
2. 확산형
3. 준비형
4. 도입형
 
★ 조직 평가 위한 성숙도 단계는?


★ 다음 중 빅데이터 시대에서 발생할 수 있는 '책임 원칙의 훼손' 에 대해 가장 올바른 사례는?
1. 범죄 예측 프로그램에 의해 범행이 발생하기 전 체포
2. 빅브라더가 개인의 일상을 전체적으로 감시
3. 여행 사실을 SNS에 올린 사람의 집에 강도 침입
4. 검색엔진의 차별적인 누락으로 매출액 감소
 
★ 목적 외로 활용된 개인정보가 포함된 데이터가 사생활 침해를 넘어 사회와 경제적 위협으로 확대되고 있다. 이에 대한 통제 방안으로 가장 옳은 것은?
1. '알고리즘에 대한 접근권' 을 통해 통제
2. 알고리즈미스트라는 전문가를 통해 사생활 침해에 대해 통제
3. 기존의 원칙 보강 및 강화와 예측 자료에 의한 불이익 가능성을 최소화하는 장치 마련 필요
4. 개인정보를 사용하는 사용자의 '책임'을 통해 해결하는 방안 강구
 
★ 2018년 5월 25일부터 시행되는 EU의 개인정보보호 법령으로, 정보 주체의 권리와 기업의 책임성 강화, 개인정보의 EU 역외이전 요건 명확화 등을 주요 내용으로 하는 용어는?
▶ 
 
★ 다음 중 개인정보에 대한 설명으로 가장 올바르지 않은 것은?
1. 개인정보는 개인을 알아볼 수 있는 정보
2. 단체, 기업에 대한 정보는 개인정보가 아님
3. 데이터 3법 개정을 통해 주소, 전화번호, 이메일 주소 등의 개인정보를 가명처리하여 통계 작성에 활용 시에 개인의 동의 필요 
4. 개인정보의 처리 목적에 필요한 범위에서 최소한의 개인정보만을 적법하고 정당하게 수집할 수 있고 개인의 동의가 없어도 수집 목적의 범위에 이용 가능
 
★ 개인정보보호 관련 법령으로 가장 거리가 먼 것은?
1. 개인정보 보호법
2. 전자금융 거래법
3. 정보통신망법
4. 신용정보법
 
★ 개인정보의 수집-이용을 위해 정보 주체의 동의를 받을 때 고지사항이 아닌 것은?
1. 개인정보의 수집-이용 목적
2. 수집하려는 개인정보의 항목
3. 개인정보를 제공받는 자
4. 개인정보의 보유 및 이용 기간
 
★ 다음 중 개인정보를 수집할 수 없는 경우는?
1. 법률에 특별한 규정이 있거나 법령상 의무를 준수하기 위하여 불가피한 경우
2. 정보 주체와의 계약을 체결할 경우
3. 정보 주체 또는 그 법정대리인이 의사표시를 할 수 없는 상태에 있거나 주소불명 등으로 사전 동의를 받을 수 없는 경우
4. 제3자의 급박한 생명, 신체, 재산의 이익을 위하여 필요하다고 인정되는 경우
 
★ 쏠림 공격, 유사성 공격을 보완하기 위해 제안된 프라이버시 보호 모델은?

 
★ 가명 정보에 대한 설명으로 옳지 않은 것은?
1. 추가정보의 사용 없이는 특정 개인을 알아볼 수 없게 조치한 정보
2. 더 이상 개인을 알아볼 수 없게 복원 불가능한 정도로 조치한 정보
3. 통계작성을 위해 동의 없이 사용 가능 (상업적 목적 포함)
4. 공익적 기록보존 목적을 위해 동의 없이 사용 가능
 
★ 다음 중 동일한 확률적 정보를 가지는 변형된 값에 대하여 원래 데이터를 대처하는 기법은?
1. 가명
2. 일반화
3. 치환
4 섭동


★ 다음 중 빅데이터 분석 기획 단계에서 수행해야 하는 작업은?
1. 프로젝트 진행을 위해 비즈니스에 대한 충분한 이해와 도메인 이슈 도출
2. 정형/비정형/반정형 등의 모든 내/외부 데이터와 데이터 속성, 오너, 담당자 등을 포함하는 데이터 정의서 작성
3. 비즈니스 룰을 확인하여 분석용 데이터 셋을 준비
4. 테스트 데이터 세트를 이용하여 모델 검정 작섭 실시 후 보고서 작성


★ 다음 중 데이터 거버넌스의 구성 요소가 아닌 것은?
1. Principle
2. Organization
3. System
4. Process


★ 다음 중 데이터 분석 준비도 프레임워크에서 분석 업무 파악 항목으로 가장 부적절한 것은?
1. 업무별 적합한 분석 기법 사용
2. 예측 분석 업무
3. 발생한 사실 분석 업무
4. 최적화 분석 업무


★빅데이터 조직 구조 설계의 요소에 대한 설명으로 옳지 않은 것은?
1. 업무 활동은 수직 업무 활동과 수평 업무 활동으로 구분
2. 수직 업무 활동은 업무 프로세스 절차별로 업무 배분
3. 부서화는 조직의 미션과 목적을 효율적으로 달성하기 위한 조직 구조 유형
4. 조직의 목표 달성을 위하여 업무 활동 및 부서의 보고 체계 설계


★ 조직 구조의 설계 특성 중 가장 옳지 않은 것은?
1. 공식화
2. 직무 전문화
3. 협업화
4. 통제 범위


★ 다음 중 데이터 사이언티스트에서 인문학 열풍을 가져오게 한 외부환경 요소로 가장 올바르지 않은 것은?
1. 비즈니스 중심이 제품생산에서 서비스로 이동
2. 빅데이터 분석기법의 이해와 분석 방법론이 확대
3. 단순 세계화인 컨버전스에서 복잡한 세계화인 디버전스로 변화
4. 경제와 산업의 논리가 생산에서 시장 창조로 변화
 
★ 다음 중 가트너가 제시한 데이터 사이언티스트가 갖춰야할 역량으로 가장 올바르지 않은 것은?
1. 데이터 관리
2. 분석 모델링
3. 비즈니스 분석
4. 하드 스킬


★ 다음 중 빅데이터 플랫폼 계층 구조 중 자원 배치 모듈, 노드 관리 모듈, 데이터 관리 모듈, 자원 관리 모듈, 서비스 관리 모듈, 사용자 관리 모듈, 모니터링 모듈, 보안 모듈로 구성되어 있는 계층은?
1. 인프라 스트럭처 계층
2. 플랫폼 계층 
3. 소프트웨어 계층 
4. 자원관리 계층


★ 다음 중 하둡 프레임워크의 HDFS에 대한 설명으로 올바른 것은?
1. 복제의 횟수는 내부에서 결정
2. NTFS, FAT 파일 시스템과 연계
3. GFS와 동일한 함수 적용
4. 네임 노드는 삭제한 데이터 노드를 관리하는 기능 
 
★ 다음 중 하둡 에코시스템에 대한 설명으로 옳지 않은 것은?
1. Sqoop: 비정형 데이터를 수집하는 대용량 데이터 전송 솔루션
2. HDFS: 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
3. Map Reduce: 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크
4. HBase: 컬럼 기반 저장소로 HDFS와 인터페이스 제공
 
★ 다양한 데이터 소스를 위한 하둡 기반의 ETL 기술을 이용해서 데이터 웨어하우스에 적재하는 시스템은?
1. HBase 
2. Tajo 
3. Oozie 
4. Zookeeper 
 
★ 많은 양의 로그 데이터를 효율적으로 수집하고 스트리밍 데이터 흐름을 비동기 방식으로 처리하기 위해 사용 가능한 가장 적합한 기술은?
▶ 
 
★ 다음 중 데이터 수집 기술 중에서 아래에서 설명하는 것은?

커넥터를 사용하여 관계형 데이터베이스와 하둡 간 데이터 전송 기능을 제공하는 기술

 
1. 스쿱(Sqoop)
2. 스크래파이 (Scrapy)
3. 플럼(Flume)
4. 스크라이브 (Scribe)
 
★ 인 메모리 기반의 실시간 데이터 처리와 관련된 오픈 소스 프로젝트는?
1. 임팔라
2. 스파크
3. 하이브
4. 스크라이브 
 
★ 대규모 데이터를 저장할 수 있고, HBase, Cassandra 등의 제품이 있는 저장 기술은?
1. Sqoop
2. NoSQL
3. HDFS
4. Scribe
 
★ 다음 중 빅데이터 처리 과정 중 저장 단계에 사용하는 기술은?
1. Map-Reduce
2. 가시화
3. 직렬화
4. NoSQL
 
★ NoSQL의 특성 중 BASE가 있다. Base의 특성 중 Soft-State가 뜻하는 것은?
1. 노드의 상태는 내부에 포함된 정보에 의해 결정되는 것이 아니라 외부에서 전송된 정보를 통해 결정되는 속성
2. 언제든지 데이터는 접근할 수 있어야 하는 속성 
3. 일정 시간이 지나면 데이터의 일관성이 유지되는 속성
4. 시스템에 장애가 발생하여 이용할 수 없을 경우 대체 시스템을 작동시키는 속성   
 
★ 다음 중 NoSQL의 유형에 속하지 않는 것은?
1. Key-Value Store
2. Row Family Data Store
3. Document Store
4. Graph Store
 
★ 다음이 설명하는 빅데이터 플랫폼 구축 소프트웨어는?

- 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
- 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크폴로우 제어

 
1. R 
2. Oozie
3. Sqoop 
4. HBase 
 
★ 다음 중 하둡 에코시스템의 기능이 잘못 짝지어진 것은?
1. 비정형 데이터 수집: Chukwa, Flume, Scribe
2. 정형 데이터 수집: Sqoop
3. 분산 데이터 처리: HDFS 
4. 분산 데이터베이스: HBase
 
★ 다음은 척와(Chukwa)의 주요 기능이다. 틀린 것은?
1. 에이전트: 데이터를 수집하는 기능 수행
2. 컬렉터: 에이전트로부터 수집된 데이터를 주기적으로 HDFS에 저장
3. 아카이빙: 컬렉터가 저장한 로그 파일에 대해 시간 순서로 동일한 그룹으로 묶는 작업 수행
4. 디먹스: 분산 처리를 통한 빠른 실시간 데이터 처리 수행


★  빅데이터 분석 방법론의 분석 (기획) 절차는?
 


★ CRISP-DM 분석 방법론의 분석 절차는?
 
★ 다음 중 CRISP-DM 방법론의 모델링 단계에서 수행하는 태스크가 아닌 것은?
1. 모델 적용성 평가
2. 모델 테스트 계획 설계
3. 모델 평가
4. 모델링 기법 선택
 
★  CRISP-DM 분석 방법론에서 업무의 이해에 해당하는 태스크는 다음 중에 무엇인가?
1. 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
2. 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
3. 분석용 데이터 세트 선택, 데이터 정제, 데이터 통합, 학습/검증 데이터 분리
4. 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가


★ 분석 작업 WBS 설정 단계에 대한 설명으로 옳지 않은 것은?
1. 데이터 분석 과제 정의: 분석목표 정의서를 기준으로 프로젝트 전체 일정에 맞게 사전 준비 하는 단계
2. 데이터 준비 및 탐색: 데이터 처리 엔지니어와 데이터 분석가의 역할을 구분하여 세부 일정이 만들어지는 단계
3. 데이터 분석 모델링 및 검증: 데이터 분석가가 분석에 필요한 데이터들로부터 변수 후보를 탐색하고 최종적으로 도출하는 일정 수립
4. 산출물 정리: 데이터 분석단계별 산출물을 정리하고, 분석 모델링 과정에서 개발된 분석 스크립트 등을 정리하여 최종 산출물로 정리하는 단계


★ 하향식 접근 방식을 이용한 과제 발굴 절차는?


★ 프로토타이핑 접근법에 대한 설명으로 알맞은 것은?
1. 상향식 접근 방법으로 신속하게 해결책이나 모형을 제시함으로써 이를 바탕으로 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화 가능
2. 문제가 정형화되어 있고 문제해결을 위한 데이터가 완벽하게 조직에 존재하는 경우 효과적
3. 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식
4. 문제 정의가 불명확하거나 이전에 접해보지 못한 새로운 문제일 경우 적용 어려움 


★ 인간에 대한 관찰과 공감을 바탕으로 다양한 대안을 찾는 확산적 사과와 주어진 상황에 대한 최선을 방법을 찾는 수렴적 사고의 반복을 통해 과제를 발굴하는 상향식 접근법은?


★ 분석 마스터플랜 수립의 수립 기준이 아닌 것은?
1. 투입 비용 수준
2. 전략적 중요도
3. 실행 용이성
4. 비지니스 성과


★ 다음 중 빅데이터 분석 방법론의 분석 기획 단계에서 수행하는 주요 과업으로 가장 부적절한 것은?
1. 위험 식별
2. 프로젝트 범위 설정
3. 프로젝트 정의
4. 필요 데이터의 정의


★ 다음이 설명하는 분석 방법론은?

- 1996년 Frayyad 가 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론
- 분석 절차는 데이터 세트 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 데이터 마이닝 결과 평가의 5단계

 
▶ 
 
★ KDD 분석 방법론의 분석 절차는?
▶ 
 
★ SEMMA 분석 방법론의 분석 절차는?
▶ 


★ 데이터 분석 절차는?
▶ 


★ 다음 중 사용자 요구사항 수집 기법에 대한 설명으로 올바른 것은?
1. 브레인스토밍: 이해관계자와 직접 대화를 통해 정보를 구하는 공식적, 비공식적 정보 수집 방법
2. 인터뷰: 설문지 또는 여론조사 등을 이용해 많은 사람에게 간접적으로 정보 수집
3. 포커스 그룹 인터뷰: 일정한 자격 기준에 따라 6~12명 정도 선발 하여 한 장소에 모이게 한 후, 요구사항과 관련된 토론을 함으로써 자료 수집
4. 스캠퍼: 말을 꺼내기 쉬운 분위기로 만들어, 회의 참석자들이 내놓은 아이디어들을 비판 없이 수용할 수 있도록 하는 회의 기법


★ 다음 중 재현 데이터 (Synthetic Data)에 대한 설명으로 올바른 것은?
1. 재현하는 데이터에는 원 데이터의 속성을 포함해야 함
2. 재현 데이터는 기존 변수에 특정 조건 혹은 함수 등을 사용하여 새롭게 재정의한 파생 변수이다
3. 재현 데이터 중 완전 재현 데이터(Fully Synthetic Data)는 민감하지 않은 정보는 그대로 두고, 민감한 정보에 대해서만 재현 데이터로 대체한 데이터이다
4. 생성하는 방법은 단위 변환, 표현형식 변환, 요약 통계량 변환, 정보 추출, 변수 결합, 조건문 이용 등
 
★  다음 중 일부 변수들의 값을 재현 데이터로 생성하고 생성된 재현 데이터와 실제 변수를 모두 이용하여 또 다른 일부 변수들의 값을 다시 도출하는 방법으로 생성하는 재현 데이터는?
1. Fully Synthetic Data
2. Partially Synthetic Data
3. Complete Synthetic Data
4. Hybrid Synthetic Data


★ 데이터의 적절성, 정확성, 상호 운용성 등 명시된 요구와 내재된 요구를 만족하는 데이터 품질 기준은?
▶ 


★ 수집된 정형 데이터 품질 보증을 위한 방법으로 적합하지 않은 것은?
1. 데이터 프로파일링: 정의된 표준 도메인에 맞는지 검증
2. 메타데이터 분석: 실제 운영 중인 데이터베이스의 테이블명-컬럼명-자료명-도메인-제약조건 등이며 데이터베이스 설계에는 반영되지 않은 한글 메타데이터-도메인 정보-엔터티 관계-코드 정의 등도 검증
3. 데이터 표준: 데이터 표준 준수 진단, 논리/물리 모델 표준에 맞는지 검증
4. 비업무 규칙 적용: 업무 규칙에 정의되어 있지 않는 값 검증
 
★ 다음 중 빅데이터 품질 기준 중 정형 데이터에 대한 품질 기준이 아닌 것은?
1. 완전성
2, 이식성
3, 유일성
4, 유효성
 
★  다음 중 빅데이터 품질 기준 중 비정형 데이터에 대한 품질 기준이 아닌 것은?
1. 기능성
2. 신뢰성
3. 유일성
4. 이식성


★ 다음 중 데이터 수집 방법으로 올바르지 않은 것은?
1. 크롤링: 웹 문서 수집
2. RSS: 여러 이벤트 소스로부터 발생한 실시간 이벤트
3. FTP: 대용량 파일 수집
4.Open API: 실시간 데이터 수집


★ 다음 중 데이터 비식별화 기법에 대한 설명으로 틀린 것은?
1. 가명처리: 개인이 식별 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법
2. 총계처리: 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법
3. 범주화: 단일 식별 정보를 해당 그룹의 대푯값으로 변환하거나 구간 값으로 변환하여 고유 정보 추적 및 식별 방지 기법
4. 데이터값 삭제: 개인정보 식별이 가능한 특정 데이터값 대체 기법


★ 다음 중 데이터 변환 기술에 대한 설명으로 틀린 것은?
1. 정규화: 데이터를 특정 구간으로 바꾸는 방법
2. 일반화: 특정 구간에 분포하는 값으로 스케일을 변화시키는 방법
3. 집계: 다양한 차원의 방법으로 데이터를 요약하는 방법
4. 평활화: 주어진 여러 데이터 분포를 대표할 수 있는 새로운 속성이나 특징을 만드는 방법


★ 계획 수립, 정의, 측정, 분석, 개선 단계로 되어 있는 데이터 품질 진단 절차 중 품질을 측정하고 분석, 품질지수가 도출되는 단계는?
▶ 


★ 기업의 내부 데이터로써 소비자들을 자신의 고객으로 만들고, 이를 장기간 유지하고자 내부 정보를 분석하고 저장하는 데 사용하는 정보시스템은?


 
★ 다음 중 데이터 백업이나 통합 작업을 할 경우 최근 변경된 데이터들을 대상으로 다른 시스템으로 이동하는 처리기술은?
1. CEP
2. CDC
3. RSS
4. EAI


 
★ 다음 중 데이터 웨어하우스(DW)에 저장되어 있는 데이터베이스의 특징으로 틀린 것은?
1. 소멸적
2. 시간에 따라 변화
3. 주제 지향적
4. 통합적
 
★ 다음 중 사용자의 의사결정에 도움을 주기 위하여, 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스는?
1. 데이터 웨어하우스
2. 데이터 레이크
3. 메타데이터
4. 마이 데이터


★ 분석 대상별 분석 기획 유형에 해당하지 않는 것은?
1. 최적화
2. 문제 정의
3. 통찰
4. 발견


★ CAP 이론에 대한 설명으로 틀린 것은?
1. 분산 컴퓨터 환경은 Consitency, Availability, Partiton Tolerance 3가지 특징을 가지고 있으며, 이 중 두 가지만 만족할 수 있다는 이론
2. Consitency: 모든 사용자가 같은 시간에 같은 데이터가 보여야 한다는 특성
3. Availability: 모든 클라이언트가 읽기 및 쓰기 가능해야 한다는 특성
4. Partition Tolerance: 데이터가 각각의 저장소에 고립된 상태로 저장되어야 한다는 특성


★ 다음이 설명하는 용어는?

<키-값> 으로 이루어진 데이터 오브젝트를 전달하기 위해 텍스트를 사용하는 개방형 표준 포맷


★ 다음 중 정규표현식 기호에서 0개 이상의 문자열 매칭 기호는?
1. + 
2. ^ 
3. *
4. $ 


[정답 및 해설 보기]

[빅데이터 분석기사] 1과목 기출 문제 오답노트

★ 다음 중 진단 분석에 대한 설명으로 가장 적합한 것은? 1. 과거에 어떤 일이 일어났고 현재는 무슨 일이 일어나고 있는지? 2. 데이터를 기반으로 왜 발생했는지? 3. 무슨 일이 일어날 것인지? 4.

puppy-foot-it.tistory.com

 

728x90
반응형