TOP
class="layout-aside-left paging-number">
본문 바로가기
728x90

빅분기 독학22

[빅분기 필기] (분노와 슬픔의) 시험 후기 시험결과 24년 4월 19일 사전 점수 발표일 <p style="text-align: left;" data-ke-siz.. 2024. 4. 6.
[빅분기 필기] 출제 빈도 높은 기출 오답 노트 1. KDD 분석 방법론 분석절차데이터셋 선택(Selection) → 데이터 전처리(Preprocessing) → 데이터 변환(Transformation) →  데이터마이닝(Data Mining) →  데이터마이닝 결과 평가(Interpretation/ Evaluation) 2. 빅데이터 활용에 필요한 3요소자원, 기술, 인력 3. SEMMA 분석 방법론추출(Sample) → 탐색 (Explore) → 수정 (Modify) → 모델링 (Modeling) → 평가 (Assessment) 4. 분석 방법론의 구성요건상세한 절차, 방법, 도구와 기법, 템플릿과 산출물, 지식 5. 빅데이터 저장시스템 선정을 위한 분석 요소기능성 비교분석, 분석방식 및 환경, 분석대상 데이터 유형, 기존 시스템과의 연계성 6. .. 2024. 4. 4.
[빅데이터 분석기사] 4과목 기출문제 ★ K-Fold에 대한 설명으로 옳지 않은 것은? 1. 데이터를 K개로 나눈다. 2. 1개는 훈련 데이터, (K-1)개는 검증 데이터로 사용 3. K번 반복 수행 4. 결과를 K에 다수결 또는 평균으로 분석 ★ 다음 중 비복원 추출을 이용한 교차 검증 방법은? 1. Bootstrap 2. Holdout Cross Validation 3. K-Fold Cross Validation 4. Leave-One-Out Cross Validation ★ 다음 중 주어진 자료에서 단순 랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러 개 생성하는 샘플링 방법은? 1. 모수 유의성 검정 2. 부트스트랩 3. 랜덤 샘플링 4. 홀드 아웃 교차 검증 ★ 10개의 샘플 데이터를 LpOCV (Leave-p-Out Cr.. 2024. 3. 29.
[빅데이터 분석기사] 3과목 기출문제 ★ 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법을 의미하는 분석 기법은? 1. 상관 분석 (CA) 2. 회귀 분석 (RA) 3. 분산 분석 (AV) 4. 주성분 분석 (PCA) ★ 다음 중 초매개변수 (Hyper Parameter)로 설정 가능한 것은? 1. 편향 (Variance) 2. 기울기 (Bias) 3. 서포트 벡터(Support Vector) 4. 은닉층 (Hidden Layer) 수 ★ 다음 중 초매개변수 사례로 가장 부적절한 것은? 1. 신경망 학습에서 학습률 2. 서포트 벡터 머신에서의 코스트값인 C 3. KNN에서 K의 개수 4. 선형 회귀나 로지스틱 분석.. 2024. 3. 29.
[빅데이터 분석기사] 2과목 기출문제 ★ EDA의 4가지 주제에 대한 설명으로 가장 알맞지 않은 것은? 1. 저항성: 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질 2. 잔차: 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도 3. 자료의 재표현: 데이터 분석과 해석을 단순화할 수 있도록 원원래 변수를 적당한 척도로 바꾸는 것 4. 현시성: 로그 변환, 제곱근 변환, 역수 변환 등을 통해 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정 ★ 다음 중 정제 과정에서 수행하는 내용은? 1. 데이터의 결측값을 처리하고 데이터 탐색 2. 수집된 데이터 통합 3. 데이터를 분석 목적에 맞게 데이터 검증 4. ETL 프로그램 개발 ★ 이상값을 찾는 방법으로 옳지 않은 것은? 1. 단변량이면 박스플롯(Box.. 2024. 3. 29.
[빅데이터 분석기사] 1과목 기출 문제 ★ 다음 중 진단 분석에 대한 설명으로 가장 적합한 것은? 1. 과거에 어떤 일이 일어났고 현재는 무슨 일이 일어나고 있는지? 2. 데이터를 기반으로 왜 발생했는지? 3. 무슨 일이 일어날 것인지? 4. 어떤 대응을 해야 하는지? ★ 다음 중 머신러닝, 빅데이터 분석으로 미래 혹은 알려지지 않은 결과를 분석하는 기법으로 가장 알맞은 것은? 1. Prescriptive Analytics 2. Predictive Analytics 3. Descriptive Analytics 4. Diagnostic Analytics★ 1제타바이트에 1 byte 에 아스키코드를 넣을 수 있는 수의 크기는? 1. 2의 10승 2. 2의 30승 3. 2의 50승 4. 2의 70승★ 다음 중 지식에 대한 예시로 가장 적절한 것은?.. 2024. 3. 29.
[빅데이터 분석기사] 3과목 기출문제 오답노트 ★ 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법을 의미하는 분석 기법은? 1. 상관 분석 (CA) ▶ 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법 2. 회귀 분석 (RA) ▶ 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법 3. 분산 분석 (AV) 4. 주성분 분석 (PCA) ▶ 많은 변수의 분산방식 (분산-공분산)의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계 기법 ★ 다음 중 초매개변수 (Hyper Parameter)로 설정 가능한 것은? 1. 편향 (Variance) 2. .. 2024. 3. 24.
[빅데이터 분석기사] 2과목 기출문제 오답노트 ★ EDA의 4가지 주제에 대한 설명으로 가장 알맞지 않은 것은? 1. 저항성: 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질 2. 잔차: 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도 3. 자료의 재표현: 데이터 분석과 해석을 단순화할 수 있도록 원원래 변수를 적당한 척도로 바꾸는 것 4. 현시성: 로그 변환, 제곱근 변환, 역수 변환 등을 통해 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정 ▶ 로그 변환, 제곱근 변환, 역수 변환 등은 자료의 재표현에 관한 내용 특징(주제) 내용 저항성 (Resistance) - 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질 (탐색적 데이터 분석은 저항성이 큰 통계적 데이터 이용) 잔차(Res.. 2024. 3. 23.
[빅데이터 분석기사] 4과목 기출문제 오답노트 ★ K-Fold에 대한 설명으로 옳지 않은 것은? 1. 데이터를 K개로 나눈다. 2. 1개는 훈련 데이터, (K-1)개는 검증 데이터로 사용 ▶ 1개는 평가 데이터, (K-1) 개는 훈련 데이터 3. K번 반복 수행 4. 결과를 K에 다수결 또는 평균으로 분석 ▶ K-Fold Cross Validation: 데이터 집합을 무작위로 동일 크기를 갖는 부분 집합으로 나누고, 그중 1개 집합을 평가 데이터로 (Test SET), 나머지 (K-1) 개 집합을 훈련 데이터 (Training Set)로 선정하여 분석 모형을 평가하는 기법. 모든 데이터를 훈련과 평가에 사용할 수 있으며, K번 반복 수행하며, K값이 증가하면 수행 시간과 계산량도 많아짐. ★ 다음 중 비복원 추출을 이용한 교차 검증 방법은? 1. B.. 2024. 3. 19.
[빅데이터 분석기사] 1과목 기출 문제 오답노트 ★ 다음 중 진단 분석에 대한 설명으로 가장 적합한 것은?1. 과거에 어떤 일이 일어났고 현재는 무슨 일이 일어나고 있는지?2. 데이터를 기반으로 왜 발생했는지?3. 무슨 일이 일어날 것인지?4. 어떤 대응을 해야 하는지?▶ 진단 분석은 데이터를 기반으로 왜 발생했는지 이유를 확인하는 분석(가트너의 분석 가치 에스컬레이터)묘사 분석 - 진단 분석 - 예측 분석 - 처방 분석 ★ 다음 중 머신러닝, 빅데이터 분석으로 미래 혹은 알려지지 않은 결과를 분석하는 기법으로 가장 알맞은 것은?1. Prescriptive Analytics2. Predictive  Analytics3. Descriptive Analytics4. Diagnostic  Analytics▶묘사분석 ( Descriptive Analytics.. 2024. 3. 16.
[빅데이터 분석기사] 4과목 빅데이터 결과 해석(2) [목차] [빅데이터 분석기사] 시험 과목 및 주요 내용 (필기) 빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이 puppy-foot-it.tistory.com 빅데이터 결과 해석 - 분석 결과 해석 및 활용 1. 분석 모형 해석 (1) 데이터 시각화 데이터에 대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정 선, 막대, 원, 등의 기하나 도형과 같은 양식을 이용해 데이터의 특징을 설명할 수 있는 모양으로 만들어 냄 색상, 레이블 등 특성을 활용하여 데이터 표현 가능 목적: 시각화 결과물을 이용하는 사용자가 주.. 2024. 3. 16.
[빅데이터 분석기사] 3과목 빅데이터 모델링(3-2-1) [목차] [빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이puppy-foot-it.tistory.com빅데이터 모델링 - 분석 기법 적용1. 회귀 분석(1) 회귀 분석독립변수와 종속변수 간에 선형적인 관계를 도출해서 하나 이상의 독립변수들이 종속변수에 미치는 영향을 분석하고, 독립변수를 통해 종속변수를 에측하는 분석 기법독립변수와 종속변수 간에 인과관계가 있다는 말은 독립변수가 원인이 되어 종속변수에 영향을 미친다는 의미이며, 그런 의미에서 독립변수를 원인변수(혹은 설명 변수), 종속변수를 결과변수 (.. 2024. 3. 14.
[빅분기 기출문제] 오답노트 ★ 비식별화된 개인정보의 재식별 가능성 검토 기법으로 적절하지 않은 것은? 1. s-보안성 2. k-익명성 3. l-다양성 4. t-근접성 ▶ 비식별화된 개인정보의 재식별 가능성 검토 기법: k-익명성, l-다양성, t-근접성 정답은 1 ★ 데이터 변환 방식의 종류로 적절하지 않은 것은? 1.비정형 데이터를 정형 데이터 형태로 저장하는 방식 2. TCP 방식에서 Open API로 수집하여 저장하는 방식 3. 수집 데이터를 분산파일시스템으로 저장하는 방식 4. 주제별, 시계열적으로 저장하는 방식 ▶ TCP 방식에 Open API로 수집하여 저장하는 방식은 데이터 변환 방식의 종류가 아니라 데이터를 수집하는 방식을 변경하는 것 정답은 2 ★ 데이터 적재 완료 테스트를 위한 정형 데이터 체크리스트 항목으로 적.. 2024. 3. 14.
[빅데이터 분석기사] 2과목 빅데이터 탐색(2-1-1) [목차] [빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이puppy-foot-it.tistory.com빅데이터 탐색 - 데이터 탐색1. 데이터 탐색 기초(1) 데이터 탐색 개념수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석 방식도구: 도표, 그래프, 요약 통계 등(2) 분석 필요성다양한 각도에서 살펴보는 과정을 통해 문제.. 2024. 3. 12.
[빅데이터 분석기사] 2과목 빅데이터 탐색(1-2) [목차] [빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이puppy-foot-it.tistory.com빅데이터 탐색 - 데이터 탐색1. 변수 선택(1) 변수 개념데이터 모델에서 사용하는 예측을 수행하는 데 사용되는 입력변수RDBMS에서 '속성(열)' 이라고 부르는 것을 머신러닝에서는 통계학의 영향으로 변수라고 지칭(2) 유형 - 독립변수 / 종속변수 ㄱ. 독립변수종속변수(결과변수)의 값에 영향을 미쳐 종속변수가 특정한 값을 갖게 되는 원인이 된다고 가정한 변수연구자가 의도적으로 변화시키는 변수기계 학습.. 2024. 3. 12.
728x90