[빅데이터 분석기사] 2과목 기출문제

728x90

★ EDA의 4가지 주제에 대한 설명으로 가장 알맞지 않은 것은?

1. 저항성: 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질

2. 잔차: 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도

3. 자료의 재표현: 데이터 분석과 해석을 단순화할 수 있도록 원원래 변수를 적당한 척도로 바꾸는 것

4. 현시성: 로그 변환, 제곱근 변환, 역수 변환 등을 통해 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정

★ 다음 중 정제 과정에서 수행하는 내용은?

1. 데이터의 결측값을 처리하고 데이터 탐색

2. 수집된 데이터 통합

3. 데이터를 분석 목적에 맞게 데이터 검증

4. ETL 프로그램 개발

★ 이상값을 찾는 방법으로 옳지 않은 것은?

1. 단변량이면 박스플롯(Boxplot)을, 다변량이면 산점도(Scatter Plot)를 이용하여 파악

2. 평균으로부터 3시그마 떨어진 곳의 값 파악

3. 물리적으로 불가능한 값이나 도메인의 범위를 이용해서 파악

4. 노이즈값을 계산하여 찾음

★ 다음 중 이상값 검출 방법 중 평균이 μ이고, 표준편차가 σ인 정규분포를 따르는 관측치들이 자료의 중심(평균)에서 얼마나 떨어져 있는지를 나타냄으로써 이상값을 검출하는 방법은?

1. 카이제곱 검정을 활용한 방법

2. Z-점수를 활용한 방법

3. 사분위수를 활용한 방법

4. 통계적 가설검정을 활용한 방법

★ ESD(Extreme Studentized Deviation)에 대한 설명으로 옳은 것은?

1. 평균(μ) 으로부터 3 표준 편차(σ) 떨어진 값(각 0.15%)을 이상값으로 판단

2. 기하평균으로부터 2.5 표준편차 (σ) 떨어진 값을 이상값으로 판단

3. 제1 사분위, 제3 사분위를 기준으로 사분위간 범위(Q3 - Q1) 의 1.5배 이상 떨어진 값을 이상값으로 판단

4. 평균이 μ 이고, 표준편차가 σ 인 정규분포를 따르는 관측치들이자료의 중심(평균) 중심에서 얼마나 떨어져 있는지를 나타냄에 따라서 이상값 검출

★ 다음이 설명하는 데이터 이상값 검출 방법은?

데이터의 분포를 고려한 거리 측도로, 관측치가 평균으로부터 벗어난 정도를 측정하는 통계량 기법

▶

★ 결측값을 처리하는 단순 대치법의 종류에 해당하지 않는 것은?

1. 완전 분석법

2. 평균 대치법

3. 단순 확률 대치법

4. ESD

★ 스케일링에 대한 설명으로 틀린 것은?

1. 범주형에 대해 정규화 수행 가능

2. 최소-최대 정규화는 -1과 1사이의 값을 가짐

3. 평균이 0, 분산이 1인 Z-점수 정규화를 수행

4. 편향된 데이터에 대해 스케일링 가능

★ 다음 중 불균형 데이터 처리 중 과소 표집에 대한 설명으로 틀린 것은?

1. 과소 표집은 다수 클래스의 데이터를 일부만 선택하여 데이터의 비율을 맞추는 방법

2. 토멕 링크 방법은 다수 클래스에 속한 토멕 링크를 제거하는 방법

3. CNN (Condensed Nearest Neighnor) 은 소수 클래스에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직선을 만든 후, 그 위에 데이터를 추가하는 방법

4. ENN (Edited Nearest Neighbor) 은 소수 클래스 주위에 인접한 다수 클래스 데이터를 제거하여 데이터의 비율을 맞추는 방법

★ 각 클래스의 데이터에 불균형이 발생한 경우 학습 단계에서의 처리 방법으로 가장 옳지 않은 것은?

1. 과소 표집

2. 과대 표집

3. 임곗값 이동

4. 가중치 적용

★ 정확한 데이터 분석을 위해서는 불균형 데이터 처리가 필요하다. 다음 중 불균형 데이터 처리에 대해 올바르지 않은 것은?

1. 과소표집: 데이터양을 감소시켜서 불균형 데이터를 처리하는 방법, 과대표집: 데이터양을 증가시켜서 불균형 데이터를 처리하는 방법

2. 앙상블 기법: 같거나 서로 다른 여러 가지 모형들이 예측/분류 결과를 종합하여 최종적인 의사 결정에 활용

3. SMOTE : 소수 클래스에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직선을 만든 후, 그 위에 데이터를 추가

4. 임곗값 이동: 임곗값을 데이터가 많은 쪽으로 이동시키는 방법, 학습단계에서부터 임곗값 이동

★ 불균형 데이터 처리 방법으로 옳지 않은 것은?

1. 언더 샘플링

2. 경곗값 이동

3. 비용 민감 학습

4, 정규화

★ 다음 중 불균형 데이터 처리에 대한 설명으로 올바르지 않은 것은?

1. 탐색하는 데이터의 타깃 수가 매우 극소수인 경우 사용

2. 불균형 데이터 처리를 수행하면 소수 클래스에 대한 정밀도 향상

3. 불필요한 변수를 제거하고 새로운 변수를 생성시키는 작업

4. 과소 표집이나 소수 클래스 데이터를 증가시키는 과대 표집 사용

★ 차원 축소에 대한 설명으로 틀린것은?

1. 차원 축소의 방법에는 변수 선택과 변수 추출이 있다

2. 여러 변수의 정보를 최대한 유지하기 위해 데이터 세트 변수의 개수 유지

3. 차원 축소 후 학습할 경우, 회귀나 분류, 클러스터링 등의 머신러닝 알고리즘이 더 잘 작동

4. 새로운 저차원 변수 공간에서 시각화 용이

★ 주성분 분석에 대한 설명으로 가장 올바르지 않은 것은?

1. 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원 축소 방법

2. 변수들의 공분산 행렬이나 상관 행렬 이용

3. 행의 수와 열의 수가 같은 정방행렬에서만 사용

4. 다변량의 신호를 통계적으로 독립적인 하부 성분으로 분리하여 축소하는 기법

★ 표준화에 대한 설명으로 옳은 것은?

1. 표준화는 입력값에서 평균을 뺀 값에 분산을 나눠 계산

2. 정규분포를 표준화하면 표준정규분포가 된다

3. 표준화의 최대값은 1

4. 표준화의 표준 편차는 0

★ 다음 중 아래에서 설명하고 있는 데이터 변환 기법은?

- Feature의 값이 평균과 일치하면 0으로 정규화되고, 평균보다 작으면 음수, 크면 양수로 변환하는 방법
- 이상값 문제를 피하는 데이터 정규화로 이상값은 잘 처리하지만, 정확히 같은 척도로 정규화된 데이터를 생성하지는 못한다는 단점이 있음

1. 행렬 변환

2. 지수 변환

3. 최소-최대 정규화

4. Z-점수 정규화

★ 아래의 변수 선택 기법 중 필터 기법으로 가장 적절하지 않은 것은?

1. 정보 이득

2. 카이제곱 검정

3. 피셔 스코어

4. 라쏘

★ 특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성으로부터 변수를 택하는 기법은?

1. 필터 기법

2. 래퍼 기법

3. 임베디드 기법

4. 단순 기법

★ 파생변수(Derived Variance) 생성 방법에 대한 설명으로 옳지 않은 것은?

1. 주어진 변수의 단위를 변환하여 새로운 단위로 표현

2. 단순한 표현 방법으로 변환

3. 소수의 데이터를 복제한 변수

4. 다양한 함수 등 수학적 결합을 통해 새로운 변수를 정의

★ 다음 중 박스-콕스 변환에 대한 설명으로 올바르지 않은 것은?

1. λ = 0 일때 멱 변환, λ ≠ 0 일 때 로그 변환 하는 기법

2. 종속변수를 정규분포에 가깝게 만들기 위한 목적으로 사용하는 변환 방법

3. 로그 변환 포함

4. 제곱 루트 변환 포함

★ 시각적 데이터 탐색에서 자주 사용되는 박스플롯으로 알 수 없는 통계량은?

1. 평균

2. 분산

3. 이상값

4. 최대값

★ 다음 중 박스플롯에 대한 설명으로 가장 알맞지 않은 것은?

1. 많은 데이터를 그림을 이용하여 집합의 범위와 중위수 빠르게 확인 가능

2. 수염은 제1 사분위에서 1.5IQR을 뺀 위치

3. 통게적으로 이상값이 있는지 빠르게 확인 가능

4. 상자 수염 그림이라고도 함

★ 다음 중 변수 유형의 관계가 잘못 짝지어진 것은?

1. 인과관계 - 독립변수, 종속변수

2. 변수 속성 - 범주형, 수치형

3. 범주형 - 등간형, 비율형

4. 수치형 - 이산형, 연속형

★ 데이터 탐색에서 개별 변수에 대한 탐색 방법의 설명으로 가장 옳지 않은 것은?

1. 질적 데이터는 명목 척도와 순위 척도에 대하여 데이터 탐색

2. 수치형 데이터는 빈도수, 최빈율, 비율, 백분율 등을 이용하여 데이터의 분포 특성을 중심성, 변동성, 정규성 측면에서 파악

3. 범주형 데이터의 시각화는 막대형 그래프를 주로 이용

4. 수치형 데이터의 시각화는 박스플롯이나 히스토그램을 주로 이용

★ 데이터 탐색에서 수치형-수치형 데이터 조합에 대한 탐색 방법의 설명으로 옳지 않은 것은?

1. 수치형 데이터 간에는 산점도와 기울기를 통하여 변수 간의 상관성 분석

2. 수치형 변수 간의 상관성과 추세성 여부는 산점도를 이용하여 시각화

3. 공분산을 통하여 방향성과 강도 파악

4. 피어슨 상관계수를 통하여 상관성 파악

★ 아래 주어진 데이터의 중위수는?

6, 7, 9, 15, 13, 20, 45, 15

★ 아래 주어진 데이터의 사분위수는?

1, 5, 8, 9, 13, 17, 19

★ 아래는 k고등학교 3학년 5반 5명의 키를 나타낸 것이다. 아래 5명의 키에 대한 평균, 중위수, 분산 값은?

170, 165, 180, 185, 175

★ 다음 중 산포도 통계량으로 가장 알맞지 않은 것은?

1. 평균값

2. 분산

3, 표준편차

4. 변동계수

★ 다음 중 분산에 대한 설명으로 가장 올바르지 않은 것은?

1. 평균으로부터 얼마나 떨어져 있는지를 나타내는 지표

2. 분산에는 표본의 분산, 모분산이 있음

3. 표본의 분산은 편차의 제곱을 한 값의 합을 구하고 n개로 나눈 값

4. 모집단에 대한 분산은 σ^2(제곱) 으로 표시

★ 평균이 100이고 분산이 25일 경우 변동계수 (Coefficient of Variation)은?

★ 다음 중 도수분포표를 가로축에 계급, 세로축에 도수로 사상하여 나타낸 그래프로 가장 알맞은 것은?

1. 막대그래프

2. 파레토 차트

3. 히스토그램

4. 산점도

★ 평균에 대한 설명으로 옳은 것은?

1. 제2 사분위수 (Q2) 와 같다

2. 왜도가 0보다 클 때 평균은 중위수보다 작다

3. 평균과 관측치의 단위는 같다

4. 데이터값 중에서 빈도수가 가장 높은 데이터값이다.

★ 다음 중 성격이 다른 지표는?

1. 평균

2. 범위

3. 중위수

4. 최빈수

★ 상관관계에 대한 설명으로 옳은 것은?

1. 범주형 값이어야 하고, -1 ~ 1의 값을 가짐

2. 명목적 데이터 상관관계를 분석할 때는 피어슨 상관계수 이용

3. 상관계수의 절대값이 작을수록 강한 상관관계 가짐

4. 상관계수가 -1에 가까울수록 강한 음의 상관관계 가짐

★ 두 변수 간에 직선 관계가 있는지를 나타낼 때 가장 적절한 통계량은?

1. F-통계량

2. T-통계량

3. p-값

4. 표본상관계수

★ 오른쪽으로 꼬리가 길 때, 피어슨 왜도 계수와 평균, 중위값, 최빈수의 관계는?

1. 피어슨 왜도 계수 > 0, 평균 > 중위값 > 최빈수

2. 피어슨 왜도 계수 = 0, 평균 > 중위값 > 최빈수

3. 피어슨 왜도 계수 < 0, 평균 > 중위값 > 최빈수

4. 피어슨 왜도 계수 < 0, 평균 < 중위값 < 최빈수

★ 왜도가 왼쪽 편포일 경우 왜도의 값의 범위는?

▶

★ 왜도의 값이 0보다 클 경우 평균과 최빈수, 중위수 중에서 가장 작은 값은?

★ 상관 계수에 대한 설명으로 옳지 않은 것은?

1. 상관계수는 -1에서 1 사이의 값 가짐

2. 상관계수는 0에 가까우면 선형 관계 희미

3. 상관계수만으로 통계적 유의성을 알 수 있음

4. 산점도를 통해 상관 정도 파악 가능

★ 상관 분석에 대한 설명으로 가장 올바르지 않은 것은?

1. 상관 분석은 변수 간의 연관성을 파악하기 위해 사용하는 분석기법 중 하나로 변수 간의 선형 관계 정도를 분석하는 통계기법

2. 상관 분석은 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속 변수값을 에측하는 선형모형을 산출하는 방법

3. 등간 척도 및 비율척도로 측정된 변수 간의 상관계수는 피어슨 상관계수로 측정

4. 서열 척도로 측정된 변수 간의 상관계수는 스피어만 상관계수로 측정

★ 아래는 특정 제품의 sales와 TV, Radio, Newspaper 광고 예산 간의 피어슨 상관계수 행렬이다. 설명이 알맞지 않은 것은?

	TV	Radio	Newspaper	Sales
TV	1.000	0.054	0.057	0.793
Radio	0.054	1.000	0.333	0.543
Newspaper	0.057	0.333	1.000	0.222
Sales	0.793	0.543	0.222	1.000

1. 3가지 매체의 광고예산은 Sales 와 양의 상관관계를 가짐

2. Newspaper 광고예산이 증가할 때 Radio 광고예산이 증가하는 경향

3. TV 광고예산을 늘릴 경우 Sales 가 증가하는 인과관계 가짐

4. Sales 와 가장 상관관계가 높은 변수는 TV

★ 다음 중 3사분위수보다 항상 작은 값은?

1. 평균

2. 상위 80%에 위치한 값

3. 중위수

4. 최대값

★ 다음 중에서 확률 및 확률분포에 대한 설명 중 가장 적절하지 못한 것은?

1. 확률변수 x가 구간 또는 구간들의 모임인 숫자 값을 갖는 확률분포 함수를 이산형 확률 질량 함수라 한다

2. 모든 확률변수는 0과 1 사이의 값을 가진다

3. 확률함수는 확률변수에 의해 정의된 실수를 확률에 대응시키는 함수이다

4. 서로 배반인 사건에 대한 합집합의 확률을 각 사건에 대한 확률의 합이 된다

★ 평균이 100 이고 분산이 16인 정규 모집단에서 크기가 4인 표본을 추출하였을 경우 표본 평균의 표준편차는?

★ 평균 키가 173cm, 표준편차가 16인 고등학교 남학생 중에서 임의로 추출한 고등학교 남학생 100명의 평균키의 표준오차는?

★ 정규분포에 대한 섦영으로 옳지 않은 것은?

1. 정규분포를 나타내기 위해 평균과 분산 사용

2. 분포 형태가 종 모양

3. 왜도는 3이고, 첨도는 0

4. 표준정규분포는 평균이 0, 표준편차가 1

★ 초기하분포에 대한 설명으로 옳지 않은 것은?

1. 초기하분포는 특정 그룹에서 뽑힌 표본의 수에 대한 확률 분포이다

2. 초기하분포는 시행마다 성공 확률이 일정하지 않다

3. 초기하분포는 시행은 독립적이다

4. 초기하분포는 이산확률분포를 가진다

★ 다음 중 확률분포 및 확률변수에 대한 설명으로 잘못된 것은?

1. 이산확률변수는 셀 수 있는 값들을 변수로 갖는 확률 변수

2. 이항분포는 이산확률분포

3. 연속확률분포에는 초기하분포, 지수분포, 감마분포 등

4. 정규분포는 연속확률분포

★ 베르누이 시행에 대한 설명으로 옳지 않은 것은?

1. 특정 실험의 결과가 성공 또는 실패로 두 가지의 결과 중 하나를 얻는 분포

2. 확률 P는 p이다

3. 기대값 E(X)는 p^2이다

4. 분산은 p(1-p) 이다

★ 복원 추출 했을 때 표본 추출에 대한 설명으로 옳지 않은 것은?

1. 표본의 개수가 많아지면 표본오차가 줄어듦

2. 표본의 크기가 커질수록 정규분포 따름

3. 복원 추출에 의해 추출한 데이터는 크기가 커져도 중심 극한 정리는 성립 하지 않음

4. 표본의 크기가 증가할수록 표본의 평균과 표준편차가 모집단의 평균과 표준편차에 가까워짐

★ 다음 중 층화추출에 대한 설명으로 가장 올바르지 않은 것은?

1. 모집단을 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식

2. 모집단을 일정한 간격으로 추출하는 방식

3. 층내는 동질적, 층간은 이질적

4. 사례로 지역별 여론 조사를 위해 조사 지역을 도별로 나누고, 각 도에서 무작위로 100명씩 선발

★ 다음 중 층화 추출법에 대한 설명으로 올바르지 않은 것은?

1. 모집단의 각 게층에 대한 정확한 정보 필요

2. 각 계층으로부터 표본 추출

3. 각 계층은 내부적으로 이질적, 외부적으로는 동질적

4. 확률 표본 추출 방법

★ 확률 변수 X의 분산은 2이고, 확률변수 Y = 2 + 5 X 일 때, 확률변수 Y의 분산은?

▶

★ 확률 변수 X의 기대값은 2이고, 확률변수 Y= 3 + 2 X 일 때, 확률변수 Y의 기대값은?

▶

★ 육면체 주사위 한 개를 한 번 던졌을 때, 윗면에 나타난 수를 X라고 할 경우, X의 기대값은?

★ 확률변수 X와 확률 질량 함수 P(X)가 다음과 같이 주어질 때, 확률변수 X의 분산은?

X	1	2	3	4
확률 P(X)	1/6	1/6	1/6	3/6

▶

★ 연속형 확률변수의 분포 중에서 정규분포의 평균을 측정할 때 주로 사용되고 두 집단 간 평균의 차이 검정 등에 활용되는 분포는?

1. F-분포

2. 카이제곱 분포

3. 포아송분포

4. T-분포

★ 표본 통계량이 표본분산일 때 표본분포로 가장 알맞은 것은?

▶

★ 독립적인 x^2 분포가 있을 때, 두 확률변수의 비로 가장 알맞은 것은?

▶

★ 다음 중 표본의 개수가 커지면 모집단의 분포와 상관 없이 표본분포는 저규분포에 근사한다는 법칙은?

1. 큰 수의 법칙

2. 중심극한정리

3. 전체 확률의 법칙

4. 오차의 법칙

★ 수집된 자료를 토대로 모집단의 특성을 추정하게 되는데, 이때 조사하는 모집단의 일부를 표본(Sample) 이라 한다. 다음 중 표본조사에 대한 설명으로 가장 올바르지 않은 것은?

1. 비표본오차: 표본오차를 제외한 모든 오차로 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등의 모든 오차 의미. 조사대상이 증가한다고 하여 오차가 커지지 않음.

2. 표본오차: 모집단의 일부인 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차

3. 표본편의: 확률화에 의해 최소화 가능. 확률화란 모집단으로부터 편의 되지 않은 표본을 추출하는 절차. 확률화 절차에 의해 추출된 표본은 확률포본

4. 표본 편의: 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출 방법에서 기인하는 오차

★ 점 추정 조건에 대한 설명 중 올바르지 않은 것은?

1. 불편성: 추정량의 기대값이 모집단의 모수와 차이가 없는 특성

2. 효율성: 추정량의 분산이 작은 특성

3. 일치성: 표본의 크기가 커지면 추정량이 모수와 거의 같아지는 특성

4. 편의성: 모수를 추정할 때 복잡한 정도를 나타내는 특성

★ A고등학교 남학생 25명의 키를 측정하였더니 평균 키는 170cm 이고, 분산이 25이다. A고등학교 남학생의 평균 키에 대한 95% 신뢰구간은? (Z0.05 = 1.711, Z0.025 = 2.064) ▶ t-분포표 상 자유도는 25-1: 24, 꼬리확률 q = a/2 = 0.025가 교차하는 지점

★ 모표준편차 σ = 8인 정규분포를 따르는 모집단에서 표본의 크기가 25인 표본을 추출하였을 때 표본평균(-x)는 90.

모평균 μ에 대한 90% 신뢰구간은? (Z0.05 = 1.645, Z0.1 = 1.282)

★ 전구를 대량 생산하는 전기회사가 있다. 전구의 평균 수명을 측정하기 위하여 100개의 전구를 표본추출하여 평균 수명을 측정하였더니 600 시간, 표준편차는 20시간이었다. 이 회사에서 생산되는 전구의 평균 수명에 대한 95% 신뢰구간은?

(Z0.025 = 1.96, Z0.05 = 1.645)

★ 동일 집단에 대해 처치 전과 후를 비교할 때 평균 추정에 대한 설명으로 옳은 것은?

1. 처치 전과 후의 평균에 대한 차이를 추정

2. 표본의 크기가 30 이상이면 T-분포를, 30 미만이면 Z-분포 이용

3. 처치 전과 후를 추정할 때 표본표준편차는 표본의 개수와 비례

4. 표본표준편차는 처치 전의 표준편차와 처치 후의 표준편차를 합해서 계산

★ 다음 중 비모수 통계에 대한 설명으로 가장 알맞지 않은 것은?

1. 모집단의 분포에 대한 가정의 불만족으로 인한 오류의 가능성 큼

2. 모수적 방법에 비해 통계량의 계산이 간편하여 직관적으로 이해하기 쉬움

3. 이상값으로 인한 영향이 적음

4. 검정 통계량의 신뢰성 부족

★ 10명의 혈당을 측정하여 측정 전과 측정 후의 짝을 이룬 표본에 대한 비모수 검정으로 가장 알맞은 것은?

1. 윌콕슨 부호 순위 검정

2. 윌콕슨 순위 합 검정

3. T-검정

4. 크수스칼 왈리스 검정

★ 윌콕슨 부호 순위 검정, 윌콕슨 순위 합 검정에 대한 설명으로 올바르지 않은 것은?

1. 윌콕슨 부호 순위 검정은 단일 표본 검정 기법

2. 윌콕슨 순위 합 검정은 이변수 검정 기법

3. 윌콕슨 순위 합 검정은 자료의 분포에 대한 대칭성 가정 필요

4. 윌콕슨 순위 합 검정은 모수 분포를 가정한 방법

★ 다음 비모수 검정 방법 중에서 관측된 표본이 어떤 패턴이나 경향이 없이 랜덤하게 추출되었다는 가설을 검정하는 방법은?

1. 부호 검정

2. 만-위트니의 U검정

3. 런 검정

4. 윌콕슨 순위 합 검정

★ 동전의 앞을 1, 뒤를 0 으로 하였을 경우 10번 동전을 던졌을 때의 결과는 아래와 같다. 이때 런의 총 횟수는?

1, 0, 0, 1, 0, 1, 1, 1, 0, 1

▶

★ 다음이 설명하는 용어는?

모집단에 대한 통계적 가설을 세우고 표본을 추출한 다음, 그 표본을 통해 얻은 정보를 이용하여 통계적 가설의 진위를 판단하는 과정

▶

★ 유의 확률에 대한 설명으로 옳은 것은?

1. 유의 확률이 유의 수준보다 크면 H0 을 채택

2. 1종 오류를 범할 최대 허용 확률

3. 2종 오류를 범할 최대 허용 확률

4. 가설검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량

★ 다음 중 추정과 가설검정에 대한 설명으로 가장 알맞지 않은 것은?

1. 구간 추정이란 일정한 크기의 신뢰구간으로 모수가 특정한 구간에 있을 것이라고 추정하는 것으로 구해진 구간을 신뢰구간이라 한다.

2. 점 추정은 표본의 정보로부터 모집단의 모수가 특정한 값일 것이라고 추정하는 것

3. 기각역은 귀무가설을 기각시키는 검정통계량의 범위

4. p-값은 귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 평균값으로 얻을 확률

★ 제2종 오류를 범할 최대 허용확률을 의미하는 값은?

▶

★ 혈당을 낮추는 약을 개발했을 때 혈당을 낮추는 약이 효과가 있는지 검정을 할 때 사용하는 가설검정은?

1. 단일 모평균의 단측 검정

2. 단일 모평균의 양측 검정

3. 대응 표본(쌍체 표본) 단측 검정

4. 대응 표본(쌍체 표본) 양측 검정

★ 다음 중 아래 사례를 분석할 때 사용할 수 있는 검정 방법은?

A집단(단일표본)에게 술을 먹였을 때와 안 먹였을 때의 민첩성을 측정(=사전-사후 검사)할 때 사용

1. 단일표본 T-검정

2. 대응표본 T-검정

3. 분산표본 T-검정

4. 독립표본 T-검정

★ 크기가 1000인 표본으로 95% 신뢰수준을 가지도록 모평균을 추정하였는데 신뢰구간의 길이가 10이었다. 동일한 조건에서 크기가 250인 표본으로 95% 신뢰수준을 가지도록 모평균을 추정할 경우에 표본의 길이는?

▶

★ 다음 중 구간 추정 방법과 신뢰구간에 대한 설명으로 올바르지 않은 것은?

1. 일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언하는 것

2. 95% 신뢰구간은 '주어진 한 개의 신뢰구간에 미지의 모수가 포함될 확률이 5%다' 라는 의미

3. 신뢰수준이 높아지면 신뢰구간의 길이는 길어진다

4. 표본의 수가 많아지면 신뢰구간의 길이는 짧아진다

★ 모평균을 추정하는데 표본의 크기를 4배 증가시킬 경우 신뢰구간의 길이 변화는?

▶

★ 크기가 100인 표본으로부터 구한 모평균에 대한 90% 신뢰구간의 오차의 한계가 5라고 한다. 동일한 신뢰구간에서 오차의 한계가 최소 2.5를 넘지 않도록 하려면 표본의 크기가 최소한 얼마 이상이 되어야 하는가?

[정답 및 해석]

[빅데이터 분석기사] 2과목 기출문제 오답노트

★ EDA의 4가지 주제에 대한 설명으로 가장 알맞지 않은 것은? 1. 저항성: 수집된 자료에 오류점, 이상값이 있을 때에도 영향을 적게 받는 성질 2. 잔차: 관찰 값들이 주 경향으로부터 얼마나 벗어

puppy-foot-it.tistory.com

728x90

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

[빅데이터 분석기사] 4과목 기출문제 (1)	2024.03.29
[빅데이터 분석기사] 3과목 기출문제 (1)	2024.03.29
[빅데이터 분석기사] 1과목 기출 문제 (1)	2024.03.29
[빅데이터 분석기사] 3과목 기출문제 오답노트 (1)	2024.03.24
[빅데이터 분석기사] 2과목 기출문제 오답노트 (1)	2024.03.23

Recordian, 기록의 힘을 믿는다.

[빅데이터 분석기사] 2과목 기출문제

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

티스토리툴바

[빅데이터 분석기사] 2과목 기출문제

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

관련글

티스토리툴바