TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 2과목 빅데이터 탐색(2-2-2)

by 기록자_Recordian 2024. 3. 13.
728x90
반응형

[목차]

 

[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)

빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이

puppy-foot-it.tistory.com


빅데이터 탐색 - 통계기법의 이해

<추론통계>

1. 추론통계

  • 모집단의 표본을 가지고 모집단의 특성을 추론하고 그 결과의 신뢰성을 검정하는 통계적 방법
  • 표본의 개수가 많을수록 표본오차 감소
  • 추정은 표본의 데이터인 일부의 데이터를 이용하여 모집단을 추정하므로 어느정도의 오차 있음
  • 추정은 점추정과 구간 추정으로 구분

2. 점 추정

  • 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법
  • 신뢰도를 나타낼 수 없는 단점이 있어 구간 추정을 주로 사용
  • 표본평균, 표본분산, 표본비율 등 사용

(1) 조건

  • 불편성/불편의성: 추정량의 기댓값이 모집단의 모수와 차이가 없다는 특성 (불편 추정량은 모수를 중심으로 분포)
  • 불편 추정량: 추정량의 기댓값이 모수와 일치하는 추정량
  • 효율성: 추정량의 분산이 작을수록 좋다는 특성 (추정량의 효율은 항상 1 이하이고, 효율이 1인 추정량을 최대효율 추정량이라고 함)
  • 일치성: 표본의 크기가 아주 많이 커지면, 추정량이 모수와 거의 같아진다는 특성 (일치 추정량을 통해 확인)
  • 충족성/충분성: 추정량은 모수에 대하여 많은 정보를 제공할수록 좋다는 특성 (충족 추정량 사용)

(2) 모수의 점 추정량

  • 표본의 통계량을 이용하여 계산
  • 모평균: 표본평균은 모평균의 불편 추정량
  • 모분산: 표본분산은 모분산의 불편 추정량
  • 모비율: 표본비율은 모비율의 불편 추정량

(3) 표준오차 (SE; Standard Error)

  • 추정량은 추출된 표본의 값에 따라서 달라질 수 있음
  • 정확도를 측정하기 위해 추정량의 표준편차 계산
  • 추정량의 표준편차
  • 모분산을 모를 경우 표본분산을 사용하여 계산

3. 구간 추정

  • 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법
  • 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준)가 주어져야 함
  • 신뢰수준: 추정값이 존재하는 구간에 모수가 포함될 확률 ( 100 x (1 -a)%) a: 유의수준 (90%, 95%, 99% 신뢰수준을 주로 사용)
  • 신뢰구간: 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위 (양측을 다루므로 a를 반으로 나눈 값이 많이 사용 됨)

 
(1) 모평균 추정
 
1) 단일 모평균 추정

  • 모분산이 알려져 있는 경우와 알려져 있지 않은 경우로 나누어 게산
  • 모분산이 알려져 있지 않은 경우는 대표본과 소표본일 경우로 나누어 계산
  • 모집단이 정규분포를 따르고 모분산이 알려져 있는 경우, Z-분포 이용
  • 모분산이 알려져 있지 않은 경우 (표본의 크기가 30 이상인 대표본 일 경우) Z-분포 이용
  • 모분산이 알려져 있지 않은 경우 (표본의 크기가 30보다 작은 소표본 일 경우) 자유도가 (n-1)인 T-분포

2) 두 모평균 차이의 추정

  • 두 모집단이 정규분포를 따르고 모분산이 알려져 있는 경우, Z-분포 이용
  • 표본의 크기가 30이상이며 모분산이 알려져 있지 않은 경우, Z-분포 이용
  • 모분산은 모르지만 두 모분산이 같다고 알려진 표본산의 경우에는 자유도가 n1+n2 - 2인 T-분포 따름

3) 대응 표본일 경우 두 모평균 차이의 추정

  • 대응표본은 실험 전후의 연구 대상을 비교할 때 많이 사용되는 비교 방법
  • 대응되는 표본의 크기가 30 이상인 대표본의 경우에는 Z-분포 이용
  • 대응되는 표본의 크기가 30보다 작은 소표본의 경우에는 자유도가 n-1인 T-분포 따름

(2) 모비율의 추정

  • 일반적으로 표본의 크기 n이 충분히 클 때, 표본비율은 정규분포를 따름

1) 단일 모비율 추정

  • 모비율(p)의 추정량은 표본비율 (^p) 이고 표본크기 n이 충분히 클 때 Z-분포 이용

2) 두 모비율 차이의 추정

  • 두 모비율 차이(p1 - p2)의 추정량은 두 표본비율의 차이 (^p1 - ^p2)이고 표본크기가 충분히 클 때 Z-분포 이용

(3) 표본의 크기 결정

  • 표본의 크기가 클수록 모집단과의 오차가 작아지지만 시간과 비용이 많이 듦.
  • 표본의 크기가 작을수록 오차가 커져서 제대로 된 모집단의 정보를 제공할 수 없음
  • 주어진 유의수준과 허용 오차 (오차 범위) d에 따라 적절한 표본의 크기에 대한 결정 필요

1) 모평균 추정 시 표본 크기 결정

  • 보다 상세한 내용은 하단 링크 확인
 

모평균추정에서 표본크기 결정 -수리통계

  1. 모표준편차 을 알 때     를 알고 있다면 추정오차에 알맞은 표본크기는 아...

blog.naver.com

 
2) 모비율 추정 시 표본의 크기 결정

  • 모비율이 알려져 있을 경우 - 모비율 사용
  • 모비율이 알려져 있지 않을 경우 - 표본비율 사용
  • 모두 알려져 있지 않을 경우 - 표본비율 ^p=1/2 로 하여 표본 크기 결정

출처: 수제비2023 빅데이터분석기사 필기


4. 비모수 통계

  • 평균이나 분산 같은 모집단의 분포에 대한 모수성을 가정하지 않고 분석하는 통계적 방법
  • 데이터가 모수적 분석 방법이 가정한 특성을 만족하지 못할 때는 비모수 통계분석 방법 사용
  • 빈도, 부호, 순위 등의 통계량 사용
  • 순위와 부호에 기초한 방법 위주로 이상값으로 인한 영향 적음
  • 데이터가 모수적 분석 방법이 가정한 특성을 만족하지 못할 때는 비모수 통계분석 방법 사용
장점 단점
- 모집단의 분포에 대한 가정의 불만족으로 인한 오류의 가능성 적음
- 모수적 방법에 비해 통계량의 계산이 간편하고 직관적으로 이해하기 쉬움
- 모집단의 분포에 무관하게 사용
- 추출된 샘플의 개수가 10개 미만으로 작을 경우에도 사용
-이상값으로 인한 영향 적음
- 모수 통계로 검정이 가능한 데이터를 비모수 통계를 이용하면 효율성 저하
- 검정통계량의 신뢰성 부족
- 자료의 수가 많은 경우 모수적 통게에 비해 오히려 계산 절차 복잡

 
(1) 비모수 통계 검정 방법의 종류

  • 단일 표본: 부호 검정, 월콕슨 부호 순위 검정
  • 두 표본: 월콕슨 순위 합 테스트 / 부호 검정, 월콕슨 부호 순위 검정
  • 분산분석: 크루스칼-왈리스 검정
  • 무작위성: 런 검정
  • 상관 분석: 스피어만 순위 상관계수

(2) 비모수 통계 검정 방법 - 단일 표본 부호 검정 / 단일 표본 부호 순위 검정 / 두 표본 검정 / 대응 표본 검정 / 분산 분석 / 런 검정
 
1) 단일 표본 부호 검정

  • 부호검정: 차이의 크기는 무시하고 차이의 부호만을 이용한, 중위수의 위치에 대한 검정 방법
  • 자료를 중위수와 차이의 부호인 +와 -의 부호로 전환한 다음 부호들이 수를 근거로 검정
  • 자료의 분포가 연속적이고 독립적인 분포에서 나온 것이라는 가정만 필요

[절차]
표본 추출 → 검정 통계량 → 유의수준 a에 대한 기각역
※ 기각역: 귀무가설을 기각하는 통계량의 영역
 
2) 단일 표본 부호 순위 검정

  • 윌콕슨 부호 순위 검정: 단일 표본에서 중위수에 대한 검정에 사용되며, 또한 대응되는 두 표본의 중위수의 차이 검정에도 사용
  • 차이의 부호 뿐만 아니라 차이의 상대적인 크기도 고려한 검정 방법
  • 자료의 분포가 연속적이고 독립적인 분포에서 나온 것이라는 기본 가정 외에 자료의 분포에 대한 대칭성 가정 필요
  • 가설 검정 → 표본과 중위수 간의 차이 계산 → Ri+ 계산 → 검정 통계량 계산 → 유의수준 a에 대한 기각역
  • 유의 사항: 위치 모수 같은 데이터는 검정하기 전에 표본에서 제외 / 분산에도 영향을 미치므로 분산도 수정 필요 / 관측값이 동점 또는 |Yi| 가 동점인 경우, Ri+를 구하기 위하여 평균 순위 사용

3) 두 표본 검정-윌콕슨 순위 합 검정

  • 만-휘트니의 U 검정과 동일
  • 만-휘트니-윌콕슨 순위 합 검정이라고도 부름
  • 두 표본의 혼합 표본에서 순위 합을 이용한 검정 방법
  • 자료의 분포가 연속적이고 독립적인 분포에서 나온 것이라는 기본 가정 외에 자료의 분포에 대한 대칭성 가정 필요
  • 가설 설정 → 순위 부여 → 순위 계산 → 검정 통계량 계산 → 유의수준 a에 대한 기각역
  • 혼합 표본에서 동점이 있을 경우 W는 동점 간의 평균 순위 사용

4) 대응 표본 검정

  • 하나의 모집단에서 두 가지 처리를 적용하여 관찰 값을 얻은 후 각 쌍의 차이를 이용하여 두 중위수의 차이를 검정하는 방법
  • 단일 표본에서의 부호 검정과 윌콕슨 부호 순위 검정을 대응 표본 검정 방법으로 사용

5) 분산 분석 - 크루스칼 왈리스 검정

  • 세 집단 이상의 분포를 비교하는 검정 방법
  • 모수적 방법에서의 one-way ANOVA와 같은 목적으로 스임
  • 그룹별 평균이 아닌 중위수가 같은지 검정
  • 각 그룹의 표본의 수는 다를 수도 있음
  • 가설 설정 → 순위 부여 → 값 계산 → 검정 통계량 계산 → 유의수준 a에 대한 기각역

※ one-way ANOVA: 일원 분산 분석, 세 개 이상의 집단을 포함하고 있는 독립 변수가 하나이고 그 집단들에 의해 집단 간 차이가 있음을 검증하는 통계 방법
 
6) 런 검정

  • 두 개의 값을 가지는 연속적인 측정값들이 어떤 패턴이나 경향이 없이 임의적으로 나타난 것인지를 검정하는 방법
  • 동일한 측정값들이 시작하여 끝날 때까지의 덩어리
  • 이분화된 자료가 아닌 경우는 이분화된 자료로 변환시켜야 함
  • 평균, 중위수, 최빈수 또는 사용자가 정의한 숫자 등의 기준값을 이용하여 이분화
  • 가설 설정 → 검정 통계량 게산 → 기각역 검정

5. 가설검정

(1) 가설

  • 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론
  • 가설을 검정하기 위해 알고 싶은 내용을 기술한 가설
종류 설명
귀무가설 현재까지 주장되어 온 것이나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설
대립가설 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설 (연구가설)

 
(2) 가설검정

  • 모집단에 대한 통계적 가설을 세우고 표본을 추출한 다음, 그 표본을 통해 얻은 통계적 가설의 진위를 판단하는 과정
  • 표본을 활용하여 모집단에 대입해보았을 때 새롭게 제시된 대립가설이 옳다고 판단할 수 있는지를 평가하는 과정
  • p-값과 유의수준을 비교하여 귀무가설 혹은 대립가설을 채택

출처:&amp;nbsp;https://codedragon.tistory.com/m/10025

 
(3) 가설검정 방법

  • 양측 검정: 모수에 대해 표본자료를 바탕으로 모수가 특정 값과 통계적으로 같은지 여부 판단
  • 단측 검정: 모수에 대해 표본자료를 바탕으로 모수가 특정 값과 통계적으로 큰지 작은지 여부 판단

(4) 가설검정의 오류

  • 통계적인 방법에 근거하여 주어진 가설을 검증하는 데 있어 모집단 전체를 통해 검증하는 것이 아닌 모집단으로부터 추출된 표본을 기반으로 모집단에 대한 결론을 내리는 것이기 때문에 통계적인 오류가 발생할 가능성 존재
  • 제1종 오류: 귀무가설이 참인데 잘못하여 이를 기각하게 되는 오류 (유의수준, 신뢰수준)
  • 제2종 오류: 귀무가설이 거짓인데 잘못하여 이를 채택하게 되는 오류 (베타 수준, 검정력)
  • 일반적으로 1종 오류의 영향이 2종 오류의 영향보다 크므로, 유의수준을 기준으로 가설검정 수행

(5) 검정 통계량

  • 가설검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량
  • 귀무가설이 참이라는 전제하에서 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산

(6) p-값(p-Value, 유의확률)

  • 귀무가설이 참이라는 전제하에 실제 표본에서 구한 표본 통계량의 값보다 더 극단적인 값이 나올 확률

출처:&amp;nbsp; https://blog.naver.com/luvmyth/220743749885

 
(7) 임곗값(임계치)

  • 주어진 유의수준을 검정통계량의 값으로 환산한 값
  • 귀무가설을 채택 또는 기각하는 기준
  • 귀무가설 채택: 임곗값 > 검정통계량
  • 귀무가설 기각: 임곗값 < 검정통계량

이전글

[빅데이터 분석기사] 2과목 빅데이터 탐색(2-2-1)

 
다음글

[빅데이터 분석기사] 3과목 빅데이터 모델링(3-1)

728x90
반응형