[목차]
빅데이터 탐색 - 통계기법의 이해
<추론통계>
1. 추론통계
- 모집단의 표본을 가지고 모집단의 특성을 추론하고 그 결과의 신뢰성을 검정하는 통계적 방법
- 표본의 개수가 많을수록 표본오차 감소
- 추정은 표본의 데이터인 일부의 데이터를 이용하여 모집단을 추정하므로 어느정도의 오차 있음
- 추정은 점추정과 구간 추정으로 구분
2. 점 추정
- 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법
- 신뢰도를 나타낼 수 없는 단점이 있어 구간 추정을 주로 사용
- 표본평균, 표본분산, 표본비율 등 사용
(1) 조건
- 불편성/불편의성: 추정량의 기댓값이 모집단의 모수와 차이가 없다는 특성 (불편 추정량은 모수를 중심으로 분포)
- 불편 추정량: 추정량의 기댓값이 모수와 일치하는 추정량
- 효율성: 추정량의 분산이 작을수록 좋다는 특성 (추정량의 효율은 항상 1 이하이고, 효율이 1인 추정량을 최대효율 추정량이라고 함)
- 일치성: 표본의 크기가 아주 많이 커지면, 추정량이 모수와 거의 같아진다는 특성 (일치 추정량을 통해 확인)
- 충족성/충분성: 추정량은 모수에 대하여 많은 정보를 제공할수록 좋다는 특성 (충족 추정량 사용)
(2) 모수의 점 추정량
- 표본의 통계량을 이용하여 계산
- 모평균: 표본평균은 모평균의 불편 추정량
- 모분산: 표본분산은 모분산의 불편 추정량
- 모비율: 표본비율은 모비율의 불편 추정량
(3) 표준오차 (SE; Standard Error)
- 추정량은 추출된 표본의 값에 따라서 달라질 수 있음
- 정확도를 측정하기 위해 추정량의 표준편차 계산
- 추정량의 표준편차
- 모분산을 모를 경우 표본분산을 사용하여 계산
3. 구간 추정
- 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법
- 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준)가 주어져야 함
- 신뢰수준: 추정값이 존재하는 구간에 모수가 포함될 확률 ( 100 x (1 -a)%) a: 유의수준 (90%, 95%, 99% 신뢰수준을 주로 사용)
- 신뢰구간: 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위 (양측을 다루므로 a를 반으로 나눈 값이 많이 사용 됨)
(1) 모평균 추정
1) 단일 모평균 추정
- 모분산이 알려져 있는 경우와 알려져 있지 않은 경우로 나누어 게산
- 모분산이 알려져 있지 않은 경우는 대표본과 소표본일 경우로 나누어 계산
- 모집단이 정규분포를 따르고 모분산이 알려져 있는 경우, Z-분포 이용
- 모분산이 알려져 있지 않은 경우 (표본의 크기가 30 이상인 대표본 일 경우) Z-분포 이용
- 모분산이 알려져 있지 않은 경우 (표본의 크기가 30보다 작은 소표본 일 경우) 자유도가 (n-1)인 T-분포
2) 두 모평균 차이의 추정
- 두 모집단이 정규분포를 따르고 모분산이 알려져 있는 경우, Z-분포 이용
- 표본의 크기가 30이상이며 모분산이 알려져 있지 않은 경우, Z-분포 이용
- 모분산은 모르지만 두 모분산이 같다고 알려진 표본산의 경우에는 자유도가 n1+n2 - 2인 T-분포 따름
3) 대응 표본일 경우 두 모평균 차이의 추정
- 대응표본은 실험 전후의 연구 대상을 비교할 때 많이 사용되는 비교 방법
- 대응되는 표본의 크기가 30 이상인 대표본의 경우에는 Z-분포 이용
- 대응되는 표본의 크기가 30보다 작은 소표본의 경우에는 자유도가 n-1인 T-분포 따름
(2) 모비율의 추정
- 일반적으로 표본의 크기 n이 충분히 클 때, 표본비율은 정규분포를 따름
1) 단일 모비율 추정
- 모비율(p)의 추정량은 표본비율 (^p) 이고 표본크기 n이 충분히 클 때 Z-분포 이용
2) 두 모비율 차이의 추정
- 두 모비율 차이(p1 - p2)의 추정량은 두 표본비율의 차이 (^p1 - ^p2)이고 표본크기가 충분히 클 때 Z-분포 이용
(3) 표본의 크기 결정
- 표본의 크기가 클수록 모집단과의 오차가 작아지지만 시간과 비용이 많이 듦.
- 표본의 크기가 작을수록 오차가 커져서 제대로 된 모집단의 정보를 제공할 수 없음
- 주어진 유의수준과 허용 오차 (오차 범위) d에 따라 적절한 표본의 크기에 대한 결정 필요
1) 모평균 추정 시 표본 크기 결정
- 보다 상세한 내용은 하단 링크 확인
2) 모비율 추정 시 표본의 크기 결정
- 모비율이 알려져 있을 경우 - 모비율 사용
- 모비율이 알려져 있지 않을 경우 - 표본비율 사용
- 모두 알려져 있지 않을 경우 - 표본비율 ^p=1/2 로 하여 표본 크기 결정
4. 비모수 통계
- 평균이나 분산 같은 모집단의 분포에 대한 모수성을 가정하지 않고 분석하는 통계적 방법
- 데이터가 모수적 분석 방법이 가정한 특성을 만족하지 못할 때는 비모수 통계분석 방법 사용
- 빈도, 부호, 순위 등의 통계량 사용
- 순위와 부호에 기초한 방법 위주로 이상값으로 인한 영향 적음
- 데이터가 모수적 분석 방법이 가정한 특성을 만족하지 못할 때는 비모수 통계분석 방법 사용
장점 | 단점 |
- 모집단의 분포에 대한 가정의 불만족으로 인한 오류의 가능성 적음 - 모수적 방법에 비해 통계량의 계산이 간편하고 직관적으로 이해하기 쉬움 - 모집단의 분포에 무관하게 사용 - 추출된 샘플의 개수가 10개 미만으로 작을 경우에도 사용 -이상값으로 인한 영향 적음 |
- 모수 통계로 검정이 가능한 데이터를 비모수 통계를 이용하면 효율성 저하 - 검정통계량의 신뢰성 부족 - 자료의 수가 많은 경우 모수적 통게에 비해 오히려 계산 절차 복잡 |
(1) 비모수 통계 검정 방법의 종류
- 단일 표본: 부호 검정, 월콕슨 부호 순위 검정
- 두 표본: 월콕슨 순위 합 테스트 / 부호 검정, 월콕슨 부호 순위 검정
- 분산분석: 크루스칼-왈리스 검정
- 무작위성: 런 검정
- 상관 분석: 스피어만 순위 상관계수
(2) 비모수 통계 검정 방법 - 단일 표본 부호 검정 / 단일 표본 부호 순위 검정 / 두 표본 검정 / 대응 표본 검정 / 분산 분석 / 런 검정
1) 단일 표본 부호 검정
- 부호검정: 차이의 크기는 무시하고 차이의 부호만을 이용한, 중위수의 위치에 대한 검정 방법
- 자료를 중위수와 차이의 부호인 +와 -의 부호로 전환한 다음 부호들이 수를 근거로 검정
- 자료의 분포가 연속적이고 독립적인 분포에서 나온 것이라는 가정만 필요
[절차]
표본 추출 → 검정 통계량 → 유의수준 a에 대한 기각역
※ 기각역: 귀무가설을 기각하는 통계량의 영역
2) 단일 표본 부호 순위 검정
- 윌콕슨 부호 순위 검정: 단일 표본에서 중위수에 대한 검정에 사용되며, 또한 대응되는 두 표본의 중위수의 차이 검정에도 사용
- 차이의 부호 뿐만 아니라 차이의 상대적인 크기도 고려한 검정 방법
- 자료의 분포가 연속적이고 독립적인 분포에서 나온 것이라는 기본 가정 외에 자료의 분포에 대한 대칭성 가정 필요
- 가설 검정 → 표본과 중위수 간의 차이 계산 → Ri+ 계산 → 검정 통계량 계산 → 유의수준 a에 대한 기각역
- 유의 사항: 위치 모수 같은 데이터는 검정하기 전에 표본에서 제외 / 분산에도 영향을 미치므로 분산도 수정 필요 / 관측값이 동점 또는 |Yi| 가 동점인 경우, Ri+를 구하기 위하여 평균 순위 사용
3) 두 표본 검정-윌콕슨 순위 합 검정
- 만-휘트니의 U 검정과 동일
- 만-휘트니-윌콕슨 순위 합 검정이라고도 부름
- 두 표본의 혼합 표본에서 순위 합을 이용한 검정 방법
- 자료의 분포가 연속적이고 독립적인 분포에서 나온 것이라는 기본 가정 외에 자료의 분포에 대한 대칭성 가정 필요
- 가설 설정 → 순위 부여 → 순위 계산 → 검정 통계량 계산 → 유의수준 a에 대한 기각역
- 혼합 표본에서 동점이 있을 경우 W는 동점 간의 평균 순위 사용
4) 대응 표본 검정
- 하나의 모집단에서 두 가지 처리를 적용하여 관찰 값을 얻은 후 각 쌍의 차이를 이용하여 두 중위수의 차이를 검정하는 방법
- 단일 표본에서의 부호 검정과 윌콕슨 부호 순위 검정을 대응 표본 검정 방법으로 사용
5) 분산 분석 - 크루스칼 왈리스 검정
- 세 집단 이상의 분포를 비교하는 검정 방법
- 모수적 방법에서의 one-way ANOVA와 같은 목적으로 스임
- 그룹별 평균이 아닌 중위수가 같은지 검정
- 각 그룹의 표본의 수는 다를 수도 있음
- 가설 설정 → 순위 부여 → 값 계산 → 검정 통계량 계산 → 유의수준 a에 대한 기각역
※ one-way ANOVA: 일원 분산 분석, 세 개 이상의 집단을 포함하고 있는 독립 변수가 하나이고 그 집단들에 의해 집단 간 차이가 있음을 검증하는 통계 방법
6) 런 검정
- 두 개의 값을 가지는 연속적인 측정값들이 어떤 패턴이나 경향이 없이 임의적으로 나타난 것인지를 검정하는 방법
- 동일한 측정값들이 시작하여 끝날 때까지의 덩어리
- 이분화된 자료가 아닌 경우는 이분화된 자료로 변환시켜야 함
- 평균, 중위수, 최빈수 또는 사용자가 정의한 숫자 등의 기준값을 이용하여 이분화
- 가설 설정 → 검정 통계량 게산 → 기각역 검정
5. 가설검정
(1) 가설
- 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론
- 가설을 검정하기 위해 알고 싶은 내용을 기술한 가설
종류 | 설명 |
귀무가설 | 현재까지 주장되어 온 것이나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설 |
대립가설 | 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설 (연구가설) |
(2) 가설검정
- 모집단에 대한 통계적 가설을 세우고 표본을 추출한 다음, 그 표본을 통해 얻은 통계적 가설의 진위를 판단하는 과정
- 표본을 활용하여 모집단에 대입해보았을 때 새롭게 제시된 대립가설이 옳다고 판단할 수 있는지를 평가하는 과정
- p-값과 유의수준을 비교하여 귀무가설 혹은 대립가설을 채택
(3) 가설검정 방법
- 양측 검정: 모수에 대해 표본자료를 바탕으로 모수가 특정 값과 통계적으로 같은지 여부 판단
- 단측 검정: 모수에 대해 표본자료를 바탕으로 모수가 특정 값과 통계적으로 큰지 작은지 여부 판단
(4) 가설검정의 오류
- 통계적인 방법에 근거하여 주어진 가설을 검증하는 데 있어 모집단 전체를 통해 검증하는 것이 아닌 모집단으로부터 추출된 표본을 기반으로 모집단에 대한 결론을 내리는 것이기 때문에 통계적인 오류가 발생할 가능성 존재
- 제1종 오류: 귀무가설이 참인데 잘못하여 이를 기각하게 되는 오류 (유의수준, 신뢰수준)
- 제2종 오류: 귀무가설이 거짓인데 잘못하여 이를 채택하게 되는 오류 (베타 수준, 검정력)
- 일반적으로 1종 오류의 영향이 2종 오류의 영향보다 크므로, 유의수준을 기준으로 가설검정 수행
(5) 검정 통계량
- 가설검정의 대상이 되는 모수를 추론하기 위해 사용되는 표본 통계량
- 귀무가설이 참이라는 전제하에서 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산
(6) p-값(p-Value, 유의확률)
- 귀무가설이 참이라는 전제하에 실제 표본에서 구한 표본 통계량의 값보다 더 극단적인 값이 나올 확률
(7) 임곗값(임계치)
- 주어진 유의수준을 검정통계량의 값으로 환산한 값
- 귀무가설을 채택 또는 기각하는 기준
- 귀무가설 채택: 임곗값 > 검정통계량
- 귀무가설 기각: 임곗값 < 검정통계량
이전글
다음글
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅분기 기출문제] 오답노트 (0) | 2024.03.14 |
---|---|
[빅데이터 분석기사] 3과목 빅데이터 모델링(3-1) (0) | 2024.03.13 |
[빅데이터 분석기사] 2과목 빅데이터 탐색(2-2-1) (0) | 2024.03.13 |
[빅데이터 분석기사] 2과목 빅데이터 탐색(2-1-2) (0) | 2024.03.13 |
[빅데이터 분석기사] 2과목 빅데이터 탐색(2-1-1) (0) | 2024.03.12 |