1. 데이터베이스의 구성요소에 대한 설명이다. 각각 무엇에 대한 설명인가?
가. 데이터를 설명해주는 데이터로 데이터의 특성, 구조, 정의 및 관리 정보를 설명하는 데이터
나. 데이터를 빠르고 쉽게 찾을 수 있게 해주는 자료구조
1) 가: 테이블, 나: 인덱스
2) 가: 메타데이터, 나: 인덱스
3) 가: 메타데이터, 나: 속성
4) 가: 테이블, 나: 속성
▶
※ 메타데이터(Metadata): 사용자의 의사결정에 도움을 주기 위하여, 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스 (다른 데이터를 설명해주는 데이터)
※ 인덱스 (Index) - 데이터베이스에서 데이터 검색 및 조회의 성능을 향상시키기 위해 사용되는 자료구조
※ 테이블 (Table) - 표 형식의 행과 열로 구성된 데이터
※ 속성 (Attribute) - 테이블에서 하나의 열(Column) 에 해당하는 데이터
2. 다음 중 상용DB가 아닌 것은 무엇인가?
1) DB2
2) Tableau
3) SQL Server
4) Oracle
▶ Tableau는 데이터 시각화와 비즈니스 인텔리전스 분야에서 주로 사용되는 솔루션이다.
[상용DB 종류]
- Oracle Database
- Microsoft SQL Server
- IBM Db2
- SAP HANA
- PostgreSQL
- MySQL
- Amazon RDS (Amazon Relational Database Service)
- MariaDB
- Teradata
- Sybase ASE (Adaptive Server Enterprise)
3. 데이터 크기를 작은 것부터 큰 것 순서로 올바르게 나열한 것은?
1) PB < EB < ZB < YB
2) PB < YB < EB < ZB
3) YB < ZB < EB < PB
4) PB < ZB < EB < YB
4. 다음 데이터베이스의 특징에 대한 설명 중 옳지 않은 것은 무엇인가?
1) 통합된 데이터로 동일한 내용의 데이터가 중복되어 저장된다.
2) 저장된 데이터로 컴퓨터가 접근할 수 있는 저장매체에 저장된다.
3) 공용 데이터로 여러 사용자에게 서로 다른 목적으로 데이터가 공동 이용된다.
4) 변화되는 데이터로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 한다.
▶
통합 데이터: 데이터베이스에 같은 내용의 데이터가 중복되어 있지 않다는 것을 의미
저장 데이터: 자기디스크나 자기테이프 등과 같이 컴퓨터가 접근할 수 있는 저장매체에 저장되는 것을 의미
공용 데이터: 여러 사용자에게 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용되는 것을 의미
변화되는 데이터: 새로운 데이터의 추가, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 한다는 것을 의미
5. 다음 중 빅데이터 활용을 위한 3요소에 대한 내용으로 틀린 것은?
1) 데이터 : 모든것의 데이터화
2) 기술 : 진화하는 알고리즘, 인공지능
3) 인력 : 데이터 사이언티스트, 알고리즈미스트
4) 프로세스 : 이전과는 다른 데이터 관리를 위한 작업 절차
▶ 빅데이터 활용을 위한 요소: 데이터, 기술, 인력
프로세스는 데이터 거버넌스 구성 요소 중 하나 (원칙, 조직, 프로세스)
6. 다음 중 빅데이터로 인한 본질적인 변화로 옳지 않은 것은?
가. 이미 가치가 있을 것이라고 정해진 특정한 정보만 모아서 처리하던 것에서 가능한 많은 데이터를 모으고 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
나. 일부 데이터의 샘플링을 통한 표본조사를 수행하는 환경으로 변화되었다.
다. 질보다 양의 관점을 갖는다.
라. 인과관계에 의한 미래 예측이 데이터 기반의 상관관계 분석을 점점 더 압도하는 추세이다.
1) 가, 나
2) 나, 라
3) 가, 다
4) 다, 라
▶
[빅데이터의 본질적 변화]
사전처리 → 사후처리
표본조사 → 전수조사
질 → 양
인과관계 → 상관관계
7. 빅데이터의 위기요인이 아닌 것은?
1) 익명화
2) 사생활 침해
3) 데이터 오용
4) 책임원칙의 훼손
[빅데이터의 위기요인]
- 사생활 침해: 목적 외로 활용된 개인정보가 포함된 데이터의 경우 사생활 침해를 넘어 사회-경제적 위협으로 확대
- 책임 원칙 훼손: 예측 기술과 빅데이터 분석 기술이 발전하면서 분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성 증가
- 데이터 오용: 데이터 분석은 실제 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 언제나 맞을 수는 없는 오류 존재 / 잘못된 지표 사용
[위기요인 통제 방안]
통제 방안 | 위기 요인 | 설명 |
책임의 강조 | 사생활 침해 | - 빅데이터를 통한 개인정보 침해 문제 해결을 위해 개인정보를 사용하는 사용자의 '책임'을 통해 해결하는 방안 강구 - 사용자에게 개인정보의 유출 및 동의 없는 사용으로 발생하는 피해에 대한 책임을 지게 함으로써 사용 주체가 적극적인 보호 장치를 마련할 수 있도록 함 |
결과 기반의 책임 적용 | 책임 원칙 훼손 | - 책임의 강조를 위해서는 기존의 원칙 보강 및 강화와 예측 자료에 의한 불이익 가능성을 최소화하는 장치를 마련하는 것이 필요 - 판단을 근거로 오류가 있는 예측 알고리즘을 통해서는 불이익을 줄 수 없으며, 방지를 위한 피해 최소화 장치 마련 필요 |
알고리즘에 대한 접근 허용 |
데이터 오용 | - 예측 알고리즘의 부당함을 반증할 수 있는 '알고리즘에 대한 접근권' 제공 - 알고리즘을 통해 불이익을 당한 사람들을 대변할 알고리즈미스트라는 전문가 필요 |
※ 알고리즈미스트 (Algorithmist)
알고리즘코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람을 구제하고, 데이터 사이언티스트가 한 일로 인한 부당 피해를 막는 역할을 하는 전문 인력
8. 데이터 사이언티스트가 가져야 할 역량 중 종류가 다른 하나는?
1) 다분야간 협력
2) 통찰력 있는 분석
3) 설득력 있는 전달
4) 빅데이터에 대한 이론적 지식
▶ 1, 2, 3) 소프트스킬
4) 하드스킬
[데이터 사이언티스트의 요구 역량]
소프트 스킬 (Soft Skill) | 모든 직무에서 사용할 수 있는 기술 | - 커뮤니케이션 능력 - 논리적 비판 능력, 창의적 사고력, 호기심 - 스토리텔링 능력, 시각화 능력 |
하드 스킬 (Hard Skill) | 해당 업무를 수행하기 위해 필요한 실질적인 기술 | - 목적에 맞는 최적 분석 설계, 노하우 축적 - 빅데이터 관련 기법 및 다양한 방법론 습득 |
9. 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화 시키기 위한 솔루션은 무엇인가? (주관식)
SCM(Supply Chain Management, 공급사슬관리)
10. 데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 계층구조로 설명하는 것은 무엇인가? (객관식)
DIKW
데이터(Data) | 존재형식을 불문하고 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호 |
정보(Information) | 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 |
지식(Knowledge) | 상호 연결된 정보패턴을 이해하여 이를 토대로 예측한 결과물 |
지혜(Wisdom) | 근본원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 |
11. 데이터 분석 수준 진단 결과에서 분석 준비도와 분석 성숙도 둘 다 낮은 경우에 해당하는 것은?
1) 정착형
2) 확살형
3) 준비형
4) 도입형
▶
확산형: 준비도 높음 / 성숙도 높음
정착형: 준비도 낮음 / 성숙도 높음
도입형: 준비도 높음/ 성숙도 낮음
준비형; 준비도 낮음 / 성숙도 낮음
※ 준비도: 적용 조직 등
※ 성숙도: 기업에서 활용하는 분석 업무, 기법
12. 다음 중 비즈니스 모델 캔버스를 활용한 과제 발굴의 영역으로 틀린것은?
1) 혁신
2) 업무
3) 고객
4) 제품
▶ 비즈니스 모델 캔버스 5가지 영역; 업무, 제품, 고객, 지원 인프라, 규제 및 감사
13. 다음 분석과제의 우선순위 선정 관련 설명 중 틀린 것은?
1) 우선순위를 시급성에 둔다면 Ⅲ - Ⅳ - Ⅱ 순서로 진행한다.
2) 우선순위를 난이도에 둔다면 Ⅲ - Ⅰ - Ⅱ 순서로 진행한다.
3) 시급성과 난이도 둘 다 높은 것이 우선순위가 가장 높다.
4) 시급성의 판단기준은 전략적 중요도가 핵심이다.
▶ 시급성이 높고 난이도가 높은 영역은 경영진 또는 실무 담당자의 의사결정에 따라 적용 우선순위 조정할 수 있음
[분석과제 우선 순위 평가]
- 분석과제 우선순위 평가는 정의된 데이터 과제에 대한 실행순서를 정하는 방법
- 기준에 따라 평가한 후 과제의 선-후행 관계를 고려하여 적용 순위 확정
- 우선순위 평가 기준은 시급성과 난이도
구분 | 설명 |
시급성 | - 목표 가치와 전략적 중요도에 부합하는지에 따른 시급성이 가장 중요한 기준 - 시급성의 판단 기준은 전략적 중요도가 핵심사항 - 분석 과제의 목표 가치와 전략적 중요도를 현재의 관점에 둘 것인지, 미래의 관점에 둘 것인지를 함께 고려하여 시급성 여부 판단 필요 |
난이도 | - 현재 기업의 분석 수준과 데이터를 생성, 저장, 가공, 분석하는 비용을 고려한 난이도는 중요한 기준 - 난이도는 현 시점에서 과제를 추진하는 것이 범위 측면과 적용 비용 측면에서 바로 적용하기 쉬운 것인지 또는 어려운 것인지에 대한 판단 기준으로 데이터 분석의 적합성 여부의 기준이 됨 |
- 분석 과제의 적용 우선순위 기준을 '시급성'에 둘 경우: III → IV → II
- 우선 순위 기준을 '난이도'에 둘 경우: III → I → II
I.
전략적 중요도가 높아 경영에 미치는 영향이 크므로 현재 시급하게 추진 필요
난이도가 높아 현재 수준에서 과제를 바로 적용하기에 어려움
II. (전략적 중요도가 현재 시점에서는 상대적으로 낮은 편이지만 중장기적으로는 경영에 미치는 영향도가 높고, 분석 과제를 바로 적용하기 어려워 우선순위가 낮은 영역)
현재 시점에서는 전략적 중요도가 높지 않지만 중장기적 관점에서는 반드시 추진되어야 함
분석과제를 바로 적용하기에는 난이도가 높음
III. (가장 우선적인 과제 적용이 필요한 영역)
전략적 중요도가 높아 현재 시점에 전략적 가치를 두고 있음
과제 추진의 난이도가 어렵지 않아 우선적으로 바로 적용 가능할 필요성이 있음
IV.
전략적 중요도가 높지 않아 중장기적 관점에 과제 추진이 바람직함
과제를 바로 적용하는 것은 어렵지 않음
14. 다음 분석 성숙도 관련 내용으로 옳지 않은 것은?
1) 유사 업종, 경쟁업체와의 비교 분석을 포함한다.
2) 성숙도 수준에 따라 도입, 활용, 확산, 최적화 단계로 구분해 살펴 볼 수 있다.
3) 시스템 개발 업무능력과 조직의 성숙도 파악을 위해 CMMI 모델을 활용하여 분석 성숙도를 평가한다.
4) 데이터 분석 수준 진단은 분석 준비도와 분석 성숙도를 함께 평가함으로써 수행될 수 있다.
▶ 분석 성숙도
- 분석 성숙도 수준 진단은 주로 기업 내부의 데이터 분석 능력과 프로세스에 대한 평가를 다룬다.
- 시스템 개발 업무능력과 조직의 성숙도 파악을 위해 CMMI 모델을 활용하여 분석 성숙도를 평가한다.
- 비즈니스 부문, 조직/역량 부문, IT부문을 대상으로 성숙도 수준에 따라 도입, 활용, 확산, 최적화 단계로 구분해 살펴 볼 수 있다.
- 데이터 분석 수준 진단은 분석 준비도와 분석 성숙도를 함께 평가함으로써 수행될 수 있다.
15. 분석 마스터플랜 수립 시 적용 범위/방식의 고려요소가 아닌 것은?
1) 업무 내재화 적용 수준
2) 분석 데이터 적용 수준
3) 기술 적용 수준
4) 실행 용이성
구분 | 기준 | 설명 | 결과 |
우선 순위 고려 요소 |
전략적 중요도 및 목표 가치 | 전략적 필요성과 시급성을 고려 | 적용 우선 순위 설정 |
비즈니스 성과 및 ROI | 비즈니스 성과에 따른 투자 여부 판단 | ||
실행 용이성 | 프로젝트 추진 가능 여부 | ||
적용 범위/방식 고려 요소 |
업무 내재화 적용 수준 | 업무에 내재화하거나 별도의 분석화면으로 적용할 것인지 결정 | 분석 구현을 위한 로드맵 수립 |
분석 데이터 적용 수준 | 내부 데이터/외부 데이터 범위 결정 | ||
기술 적용 수준 | 분석 기술의 범위 및 방식 고려 |
16. 데이터 분석을 위한 분석 업무 조직 구조에 대한 설명으로 옳지 않은 것은?
1) 집중형 조직 구조는 일부 협업 부서와 분석 업무가 중복 또는 이원화될 가능성이 있다.
2) 기능 중심 조직 구조는 전사적 관점에서 핵심 분석이 어렵다.
3) 분산 조직 구조는 분석 결과 실무 적용에 대한 대응이 느리다.
4) 분석 조직의 인력들이 협업부서에 배치되어 업무를 수행하는 것은 분산 조직 구조이다.
[분산 조직 구조]
- 분석 조직의 인력들이 협업부서에 배치 되어 업무를 수행함
- 전사 차원에서 분석 과제의 우선순위를 선정해 수행, 분석 결과를 신속하게 실무 적용 가능
- 부서 분석 업무와 역할 분담을 명확히 해야 함
17. 분석 활용 시나리오에 대한 설명으로 틀린 것은?
1) 데이터 확보가 가장 중요하다.
2) 데이터 분석을 특정 목적에 맞게 활용하는 방법 또는 계획을 의미한다.
3) 분석 목표와 분석 방법을 설명하고 예상 결과를 제시하는 문서이다.
4) 프로젝트 진행 중에도 변경될 수 있다.
[분석 활용 시나리오]
- 분석 활용 시나리오에서 가장 중요한 것은 데이터 확보보다 목표와 목적이다.
- 목표와 목적을 명확하게 이해하고 정의하는 것은 분석 프로젝트의 핵심 요소 중 하나이다.
- 목표와 목적을 정의하지 않으면 데이터 확보 , 분석 , 및 결과에 대한 계획을 수립하기 어려울 수 있다.
- 데이터는 목표를 달성하고 목적을 실현하기 위한 도구로 사용된다.
18. 분석 기획 시 고려해야 할 것으로 적절하지 않은 것은?
1) 데이터 확보가 될 수 있는지, 데이터 유형에 대한 분석이 필요하다.
2) 비용보다 분석력에 최우선 해야 한다.
3) 기존에 잘 구현되어 활용되고 있는 유사 시나리오 및 솔루션을 최대한 활용한다.
4) 장애요소에 대한 사전 계획 수립이 고려 되어야 한다.
[분석 기획 시 고려 사항]
- 가용한 데이터 : 데이터의 유형 분석이 선행적으로 이루어져야 함
- 적절한 유즈케이스 탐색 : 유사분석 시나리오 솔루션이 있다면 이것을 최대한 활용
- 장애요소들에 대한 사전 계획 수립 필요
※ 일반적으로 비용과 분석력은 상호 보완적인 요소로 고려되며, 적절한 균형을 유지해야 함.
19. 아래 설명의 답을 작성하시오. (주관식)
[설명]
데이터 분석 준비도 프레임워크 에서 운영 시스템 데이터 통합, EAI,ETL 등 데이터 유통체계, 분석 전용 서버 및 스토리지, 빅데이터 분석 환경,비주얼 분석 환경 등과 관련된 항목은 무엇인가?
분석 인프라
[데이터 분석 준비도 프레임워크]
20. 아래 설명을 읽고 빈칸 ( ? ) 을 작성하시오.(주관식)
[설명]
기존의 논리적인 단계별 접근법에 기반한 문제해결 방식은 최근 복잡하고 다양한 환경에서 발생하는 문제에 적합하지 않을 수 있다. 이를 해결하기 위해 ( ? )접근법을 통해 전통적인 분석적 사고를 극복하려고 한다. 이 접근법은 상향식 방식의 발산단계와 도출된 옵션을 분석하고 검증하는하향식 접근 방식의 수렴단계를 반복하여 과제를 발굴한다.
디자인사고(디자인씽킹)
▶ 디자인사고: 인간에 대한 관찰과 공감을 바탕으로 다양한 대안을 찾는 확산적 사고와 주어진 상황에 대한 최선의 방법을 찾는 수렴적 사고의 반복을 통해 발굴하는 상향적 접근법이다.
상향식 접근 방식 | - 객관적인 데이터 그 자체를 관찰하고 실제적으로 행동에 옮겨 대상을 이해하는 방식 - 프로토타이핑, 디자인 사고 접근법 사용 - 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선 |
하향식 접근 방식 | - 분석 과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석 과제 발굴 |
21. 수면유도제 데이터를 통한 t-test 결과이다. 다음 중 결과 해석이 적절하지 않은 것은?
> t.test(extra~group, data=sleep, var.equal=TRUE) Two Sample t-test data: extra by group t = -1.8608, df = 18, p-value = 0.07919 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -3.363874 0.203874 sample estimates: mean in group 1 mean in group 2 0.75 2.33 |
1) 수면유도제 2가 수면유도제 1보다 효과적이다.
2) 유의수준 0.05이하에서 두 집단의 평균이 동일하다는 귀무가설을 채택할 수 있다.
3) 두 개의 표본집단이 크기가 클 경우(N>30) 집단의 정규성 검정없이 이 표본 t검정을 사용할 수 있다.
4) 독립표본 t 검정 분석 전에 등분산 검정을 실시한다.
▶ 두 집단 평균이 동일하다라는 귀무가설을 채택할 수 있으므로 , 수면유도제 2가 더 효과적이라 할 수 없다.
> t.test(extra~group, data=sleep, var.equal=TRUE) Two Sample t-test ▶ 2표본 t-검정: 이는 검정이 두 그룹의 평균을 비교하여 두 그룹이 크게 다른지 평가할 가능성이 있음을 나타냄 data: extra by group ▶ 데이터: 그룹별 추가: 그룹별로 분석된 '추가' 변수를 보여주며, '추가' 변수가 다른 그룹 간에 비교되고 있음을 나타냄. t = -1.8608, df = 18, p-value = 0.07919 ▶ t-값 및 자유도(df): t-값(-1.8608)은 그룹 내 변동을 기준으로 두 그룹의 평균 차이를 측정. 자유도(18)는 데이터의 독립적인 관측치 수를 나타냄. alternative hypothesis: true difference in means is not equal to 0 ▶ p-값: p-값(0.07919)은 귀무가설(그룹 평균 간 차이 없음)이 참인 경우 주어진 t-값을 관찰할 확률을 나타냄. 특정 임계값(종종 0.05)보다 낮은 p-값은 관찰된 차이가 통계적으로 유의하다는 것을 나타냄. 95 percent confidence interval: ▶ 95% 신뢰 구간: 이 구간(-3.363874 ~ 0.203874)은 평균의 실제 차이가 있다고 95% 확신할 수 있는 값 범위를 제공. -3.363874 0.203874 sample estimates: ▶ 샘플 추정치: 이는 각각 그룹 1(0.75)과 그룹 2(2.33)의 '추가' 평균. mean in group 1 mean in group 2 0.75 2.33 |
가설 종류 | 설명 |
귀무가설 | 현재까지 주장되어 온 것이나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설 |
대립가설 | 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설 (연구가설) |
[가설검정]
- 모집단에 대한 통계적 가설을 세우고 표본을 추출한 다음, 그 표본을 통해 얻은 통계적 가설의 진위를 판단하는 과정
- 표본을 활용하여 모집단에 대입해보았을 때 새롭게 제시된 대립가설이 옳다고 판단할 수 있는지를 평가하는 과정
- p-값과 유의수준을 비교하여 귀무가설 혹은 대립가설을 채택
★ 유의확률( p-값)
- 귀무가설이 참이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률
- p-값 > 유의수준 : 귀무가설 채택 / p-값 < 유의수준: 귀무가설 기각
- 유의수준(α): 제1종 오류를 범할 최대 확률
- 신뢰수준(1-α): 귀무가설이 참일 때 이를 참이라고 판단하는 확률
- 베타수준(β): 제2종 오류를 범할 최대 확률
- 검정력(1- β): 귀무가설이 참이 아닌 경우 이를 기각할 수 있는 확률
- 기각역: 귀무가설을 기각시키는 검정통계량의 범위
- 제1종오류: 귀무가설이 참인데 잘못하여 이를 기각하게 되는 오류
- 제2종오류: 귀무가설이 거짓인데 잘못하여 이를 채택하게 되는 오류
22. 다음 중 분류 모형 평가에 사용되는 도구가 아닌 것은?
1) ROC 그래프
2) 덴드로그램
3) 향상도 곡선
4) 이익도표
[각 모형별 평가도구]
회귀모형 평가도구 : MAE, MAPE, MSE, RMSE, MLSE, RMSLE, 결정계수 등
분류모형 평가도구 : 오분류표 (혼동행렬 ), ROC 그래프 , 향상도 곡선 , 이익도표 , Kappa 등
군집모형 평가도구 : 실루엣 계수 (Silhouette Coefficient), Dunn Index 등
<분석 모형 평가>
1. 평가지표
(1) 분석 모형 설정 및 평가 기준/방법
- 이상적인 모형에서는 낮은 편향과 낮은 분산으로 설정되어야 함
편향 (Bias) | 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차 |
분산 (Variance) | 훈련 데이터에 내재된 작은 변동으로 발생하는 오차 |
- 구축한 빅데이터 분석 모형의 유용성을 판단하고 서로 다른 모형들 비교하여 평가하는 과정 중요
- 구축 한 분석 모형이 실무에서 사용이 가능할 수 있을지를 판단하기 위해서는 객관적인 평가지표를 통한 평가 필요
- 빅데이터 분석 모형은 만든 것으로 끝이 아니라 기존 운영 시스템과의 연계 및 통합을 통해서 지속적으로 빅데이터 분석 모형을 개선해 나가야 함
- 구축된 모형이 임의의 모형보다 더 우수한 분류 성과를 보이는지, 고려된 모형들 중 어느 것이 가장 우수한지 등을 분석하는 과정
- 일반화의 가능성: 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준. 모집단 내의 다른 데이터에 적용해도 안정적인 결과를 제공하는지를 평가
- 효율성: 적은 입력변수가 필요할수록 효율성이 높은 분석 모형으로 평가
- 예측과 분류의 정확성
[평가 방법]
- 범주형: 혼동 행렬
- 연속형: RMSE (Root Mean Squared Error; 평균 제곱근 오차)
- 분류 모형은 혼동 행렬 평가지표 사용
(2) 회귀 모형의 평가지표
1) 회귀 모형의 기본 평가지표
평가지표 | 설명 |
SSE | - 오차 제곱합(Error Sum of Square) - 예측값과 실젯값의 차이(오차) 제곱의 합 |
SST | - 전체 제곱합(Total Sum of Squares) - TSS - 실젯값과 평균값의 차이 제곱의 합 |
SSR | - 회귀 제곱합 (Regression Sum of Squares) - 예측값과 평균값의 차이 제곱의 합 |
AE | - 평균 오차 (Average Error) - 예측한 결괏값의 오류 평균 - 예측값들이 평균적으로 미달하는지 초과하는지 확인 |
MAE | - 평균 절대 오차 (Mean Absolute Error) - 평균 오차 절댓값의 평균 |
MSE | - 평균 제곱 오차 (Mean Squared Error) - SSE의 평균 |
RMSE | - 평균 제곱근 오차 (Root Mean Squared Error) - SSE 평균의 제곱근 |
MPE | - 평균백분율 오차 (Mean Percentage Error) - 예측값들이 평균적으로 미달하는지 초과하는지에 대한 백분율 |
MAPE | - 평균 절대 백분율 오차 (Mean Absolute Percentage Error) - 예측이 실젯값에서 평균적으로 벗어나는 정도를 백분율로 표현 - 절대 평균 오차(MASE)를 계산할 때 실젯값에 대한 상대적인 비율을 고려하여 계산된 값 |
2) 회귀 모형의 결정계수와 Mallow's Cp에 대한 평가지표
평가지표 | 설명 |
결정 계수 | - Coefficient of Determination - 선형 회귀 분석의 성능 검증지표로 많이 이용 - 회귀 모형이 실젯값을 얼마나 잘 나타내는지에 대한 비율 - 결정계수가 1에 가까울수록 실젯값을 잘 설명 - 독립변수의 개수가 많은 모형의 평가에는 사용 부적합 |
수정된 결정계수 | - Adjusted Coefficient of Determination - 모형에 유의하지 않은 변수의 개수가 증가하면 결정 계수도 증가하는 단점 보완 - 적절하지 않은 독립변수를 추가하는 것에 패널티를 부과한 결정계수 - 적절하지 않은 변수들을 추가할수록 수정된 결정계수의 값은 감소 - 모형에 유용한 변수들을 추가할수록 수정된 결정계수의 값 증가 - 수정된 결정계수는 결정계수보다 항상 작음 - 독립변수의 개수가 많은 모형을 평가할 때 사용 가능 |
Mallow's Cp | - 수정된 결정계수와 마찬가지로 적절하지 않은 독립변수 추가에 대한 패널티를 부과한 통계량 - Mallow's Cp가 작을수록 실젯값을 잘 설명 |
(3) 분류 모형의 평가지표
- 분류 모형의 결과를 평가하기 위해서 혼동 행렬을 이용한 평가지표와 ROC 곡선의 AUC 많이 사용
- 모형의 평가지표가 우연히 나온 결과가 아니라는 것을 Kappa 통계량을 통하여 설명 가능
- 혼동행렬 (Confusion Matrix; 정오 행렬): 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표 형태로 정리한 행렬 (평가지표: 정확도, 오차 비율, 민감도, 특이도, 거짓 긍정률, 정밀도)
- ROC 곡선: 가로축(x)을 혼동 행렬의 거짓 긍정률로 두고 세로축(y)을 참 긍정률로 두어 시각화한 그래프 (그래프가 왼쪽 꼭대기에 가깝게 그려질수록 분류 성능 우수)
- 이익: 이익은 목표 범주에 속하는 개체들이 임의로 나눈 등급별로 얼마나 분포하고 있는지를 나타내는 값
- 이익도표: 계산된 이익값을 누적으로 연결한 도표 (분류 모형의 성능을 평가하기 위해서 사용되는 그래프 분석 방법)
- 향상도 곡선: 랜덤 모델과 비교했을 때, 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프
23. 증거가 확실할 때 가설검정으로 증명하고자 하는 것은?
1) 귀무가설
2) 영가설
3) 대립가설
4) 기각가설
가설 종류 | 설명 |
귀무가설 | 현재까지 주장되어 온 것이나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설 |
대립가설 | 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설 (연구가설) |
24. 다음 중 성격이 다른 한가지는 무엇인가?
1) K-means
2) Single Linkage Method
3) DBSCAN
4) 주성분 분석
[군집 분석]
- 계층적 군집 분석 : 최소연결법 , 최장연결법 , 중심연결법 , 평균연결법 , 와드연결법
- 비계층적 군집 분석 : K-means, DBSCAN, Single Linkage Method (최단연결법)
- 비지도 신경망 : SOM
- 차원 축소 : 주성분 분석 , 다차원 척도법 , 요인 분석 등
군집 분석
- 관측된 여러 개의 변숫값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 집단의 특성을 분석하는 다변량 분석 기법
- 목적은 레이블이 없는 데이터 세트의 요약 정보를 추출하고, 요약 정보를 통해 전체 데이터 세트가 가지고 있는 특징을 발견하는 것
(1) 가정
- 군집 내에 속한 개체들의 특성은 동질적이고 서로 다른 군집에 속한 개체들 간의 특성은 이질적
- 군집 내의 응집도는 최대화하고 군집 간의 분리도는 최대화
- 군집의 개수 또는 구조와 관계없이 개체 간 거리를 기준으로 분류
- 개별 군집의 특성은 군집에 속한 개체들의 평균값으로 나타냄
(2) 분류와 군집 비교
- 분류: 데이터에 분류 변수가 포함된 지도 학습 방법
- 군집: 데이터에 분류의 기준이 없는 비지도 학습 방법
(3) 유형
- 계층적 군집: 군집의 개수를 미리 정하지 않고 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성(계층 기반, 비계층 기반)
- 비계층적 군집: 미리 군집의 개수 지정 (분할 기반, 분포 기반, 밀도 기반, 그래프 기반 등)
(4) 군집 간의 거리 계산
- 거리는 값이 작을수록 관측치가 유사함을 의미
1) 연속형 변수 거리
[수학적 거리]
- 유클리드 거리: 두 점 간 차를 제곱하여 모두 더한 값의 양의 제곱근
- 맨하탄 거리: 두 점 간 차의 절댓값을 합한 값 (시가 거리)
- 민코프스키 거리: m 차원 민코프스키 공간에서의 거리 (m=1 일 때 맨하탄 거리와 같음 / m = 2일 때 유킬드 거리와 같음)
[통계적 거리]
- 표준화 거리: 변수의 측정단위를 표준화한 거리
- 마할라노비스 거리: 변수의 표준화와 함께 변수 간의 상관성을 동시에 고려한 통계적 거리
2) 명목형 변수 거리
- 단순 일치 계수: 전체 속성 중에서 일치하는 속성의 비율
- 자카드 계수: 두 집합 사이의 유사도를 측정하는 방법 (0과 1의 값. 두 집합이 동일하면 1의 값, 공통 원소가 하나도 없으면 0의 값)
- 코사인 유사도: 두 개체 간의 거리 측도 중에서 두 벡터 사이의 각도를 이용하여 개체 간의 유사도를 측정하는 측도 (두 벡터의 내적을 구한 뒤 두 벡터의 크기를 각각 구해서 서로 곱한 것으로 나눔)
3) 순서형 변수 거리 : 순위 상관계수를 이용하여 거리 측정
- 순위 상관계수: 값에 순위를 매겨 그 순위에 대해 상관계수를 구하는 방법
(6) 계층적 군집 분석
- 유사한 개체를 군집화하는 과정을 반복하여 군집을 형성하는 방법
병합적 방법 | 작은 군집으로부터 시작하여 군집을 병합하는 방법 (거리가 가까우면 유사성 높음) |
분할적 방법 | 큰 군집으로부터 출발하여 군집을 분리해 나가는 방법 |
[계통도]
- 군집의 결과는 계통도 또는 덴드로그램의 형태로 결과가 주어지며 각 개체는 하나의 군집에만 속함
- 항목 간의 거리, 군집 간의 거리를 알 수 있고, 군집 내 항목 간 유사 정도를 파악함으로써 군집의 견고성 해석
[군집 간의 연결법]
- 개체 간의 유사성 (또는 거리)에 대한 다양한 정의 가능
- 최단연결법, 최장연결법, 평균 연결법, 중심연결법, 와드 연결법
- 군집 간의 연결법에 따라 군집의 결과가 달라질 수 있음
(7) 비계층적 군집 분석 (분할기반 군집: k-평균 군집 알고리즘)
- 주어진 데이터를 k개의 군집으로 묶는 알고리즘
- k개 만큼 군집수를 초깃값으로 지정하고, 각 개체를 가까운 초깃값에 할당하여 군집을 형성하고 각 군집의 평균을 재계산하여 초깃값을 갱신하는 과정을 반복하여 k개의 최종군집을 형성하는 방법
- 이상값에 민감하게 반응 (k-중앙값 군집을 사용하거나 이상값을 미리 제거 함으로 보완)
※ k-중앙값 군집: 군집을 형성하는 단계마다 평균값 대신 중앙값을 사용하여 군집 형성
[절차]
- k개 객체 선택: 초기 군집 중심으로 k개의 객체를 임의로 선택
- 할당: 자료를 가장 가까운 군집 중심에 할당
- 중심 갱신: 각 군집 내의 자료들이 평균을 계산하여 군집의 중심 갱신
- 반복: 군집 중심의 변화가 거의 없을 때까지 단계 2와 단계 3 반복
[기법]
- 엘보우 기법: x 축에 클러스터의 개수(k값)를 y축에 SSE 값을 두었을 때 기울기가 완만한 부분에 해당하는 클러스터를 선택하는 기법
- 실루엣 기법: 각 군집 간의 거리가 얼마나 분리되어 있는지를 나타내는 기법
- 덴드로그램: 계층적 군집 분석의 덴드로그램 시각화를 이용하여 군집의 개수 결정
(8) 비계층적 군집 분석 (분포 기반 군집: 혼합 분포 군집)
1) 혼합 분포 군집
- 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에 자료로부터 모수와 가중치를 추정하는 방법
- k개의 각 모형은 군집을 의미, 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분류 이루어짐
- 혼합 모형의 모수를 추정하는 경우 단일 모형과는 달리 표현식이 복잡하여 미분을 통한 이론적 전개가 어렵기 때문에 최대가능도 추정을 위해 EM 알고리즘 등 이용
- 확률 분포를 도입하여 군집 수행
- 군집을 몇 개의 모수로 표현할 수 있고, 서로 다른 크기의 군집 찾을 수 있음
- EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸릴 수 있음
- 군집의 크기가 너무 작으면 추정의 정도가 떨어지거나 어려울 수 있음
- 이상값에 민감하므로 이상값 제거 등의 사전 조치 필요
2) 가우시안 혼합 모델
- 전체 데이터의 확률 분포가 k개의 가우시안 분포의 선형 결합으로 이뤄졌음을 가정하고 각 분포에 속할 확률이 높은 데이터 간의 군집을 형성하는 방법
- 데이터들이 k개의 가우시안 분포 중에서 어디에 속하는 것이 최적인지 추정하기 위해 EM 알고리즘 이용
3) EM 알고리즘
- 관측되지 않은 잠재변수에 의존하는 확률모델에서 최대 가능도나 최대 사후 확률을 갖는 모수의 추정값을 찾는 반복적인 알고리즘
- E-단계, M-단계로 진행
- E-단계: 잠재변수 Z의 기대치 계산
- M-단계: 잠재변수 Z의 기대치를 이용하여 매개변수 추정
- 반복을 수행하며 매개변수 추정값을 도출하며 이를 최대 가능도 추정치로 사용
(9) 비계층적 군집 분석(밀도 기반 군집: DBSCAN 알고리즘)
- 개체들의 밀도 계산을 기반으로 밀접하게 분포된 개체들끼리 그룹핑하는 알고리즘
- 클러스터의 개수를 미리 지정할 필요 없음
- 군집 밀도에 따라서 군집을 서로 연결하기 때문에 기하학적인 모양의 군집 분석 가능
- 중심점: 주변 반경 내에 최소 데이터 개수 이상의 다른 데이터를 가지고 있는 데이터
- 이웃점: 특정 데이터 주변 반경 내에 존재하는 다른 데이터
- 경계점: 중심점은 아니지만, 중심점이 주변 반경 내에 존재하는 데이터
- 잡음점: 중심점도 아니고 경계점 조건도 만족하지 못하는 이웃점 (이상치)
[절차]
- 반경 내 최소 점 이상이 포함되도록 중심점 식별
- 모든 비 중심점을 무시하고 인접 그래프에서 중심점과 연결된 구성 요소 탐색
- 중심점 외에 속하면 노이즈로 할당
장점 | 단점 |
- k-평균 군집과 같이 클러스터의 수를 정하지 않아도 됨 - 클러스터의 밀도에 따라서 클러스터를 서로 연결하기 때문에 기하학적인 모양을 갖는 군집도로서 잘 찾을 수 있음 |
- 초매개변수를 결정하기 어려움 - 매개변수의 선택에 민감 - 클러스터들이 다양한 밀도를 가지거나, 차원이 크면 계산에 어려움 |
(10) 비계층적 군집 분석 (그래프 기반 군집: SOM 알고리즘)
SOM(Self-Organizing Maps, 자기 조직화 지도)
- 대뇌피질과 시각피질의 학습 과정을 기반으로 모델화한 인공신경망
- 자율 학습 방법에 의한 클러스터링 방법을 적용한 알고리즘
- 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한 비지도 신경망
- 형상화는 입력변수의 위치 관계를 그대로 보존
- 실제 공간의 입력변수가 가까이 있으면 지도상에는 가까운 위치에 있게 됨
- 입력층: 입력 벡터를 얻는 층 (입력변수의 개수와 동일하게 뉴런 수 존재)
- 경쟁층: 2차원 격자로 구성된 층 (입력 벡터의 특성에 따라 벡터의 한 점으로 클러스터링 되는 층)
- 단계: 초기화 → 입력 벡터 → 유사도 계산 → 프로토타입 벡터 탐색 → 강도 재조정 → 반복
- 군집 분석은 시장과 고객 차별화, 패턴 인식, 생물 연구, 공간데이터 분석, 웹 문서 분류 등에 활용
- 군집 분석은 세분화, 이상 탐지, 분리 등에 활용
25. 다음 중 스피어만 상관계수 관련 설명으로 틀린 것은?
1) 스피어만 상관계수는 비선형적인 관계를 나타낼 수 없다.
2) 대상자료는 서열척도를 사용한다.
3) 원시 데이터가 아니라 각 변수에 대해 순위는 매긴 값을 기반으로 한다.
4) 연속형 외에 이산형 데이터도 사용 가능한다.
▶스피어만 상관계수
- 대상자료는 서열척도 사용 , 두 변수 간의 비선형적인 관계를 나타낼 수 있음
- 연속형 외에 이산형도 가능함
- 스피어만 상관 계수는 원시 데이터가 아니라 각 변수에 대해 순위를 매긴 값을 기반으로 함
26. 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화 하는 알고리즘을 무엇이라고 하는가?
1) SOM
2) DBSCAN
3) PCA
4) EM-알고리즘
▶ 비계층적 군집 분석 (그래프 기반 군집: SOM 알고리즘)
SOM(Self-Organizing Maps, 자기 조직화 지도)
- 대뇌피질과 시각피질의 학습 과정을 기반으로 모델화한 인공신경망
- 자율 학습 방법에 의한 클러스터링 방법을 적용한 알고리즘
- 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한 비지도 신경망
- 형상화는 입력변수의 위치 관계를 그대로 보존
- 실제 공간의 입력변수가 가까이 있으면 지도상에는 가까운 위치에 있게 됨
- 입력층: 입력 벡터를 얻는 층 (입력변수의 개수와 동일하게 뉴런 수 존재)
- 경쟁층: 2차원 격자로 구성된 층 (입력 벡터의 특성에 따라 벡터의 한 점으로 클러스터링 되는 층)
- 단계: 초기화 → 입력 벡터 → 유사도 계산 → 프로토타입 벡터 탐색 → 강도 재조정 → 반복
27. 아래의 설명에 해당하는것을 고르시오.
[설명]
공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 변수를 찾는 방법으로, 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수를 만들고 분산을 극대화하는 변수로 축약하는 방법으로 새로운 변수들은 변수들의 선형결합으로 이루어져 있다.
1) 요인 분석
2) 회귀 분석
3) 주성분 분석
4) 다차원 척도
[주성분 분석 (PCA)]
- 여러 변수 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원 축소
- 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법
- 고윳값, 고유벡터를 통해 분석
- 주성분 분석의 목적 중 하나는 데이터를 이해하기 위한 차원 축소
- 제1주성분은 데이터의 변동을 최대로 설명해주는 방향에 대한 변수들의 선형 결합식 (데이터 분산이 가장 큰 방향에 대한 변수들의 선형 결합식)
- 변동이 큰 축을 기준으로 한 차원씩 선택
- 이산형 변수에 사용 가능
- 주성분 분석에서 누적 기여율이 70% ~ 90% 사이가 되는 주성분의 수로 결정
- 데이터간 높은 상관관계가 존재하는 상황에서 상관관계를 제거하여 분석의 용이성 증가
- 스크리 산점도의 기울기가 완만해지기 전까지 주성분의 수로 결정할 수 있다
- 차원 축소 시 변수 추출 방법 사용
- Eigen Decomposition, Singular Value Decompostion 을 이용한 행렬 분해 기법
- 수학적으로 직교 선형 변환으로 정의
- 차원 축소를 통해 원본 데이터 직관적으로 파악 어려움 (단점)
28. 다음 중 확률 및 확률분포에 관한 설명으로 틀린 것은?
1) (사건 A가 일어나는 경우의 수) / (일어날 수 있는 모든 경우의 수)를 P(A)라 할 때 이를 A의 수학적 확률이라 한다.
2) 한 사건 A가 일어날 확률을 P(A)라 할 때 N번의 반복시행에서 사건 A가 일어난 횟수를 R이라 하면, 상대도수 R/N은 N이 커짐에 따라 확률 P(A)에 가까워짐을 알 수 있다. P(A)를 사건 A의 통계적 확률이라 한다.
3) 두 사건 A,B가 독립일 때 사건 B의 확률은 A가 일어났다는 가정 하에서의 B의 조건부 확률과는 다르다.
4) 표본공간에서 임의의 사건 A가 일어날 확률 P(A)는 항상 0과 1사이에 있다.
▶ 조건부 확률: 어떤 사건이 일어난다는 조건에서 다른 사건이 일어날 확률
(두 개의 사건 A와 B에 대하여 사건 A가 일어난다는 선행조건 아래에 사건 B가 일어날 확률)
[확률분포]
(1) 확률 - 베이즈 정리 / 베이지안 네트워크
- 비슷한 현상이 반복해서 일어날 경우에 어떤 사건이 발생할 가능성을 0과 1 사이의 숫자로 표현하는 방법
- 교사건: 사건 A와 B에 동시에 속하는 기본 결과들의 모임
- 조건부 확률: 어떤 사건이 일어난다는 조건에서 다른 사건이 일어날 확률 (두 개의 사건 A와 B에 대하여 사건 A가 일어난다는 선행조건 아래에 사건 B가 일어날 확률)
- 전 확률의 정리: 나중에 주어지는 사건 A의 확률을 구할 때 그 사건의 원인을 여러 가지로 나누어서, 각 원인에 대한 조건부 확률 P와 그 원인이 되는 확률 P의 곱에 의한 가중합으로 구할 수 있다는 법칙
- 베이즈 정리: 어떤 사건에 대해 관측 전(사전확률) 원인에 대한 가능성과 관측 후 (사후확률)의 원인 가능성 사이의 관계를 설명하는 확률이론
- 베이지안 네트워크: 랜덤 변수의 집합과 방향성 비순환 그래프를 통하여 그 집합을 조건부 독립으로 표현하는 확률의 그래프 모형
(2) 확률분포 및 확률변수 - 확률변수(기댓값/분산) / 채비셰프 정리
- 확률분포는 확률변수가 특정한 값을 가질 확률을 나타내는 분포
- 확률분포는 확률변수의 종류에 따라 이산확률분포와 연속확률분포로 나뉨.
- 확률변수는 특정 확률로 발생하는 결과를 수치적 값으로 표현하는 변수
- 확률변수는 확률에 의해 그 값이 결정되는 변수
- 확률변수는 주로 대문자 X로 표시
[확률변수 - 기댓값]
- 기댓값은 확률변수의 값에 해당하는 확률을 곱하여 모두 더한 값
- 확률변수의 평균과 같으며, E(X)로 표시
- 해당 확률분포에서 평균적으로 기대할 수 있는 값이며, 해당 확률분포의 중심 위치를 설명해주는 값
[확률변수 - 분산]
- 확률변수의 산포도를 나타내는 값으로 V(X) 또는 Var(X)로 표시
[체비셰프 정리]
- 임의의 양수 k에 대하여 확률변수가 평균으로부터 k배의 표준 편차 범위 내에 있을 확률에 대한 예측값을 보수적으로 제공하는 정리
- 관측값들의 분포에 상관없이 성립하지만, 확률에 대한 하한값만을 제공
(3) 확률분포 종류 - 포아송분포, 베르누이분포, 이항분포, 초기하분포, 연속확률분포,
ㄱ. 이산확률분포
- 이산확률변수 X가 가지는 확률분포
- 확률변수 X가 0, 1, 2, 3, ..과 같이 하나씩 셀 수 있는 값을 취함
- 포아송분포: 이산형 확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포
- 베르누이분포: 특정 실험의 결과가 성공 또는 실패로 두 가지의 결과 중 하나를 얻는 확률분포
- 이항분포: n번 시행 중에 각 시행의 확률이 p일 때, k번 성공할 확률분포
- 초기하분포: 비복원추출에서 N개 중에 r개가 특정 그룹이고, n번 추출했을 때 특정 그룹에서 x개가 뽑힐 확률의 분포
[확률 질량 함수(PMF; Probability Mass Function)]
- 이산확률변수에서 특정 값에 대한 확률을 나타내는 함수
[누적 질량 함수(CMF; Cumulative Mass Function)]
- 이산확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수
[연속확률분포 (Continous Probability Distribution)
- 확률변수 X가 실수와 같이 연속적인 값을 취할 때는 이를 연속확률변수라 하고 이러한 연속확률변수 X가 가지는 확률분포
[확률밀도함수(PDF; Probability Density Function)]
- 연속확률변수의 분포를 나타내는 함수
[누적밀도함수(CDF; Cumulative Density Function)]
- 연속확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수
[최대우도법(Maximum Likehood Method)]
- 어떤 확률변수에서 표집한 값들을 토대로 그 확률변수의 모수를 구하는 방법
※ 관련 내용은 너무 길기 때문에, 하단 링크 참고
29. 다음은 TV광고수에 따른 Sales에 대한 산점도 이다. 이에 대한 설명으로 알맞지 않은 것은?
1) TV 광고가 증가할 수록 Sales도 증가하는 경향이 있다.
2) TV 광고와 Sales는 양의 상관관계를 가진다.
3) TV 광고가 증가할수록 Sales의 분산은 동일하다.
4) Sales를 설명하기 위해 TV광고를 독립변수로 하는 단순선형회귀모델은 적절하다.
▶ TV광고가 증가함에 따라 분산 (퍼짐 정도 )도 증가되는 것을 볼 수 있다.
[상관관계 분석]
(1) 개념
- 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법
(2) 변수 사이의 상관관계 종류
종류 | 설명 |
양(+)의 상관관계 | - 한 변수의 값이 증가할 때 다른 변수의 값도 증가하는 경향을 보이는 상관관계 - 강도에 따라 강한 양의 상관관계, 약한 양의 상관관계 |
음(-)의 상관관계 | - 한 변수의 값이 증가할 때 다른 변수의 값은 반대로 감소하는 경향을 보이는 상관관계 - 강도에 따라 강한 음의 상관관계, 약한 음의 상관관계 |
상관관계 없음 | - 한 변수의 값의 변화에 무관하게 다른 변수의 값이 변하는 상관관계 |
(3) 표현 방법
산점도를 이용한 표현 방법
- 변수 사이의 관계를 산점도 그래프를 통하여 표현하는 방법
- 산점도는 직교 좌표계를 이용해 두 개 변수 간의 관계를 나타내는 방법
- 관계 시각화 기법에 해당
30. Hitters dataset의 일부이다. 다음 설명 중 적절하지 않은 것은?
1) Salary 변수 분포는 왼쪽꼬리가 긴 분포를 가진다.
2) NewLeague 변수는 범주형 자료이다.
3) Hits 변수에는 결측값이 없음을 알 수 있다.
4) HmRun 변수의 최대값은 40이다.
▶ Salary의 경우 Median(중위값) < Mean(평균) 이므로 오른쪽으로 꼬리가 긴 분포이다.
왜도 > 0 일 때 (오른쪽으로 꼬리가 길 때), 평균 > 중위값 > 최빈수
왜도 < 0 일 때 (왼쪽으로 꼬리가 길 때), 평균 < 중위값 < 최빈수
왜도 = 0 일 때 (좌우대칭 일 때), 평균 = 중위값 = 최빈수
31. 모집단의 크기가 비교적 작을 때 주로 사용되며 한번 추출된 표본이 재추출될 수 있는 표본 추출 방법은 무엇인가?
1) 복원추출법
2) 층화추출법
3) 군집추출법
4) 계층추출법
▶
복원추출법: 추출되었던 데이터를 다시 표본집단에 포함시켜 다시 추출될 수 있는 방법의 추출법으로 Bootstrap 이 대표적인 복원추출법이다.
층화추출법: 모집단을 여러 계층으로 나누고, 계층별로 무작위 추출 수행 (층내 - 동질적/ 층간 - 이질적)
군집추출법: 모집단을 여러 군집으로 나누고, 일부 군집의 전체 추출(집단 내부 - 이질적 / 집단간 - 동질적)
계층추출법: 모집단을 몇 개의 계층으로 나누고 각 계층에서 상호 독립적으로 표본을 임의 추출하는 방법.
32. 다음은 닭 사료의 종류(feed)와 닭의 성장에 대한 boxplot결과 이다. 옳지 않은 것은?
1) 이상치가 존재하지 않는 것을 알 수 있다.
2) casein의 경우 horsebean 보다 중위수가 크다.
3) soybean의 경우 meatmeal 보다 최소값은 크고, 최대값이 작다.
4) horsebean 사료를 먹은 닭의 무게가 가장 작은 쪽에 분포해 있다.
▶ sunflower 에 이상치 존재
박스 플룻은 데이터의 분포를 상자의 형태로 표현하게 되어 있고, 이상치(Outlier)는 이 분포에서 벗어난 점으로 표현
33. 자료의 척도에 대한 설명으로 부적절한 것은?
1) 명목척도 : 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 사용된다.
2) 서열척도 : 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없다.
3) 등간척도 : 사칙연산이 가능하다.
4) 비율척도 : 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도이다.
명목척도 | - 단순히 측정대상의 특성을 분류하거나 확인하기 위한 목적 - 숫자로 바꾸어도 그 값이 크고 작음을 나타내지 않고 범주를 표시 |
서열척도 | - 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없음 - 항목들 간에 서열이나 순위가 존재 |
등간척도 | - 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교 가능 - 절대 0점이 존재하지 않음 |
비율척도 | - 절대 0점이 존재하여 측정값 사이의 비율 계산 가능 |
질적자료/이산형자료 | 명목척도, 서열척도 |
양적자료/연속형자료 | 구간척도, 비율척도 |
34. 다음 연관 분석에 대한 설명 중 잘못된 것은?
1) 비목적성 분석 기법으로 계산이 간편하다.
2) 대표적인 알고리즘으로 Apriori가 있다.
3) 조건 반응으로 표현되는 연관분석의 결과를 이해하기 쉽다.
4) 품목 수가 증가해도 분석에 필요한 계산이 늘어나지 않는다.
▶ 연관성 규칙은 항목이 많아질수록 기하급수적으로 늘어남
연관성 분석 (장바구니 분석, 서열 분석)
(1) 연관성 분석
- 데이터 내부에 존재하는 항목 간의 상호 관계 혹은 종속 관계를 찾아내는 분석 기법
- 데이터 간의 관계에서 조건과 반응을 연결하는 분석
- 목적 변수가 없어 분석 방향이나 목적이 없어도 적용 가능
- 조건 반응(if-then)으로 표현되어 결과를 쉽게 이해
- 매우 간단하게 분석을 위한 계산 가능
- 적절한 세분화로 인한 품목 결정 (너무 세분화된 품목은 의미 없는 결과 도출)
- 교파 판매, 묵음 판매, 상품 진열, 거래 후 쿠폰 제공, 온라인 쇼핑의 상품 추천 등에 활용
- 측징 지표: 지지도, 신뢰도, 향상도
지지도 | 전체 거래 중 항목 A와 B를 동시에 포함하는 거래의 비율 |
신뢰도 | A 상품을 샀을 때 B 상품을 살 조건부 확률에 대한 척도 |
향상도 | 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관성의 정도를 측정하는 척도 - 향상도 =1: 서로 독립적 관계 - 향상도 > 1 양(+)의 상관관계 - 향상도 < 1 음(-)의 상관관계 |
(2) 연관성 분석 알고리즘
1) 아프리오리 알고리즘
- 가능한 모든 경우의 수를 탐색하는 방식을 개선하기 위하여 데이터들의 발생빈도가 높은 것(빈발항목)을 찾는 알고리즘
- 분석 대상이 되는 항목의 대상을 최소화하여 연관성 도출을 효율화한 연관분석 알고리즘
- 최소 지지도보다 큰 지지도 값을 갖는 빈발항목 집합에 대해서만 연관규칙을 계산하는 알고리즘
- 연관성 규칙은 항목이 많아질수록 기하급수적으로 늘어나기 때문에 아프리오리 알고리즘을 통해 줄여줄 수 있음
- 한 항목이 자주 발생하지 않는다면 이 항목을 포함하는 집합들도 자주 발생하지 않는다는 규칙을 적용하여 항목 줄여줌
- 최소 지지도 경곗값을 정하고, Database에서 후보항목 집합 생성 > 후보 항목 집합에서 최소 지지도 경곗값을 넘는 빈발항목 집합을 찾아냄
- 규칙1: 한 항목 집합이 빈발하면, 이 항목 집합의 모든 부분집합은 빈발항목 집합
- 규칙2: 한 항목 집합이 빈발하지 않다면, 이 항목 집합을 포함하는 모든 집합은 비 빈발항목 집합
2) FP-Growth 알고리즘
- 아프리오리 알고리즘을 개선한 알고리즘
- FP-Tree 라는 구조를 통해 최소 지지도를 만족하는 빈발 아이템 집합 추출
- 데이터 세트가 큰 경우 모든 후보 아이템 세트들에 대하여 반복적으로 계산하는 단점이 있는 아프리오리 알고리즘 개선
[계산 방법]
- 1단계: 모든 거래를 확인해 각 아이템마다 지지도를 계산하고 최소 지지도 이상의 아이템만 선택
- 2단계: 모든 거래에서 빈도가 높은 아이템 순서대로 순서 정렬
- 3단계: 부모 노드를 중심으로 거래를 자식 노드로 추가해주면서 트리 생성
- 4단계: 새로운 아이템이 나올 경우에는 부모 노드부터 시작하고, 그렇지 않으면 기존의 노드에서 확장
- 5단계: 위의 과정을 모든 거래에 대해 반복하여 FP-Tree 를 만들고 최소 지지도 이상의 패턴만 추출
장점 | 단점 |
- Tree 구조이기 때문에 아프리오리 알고리즘보다 계산 속도가 빠르고 DB에서 스캔하는 횟수도 적음 - 첫 번째 스캔으로 단일 항목집단을 만들고, 두 번째 스캔으로 Tree 구조를 완성하여 분석하는 방식으로 두 번만 스캔하면 되는 간단한 방식 |
- 아프리오리에 비해 설계 어려움 - 지지도 계산은 무조건 FP-Tree 가 만들어져야 가능 |
35. 데이터 분할에 대한 설명 중 틀린 것은?
1) 데이터마이닝 적용 후 결과의 신빙성 검증을 위해 데이터를 학습, 검증, 테스트 데이터로 나누어 사용한다.
2) 검증용 데이터는 모델 성능 평가에 사용한다.
3) 테스트용 데이터와 학습 데이터는 섞여서는 안된다.
4) 검증용 데이터는 학습 단계에서 사용된다.
▶ 훈련 데이터와 검증 데이터는 학습 과정에서 사용
데이터 분할
(1) 데이터 분할
- 데이터를 훈련용 데이터, 검증용 데이터, 평가용(테스트) 데이터로 분할하는 작업
- 데이터 분할을 하는 이유는 모형이 주어진 데이터에 대해서만 높은 성능을 보이는 과대 적합의 문제를 예방하여 2종 오류인 잘못된 귀무가설을 채택하는 오류를 방지하는데 목적
(2) 데이터 분할 시 고려사항
- 훈련 데이터와 검증 데이터는 학습 과정에서 사용
- 평가 데이터는 학습 과정에 사용되지 않고 오로지 모형의 평가를 위한 과정에만 사용
- 검증 데이터를 사용하여 모형의 학습 과정에서 모형이 제대로 학습되었는지 중간에 검증 실시하고, 과대 적합과 과소 적합의 발생 여부 등을 확인하여 모형의 튜닝에도 사용
- 학습이 완료된 모형에 대하여 한 번도 사용하지 않은 평가 데이터를 통하여 모형 평가, 이때 사용된 결과가 모형의 평가 지표
- 데이터를 일반적으로 훈련 데이터와 검증 데이터를 60~80% 사용하고, 평가 데이터를 20~40%로 분할하지만 절대적인 기준은 아님
- 훈련 데이터를 한 번 더 분할하여 훈련 데이터와 검증 데이터로 나누어서 사용
- 데이터가 충분치 않을 경우 훈련 데이터와 평가 데이터로만 분할하여 사용
- Early Stopping 사용 가능
36. 다음 표준오차에 대한 설명 중 틀린 것은?
1) 표본평균이 모평균과 얼마나 떨어져 있는가를 나타낸다.
2) 표준오차는 σ/√𝒏 로 구한다.
3) 표준오차 95%는 신뢰구간에 모수의 참값이 포함되어 있음을 나타낸다.
4) 더 작은 표준 오차는 추정치가 모집단 파라미터를 더 정확하게 반영한다는 것을 나타낸다.
▶ 신뢰수준 95%는 샘플을 랜덤하게 100번 추출해서 이중에 95번이 신뢰구간에 모수의 참 값이 포함되어 있음을 나타낸다.
[표준오차 (SE; Standard Error)]
추정량은 추출된 표본의 값에 따라서 달라질 수 있음
정확도를 측정하기 위해 추정량의 표준편차 계산
추정량의 표준 편차
모분산을 모를 경우 표본분산을 사용하여 계산
★ 표준오차 예제
평균이 100 이고 분산이 16인 정규 모집단에서 크기가 4인 표본을 추출하였을 경우 표본 평균의 표준편차는?
[풀이]
1) 표본 평균의 표준편차는 표준오차
2) n=4, σ = √ ̄16 = 4 이므로,
3) 표준 오차는 σ/ √ ̄n = 4/ √ ̄4 = 2
37. 아래의 불순도 측정 결과를 사용해서 구한 지니 지수는 얼마인가?
◆ ● ● ● ● |
1) 0.5
2) 0.32
3) 0.48
4) 0.38
▶ 지니지수 식 :
1 - ∑(각 범주별수/전체수 )^2
= 1 – ((1/5)^2 + (4/5)^ 2 )
= 1 - (1/25 + 16/25) = 8/25 = 0.32
38. 어떤 슈퍼마켓 고객 6명의 장바구니별 구입품목이 다음과 같을때, 연관 규칙(콜라 -> 맥주)의 지지도는?
1) 0.6
2) 0.4
3) 0.5
4) 0.3
▶ A: 콜라, B: 맥주
※ 지지도: (A와 B가 동시에 포함된 거래수)/ 전체 거래수 = 3/6 = 0.5
※ 신뢰도: (A와 B가 동시에 포함된 거래수) / A를 포함하는 거래수 = 3/4 = 0.75
★ 연관성 분석 측정 지표
지지도 | 전체 거래 중 항목 A와 B를 동시에 포함하는 거래의 비율 |
신뢰도 | A 상품을 샀을 때 B 상품을 살 조건부 확률에 대한 척도 |
향상도 | 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관성의 정도를 측정하는 척도 - 향상도 =1: 서로 독립적 관계 - 향상도 > 1 양(+)의 상관관계 - 향상도 < 1 음(-)의 상관관계 |
39. 다음의 품목/거래량 표를 사용하여 연관 규칙(딸기->사과)의 향상도는 무엇인가?
품목 거래량 ---------------------------- 딸기, 사과, 포도 100 딸기, 포도 400 사과, 포도, 바나나 150 사과, 딸기, 바나나 200 포도, 바나나 150 |
1) 0.3
2) 0.3/(0.7*0.45)
3) 0.3/0.7
4) 0.3/(0.7 + 0.45)
▶ 향상도 : A가 주어지지 않았을 때 B의 확률 대비 A가 주어졌을 때 B의 확률 증가 비율
품목 B를 구매한 고객 대비 품목 A를 구매한 후 품목 B를 구매하는 고객에 대한 확률
A: 딸기 , B: 사과
향상도 =P(B|A)/P(B) = P(A∩B) / (P(A)*P(B))
= (0.3) / (0.7* 0.45)
※ A와 B 모두 포함된 것: 0.3
A가 들어간 것: 0.7
B가 들어간 것: 0.45
40. 다음 설명에 해당되는 앙상블 기법은?
[설명]
여러 개의 부트스트랩 자료를 생성하고 각 부트스트랩 자료에 예측 모형을 만든 후 결합하여
최종 예측 모형을 만드는 방법
1) Bagging
2) Voting
3) Boosting
4) Stacking
[앙상블 (Ensemble) 모형: 예측력이 약한 모형을 연결하여 강한 모형으로 만드는 기법]
- 배깅: 훈련 데이터에서 다수의 부트스트랩 자료를 주어진 자료에서 동일한 크기의 표본을 랜덤 복원 추출로 뽑은 자료 (편향이 낮은 과소적합 모델에 효과적 / 편향이 높은 과대적합 모델에 효과적)
- 스태킹 (stacking) : 두 단계의 학습을 사용하는 방식으로 서로 다른 여러 모형의 예측 결과를 다시 학습데이터로 하는 모형을 사용함
– 보팅 (voting) : 서로 다른 여러 개의 모형을 생성하고 결과를 집계하여 많은 표를 받은 것을 답으로 하는 방식
- 부스팅 (boosting) : 순차적인 학습 , 부트스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법
41. 군집분석 관련 설명으로 틀린 것은?
1) 계층적 군집분석은 사전에 군집 수 k를 설정할 필요가 없는 탐색적 모형이다.
2) 집단간 이질화, 집단내 동질화 모두 낮은 것을 군집으로 선택한다.
3) K-means 군집은 잡음이나 이상값에 영향을 받기 쉽다.
4) 군집분석은 비지도학습이다.
▶ 집단간 이질화 , 집단내 동질화가 모두 높은 것을 군집으로 선택
42. 신경망 노드 중 무작위로 노드를 선정하여 다수의 모형을 구성하고 학습한 뒤 각 모형의 결과를 결합해 분류 및 예측하는 기법을 무엇이라고 하는가?
1) Mini-Batch
2) Bagging
3) Drop-out
4) AdaBoost
▶
Drop-out : 딥러닝에서 과대적합 방지를 위해 노드의 일부를 랜덤하게 학습하지 못하게 하는 기법
Mini-Batch : 단위 별로 쪼개서 학습하는 것으로 데이터를 일정한 크기로 나누어 모형을 구성함
Bagging : 무작위 노드 선정이 아닌 Bootstrap 방식으로 노드를 선정하는 방법을 사용
AdaBoost : 강한 분류기를 약한 분류기로 학습시키는 앙상블 방법으로, 각 모델은 이전 모델의 에러를 보완하도록 가중치를 조절하면서 순차적으로 학습되며, 이때 각 모델은 이전 모델이 잘못 분류한 샘플에 집중하여 학습
43. 다음 회귀분석의 결과 해석으로 틀린 것은?
> library(MASS) > data(ChickWeight) > Chick = ChickWeight[ChickWeight$Diet==1 & ChickWeight$Chick==1,] > model = lm(weight ~ Time, Chick) > summary(model) Call: lm(formula = weight ~ Time, data = Chick) Residuals: Min 1Q Median 3Q Max -14.3202 -11.3081 -0.3444 11.1162 17.5346 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 24.4654 6.7279 3.636 0.00456 ** Time 7.9879 0.5236 15.255 2.97e-08 *** --- Signif. codes: 0 '***' 0.001 '***' 0.01 '*' 0.05 ',' 0.1 ' ' 1 Residual standard error: 12.29 on 10 degrees of freedom Multiple R-squared: 0.9588, Adjusted R-squared: 0.9547 F-statistic: 232.7 on 1 and 10 DF, p-value: 2.974e-08 |
1) 결정계수는 0.9588이다.
2) 5% 유의수준에서 모형은 통계적으로 유의미 하다.
3) Time이 1단위 증가하면 Weight가 평균적으로 8.8 증가한다.
4) 추정된 회귀식은 weight = 24.4654 + 7.9879 * Time 이다.
▶ 추정된 회귀식은 weight = 24.4654 + 7.9879 * Time 이므로 Time이 1 단위 증가하면 weight가 평균적으로 7.9879 증가
> library(MASS) > data(ChickWeight) > Chick = ChickWeight[ChickWeight$Diet==1 & ChickWeight$Chick==1,] > model = lm(weight ~ Time, Chick) > summary(model) Call: ▶ 호출: 선형 회귀 모델을 적합시키기 위해 사용된 함수 호출을 보여줌. lm(formula = weight ~ Time, data = Chick) Residuals: ▶ 잔차: 잔차 분포(관찰값과 예측값 간의 차이)를 설명. 여기에는 최소값, 사분위수, 최대값과 같은 통계가 포함. Min 1Q Median 3Q Max -14.3202 -11.3081 -0.3444 11.1162 17.5346 Coefficients: ▶ 계수: 회귀선의 절편과 기울기에 대한 추정치를 제공. 이 경우 절편은 24.4654이고 '시간'에 대한 계수는 7.9879이다. 이 계수는 시간이 1단위 증가할 때 예상되는 중량 변화를 나타냄. Estimate Std. Error t value Pr(>|t|) ▶ t 값 및 Pr(>|t|): t 값은 각 계수 추정치의 유의성을 평가. 연관된 p-값(Pr(>|t|))은 귀무 가설(관계 없음)이 참인 경우 주어진 t 값을 관찰할 확률을 나타냄. 이 경우 'Time'에 대한 절편과 계수는 모두 매우 중요하며 작은 p-값으로 표시. ▶ 표준. 오류: 각 계수 추정치와 관련된 표준 오류를 나타내며 추정치의 불확실성을 측정 (Intercept) 24.4654 6.7279 3.636 0.00456 ** Time 7.9879 0.5236 15.255 2.97e-08 *** --- Signif. codes: 0 '***' 0.001 '***' 0.01 '*' 0.05 ',' 0.1 ' ' 1 Residual standard error: 12.29 on 10 degrees of freedom ▶ 잔차 표준 오차: 회귀선 주변의 잔차 표준 편차를 나타내며 결과를 예측할 때 모델의 정확도를 측정. Multiple R-squared: 0.9588, Adjusted R-squared: 0.9547 ▶ 다중 R-제곱 및 조정된 R-제곱: 독립변수(시간)가 설명하는 종속변수(가중치)의 분산 비율을 측정. 수정된 R 제곱은 모델의 예측 변수 수에 맞게 조정. F-statistic: 232.7 on 1 and 10 DF, p-value: 2.974e-08 ▶ F-통계량 및 p-값: 모델의 전반적인 유의성을 테스트. F-통계량(232.7)은 무게와 시간 사이에 유의미한 선형 관계가 있는지 여부를 평가하며, 매우 작은 p-값은 귀무 가설에 반하는 강력한 증거를 나타냄. |
44. 아래 설명에 해당하는 정답을 고르시오.
[설명]
독립변수간 상관관계가 높아 많은 문제점을 발생하는 현상으로 회귀계수의 분산을 증가시켜
불안정하고 해석하기 어렵게 만들게 되는 것을 다중공선성이라고 한다.
이것의 해결 방법으로 사용할 수 있는 것은 무엇인가?
1) 주성분 분석
2) 교차 분석
3) 오차 분석
4) 연관 분석
[다중 공선성]
- 독립변수들 간에 강한 상관관계가 나타 데이터 분석 시 부정적인 영향 미침
- 모형의 일부 설명변수 (=예측변수 )가 다른 설명변수와 상관되어 있을 때 발생하는 조건
- 중대한 다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 됨
[주성분 분석]
- 주성분분석은 비지도학습으로 회귀분석의 다중공선성 문제 해결을 위해 사용.
- 차원 축소 , 이상치 탐지 , 자료의 그룹화에 사용.
- 주성분분석은 목표변수를 고려해 목표변수를 잘 예측 /분류할 수 있는 선형결합으로 이루어진 몇 개의 주성분을 찾아내기 위함.
주성분 분석 (PCA; Principal Component Analysis)
- 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원 축소 방법
- 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소
- 차원 축소 시 변수 추출 방법 사용
- 행렬분해기법
- 수학적으로 직교 선형 변환으로 정의
- 변동 폭이 큰 축을 선택
- 차원축소는 고윳값이 높은 순으로 정렬해서 높은 고윳값을 가진 고유벡터만으로 데이터 복원
- 누적 기여율이 70~90% 사이면 주성분의 수로 결정
- 차원 감소폭의 결정은 스크리 산점도, 전체 변이의 공헌도, 평균 고윳값 등을 활용
- 차원의 저주에 대한 접근 방법 중 하나
- 절차: 축 생성 → 축에 데이터 투영 → 차원 축소
- 목적: 차원축소, 다중공선성 해결
차원 축소 | 여러 변수 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분 또는 요인으로 차원을 축소함으로써 데이터 이해가 용이 |
다중곤선성 해결 | 비 상관도가 높은 변수들을 하나의 주성분 혹은 요인으로 축소하여 모형개발에 활용 |
[주성분 개수 선택 방법]
- 전체 변이의 공헌도: 표준편차를 제곱하면 해당 주성분의 분간 값 산출 가능
- 평균 고윳값: 고윳값들의 평균을 구한 후 고윳값이 평균값 이상이 되는 주성분을 선택하는 방법
- 스크리 산점도: 기울기가 완만해지기 직전까지를 주성분 수로 결정 (x축에 주성분, y축에 각 주성분의 분산을 표현)
45. 아래 설명의 답을 작성하시오. (주관식)
[설명]
시계열분석에서 시계열의 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것으로
미래는 확률적으로 과거와 동일하다는 것을 의미하는 용어는?
정상성
시계열 분석 (Time-Series Data)
- 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석 기법
- 목적: 외부인자와 관련해 계절적인 패턴과 같은 요소를 설명할 수 있는 모델 결정
- x축에는 시간, y축에는 관측값
- 시계열 데이터는 규칙적, 불규칙한 특징
- 시계열 데이터는 시간의 흐름에 따라 관측되는 자료이므로 대체로 독립적이지 않음
- 정상성: 시점에 상관없이 시계열의 특성이 일정하다는 의미 (시계열 분석을 위해서는 정상성을 만족해야 함)
- 자기 회귀 모형: 현시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명될 수 있는 모형
- 이동평균 모형 (MA): 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 모형 (과거의 몇 개 관측치를 평균하여 전반적인 추세 파악)
- 자기 회귀 누적 이동평균 모형(ARIMA): 분기/반기/연간 단위로 다음 지표를 예측하거나 주간/월간 단위로 지표를 리뷰하여 트렌드 분석 (비정상 시계열 모형 - 차분이나 변환을 통해 AR 모형이나 MA 모형, ARMA 모형으로 정상화)
- 시계열 분해: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석 (시계열을 분리하는 분해식 사용)
- 시계열 분해 구성요소: 추세 요인, 계절 요인, 순환 요인, 불규칙 요인
추세 요인 | 자료가 어떤 특정한 형태를 취함 |
계절 요인 | 고정된 주기에 따라 자료가 변화할 경우 |
순환 요인 | 알려지지 않은 주기를 가지고 자료가 변화 |
불규칙 요인 | 추세, 계절, 순환 요인으로 설명할 수 없는 회귀 분석에서 잔차에 해당하는 요인 |
46. 다음 오분류표를 사용하여 F1 Score를 구하시오. (주관식, 분수로 표기할 것)
오분류표 | 예측값 | ||
TRUE | FALSE | ||
실제값 | TRUE | 15 | 60 |
FALSE | 60 | 30 |
1/5
F1-Score = 2* {(정밀도*재현율)/(정밀도+재현율)}
정밀도의 계산식: TP/TP+FP = 15/15+60= 1/5
민감도(재현율)의 계산식: TP/TP+FN = 15/15+60 = 1/5
F1-Score = 2*{(1/5*1/5)/(1/5+1/5)} = 1/5
※ Precision, Recall이 같으면 F1도 동일.
혼동행렬 (Confusion Matrix)
분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표 형태로 정리한 행렬
1) 작성 방법
예측이 정확한 경우 |
True Positive (TP) | 실제값, 예측값 모두 Positive |
True Negative (TN) | 실제값, 예측값 모두 Negative | |
예측이 틀린 경우 |
False Positive (FP) | 실제값 Negative, 예측값 Positive |
False Negative (FN) | 실제값 Positive, 예측값 Negative |
2) 평가지표
평가지표 | 계산식 | 설명 |
정확도 (Accuracy) | TP + TN / TP+TN+FP+FN | - 실제 분류 범주를 정확히 예측한 비율 - 전체 예측에서 참 긍정(TP)과 참 부정(TN)이 차지하는 비율 |
오차 비율 (Error Rate) |
FP + FN / TP+TN+FP+FN | - 실제 분류 범주를 잘못 분류한 비율 - 오차비율 = 1- (정확도) |
참 긍정률 = 재현률 = 민감도 (Sensitive) |
TP / TP + FN | - 실제로 '긍정'인 범주 중에서 '긍정'으로 올바르게 예측(TP)한 비율 |
특이도 (Specificity) | TN / TN+FP | - 실제로 '부정'인 범주 중에서 '부정'으로 올바르게 예측 (TN)한 비율 |
거짓 긍정률 (FP Rate) | FP / TN + FP | - 실제로 '부정'인 범주 중에서 '긍정' 으로 잘못 예측 (FP)한 비율 |
정밀도 (Precision) | TP / TP + FP | - '긍정'으로 예측한 비율 중에서 실제로 '긍정' (TP)인 비율 |
F1 지표 (F1-Score) | 2 x {(정밀도 * 재현율) / (정밀도+ 재현율)} |
47. 다음 빈칸에 알맞은 단어를 작성하시오.
완전 연결법이라고도 하며, 두 군집 사이의 거리를 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 ( )을 측정한다.
최댓값
- 최단 연결법 (단일연결법): 두 군집 사이의 거리를 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 최솟값을 측정
- 최장 연결법 (완전 연결법): 두 군집 사이의 거리를 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 최댓값을 측정
- 중심 연결법: 두 군집의 중심 간의 거리 측정 (계산량이 적고, 중심 사이의 거리를 한 번만 계산)
- 평균 연결법: 모든 항목에 대한 거리를 평균을 구하면서 가장 유사성이 큰 군집을 병합해 나가는 방법 (계산량이 불필요하게 많아질 수 있음. 이상치에 덜 민감)
48. 다음 주성분 분석 결과에서 주성분 1개를 사용했을 때 분산을 구하시오. (주관식, 소수점 둘째 자리에서 반올림)
57.5%
▶ 주성분 1개를 사용했을 때의 분산은 PC1의 Proportion of Variance를 보고 판단
49. 아래 설명의 답을 작성하시오. (주관식)
[설명]
생물학적 진화 과정을 모방하여 최적화 및 검색 문제를 해결하는데 사용되는 계산 알고리즘으로
다양한 해를 탐색하고 선택, 교차, 변이와 같은 유전 연산을 통해 최적의 해를 찾아내는데 효과적인 알고리즘은?
유전자(유전) 알고리즘
50. 아래 설명의 답을 작성하시오. (주관식)
[설명]
모집단을 먼저 서로 겹치지 않는 여러 개의 층으로 분할한 후, 각 층에서 단순 임의 추출법에 따라 배정된 표본을 추출하는 방법은?
층화 추출법
'자격증 > ADsP' 카테고리의 다른 글
[ADsP] 시험 후기 (독학) (0) | 2024.05.11 |
---|---|
[ADsP] 추가 내용 - 40회 기출 문제 기준 (0) | 2024.05.10 |
[ADsP] 제38회 기출문제 (1) | 2024.05.03 |
[ADsP] 예상 기출 문제 (1) | 2024.05.02 |
[ADsP] 시험의 주요 내용 (0) | 2024.05.02 |