TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-3)

by 기록자_Recordian 2024. 3. 12.
728x90
반응형

[목차]

 

[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)

빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이

puppy-foot-it.tistory.com


빅데이터 분석기획 - 데이터 수집 및 저장 계획

 

4. 데이터 품질 검증

(1) 데이터 품질 특성

ㄱ. 데이터 품질 요소와 품질 전략

  • 정확성: 데이터 사용 목적에 따라 데이터 정확성의 기준을 다르게 적용
  • 완전성: 필요한 데이터의 완전한 확보보다는 필요한 데이터를 식별하는 수준으로 적용 가능
  • 적시성: 소멸성이 강한 데이터에 대해 어느 정도의 품질 기준을 적용할 것인지를 결정
  • 일관성: 같은 데이터라 할지라도 사용 목적에 따라 달라지는 데이터 수집 기준 때문에 데이터 의미가 달라질 수 있음

ㄴ. 데이터 품질 진단 절차

  • 품질진단 계획 수립
  • 품질 기준 및 진단 대상 정의
  • 데이터 품질 측정
  • 품질측정 결과 분석
  • 데이터 품질개선

ㄷ. 데이터 품질 기준

[정형 데이터 품질 기준]

  • 완전성 - 개별 완전성, 조건 완전성
  • 유일성 - 단독, 조건 유일성
  • 유효성 - 범위, 날짜, 형식 유효성
  • 일관성 - 기준코드 일관성, 참조 무결성, 데이터 흐름 일관성, 칼럼 일관성
  • 정확성 - 선후 관계, 계산/집계, 최신성, 업무규칙

[비정형 데이터 품질 기준]

  • 기능성 - 적절성, 정확성, 상호 운용성, 기능 순응성
  • 신뢰성 - 성숙성, 신뢰 순응성
  • 사용성 - 이해성, 친밀성, 사용 순응성
  • 효율성 - 시간 효율성, 자원 효율성, 효율 순응성
  • 이식성 - 적응성, 공존성, 이식 순응성

 

(2) 데이터 변환 후 품질 검증 프로세스

 

ㄱ. 메타데이터를 통한 품질 검증 기법

※ 메타데이터: 데이터에 관한 구조화된 데이터로서 다른 데이터를 설명해주는 데이터

구분 분석 방안
메타데이터 수집 - 테이블 정의서, 컬럼 정의서, 도메인 정의서, 데이터 사전, ERD, 관계 정의서를 통한 메타데이터 수집
- 테이블 및 컬럼 및 관계 목록 명세화
수집된
메타데이터 분석
- 테이블, 컬럼, 관계목록을 대조하여 불일치 사항 분석
- 메타데이터 분석을 통해 불일치 정보 정리
누락 값 분석 - NULL 값, 공백 값(''), 숫자 '0' 등 분포를 통해 누락 값 분석
값의 허용 분석 - 컬럼의 속성값이 가져야 할 범위 내에 속성값이 있는지 여부가 아닌, 해당 속성의 도메인 유형에 따라 범위를 결정
- 측량 단위, 자료형의 크기에 따라 값의 허용 범위 판단
허용 값 목록 분석 - 해당 컬럼의 허용값 목록이나 집합에 포함되지 않는 값을 발견하는 절차
문자열 패턴 분석 - 컬럼 속성값의 특성이 문자열로 반복되는 모형을 정형화하여 해당 컬럼의 특성 파악
날짜 유형 분석 - DBMS 또는 시스템에서 제공하는 DATETIME 유형과 문자형 날짜 유형을 활용하여 날짜 유형 분석
유일 값 분석 - 업무적 의미에서 유일해야 하는 컬럼에 중복이 발생되었는지를 확인하는 절차
- 테이블 식별자로 활용되는 컬럼 속성값들에 대해서 유일 값 분석
구조 분석 - 잘못된 데이터 구조로 인해 데이터값에서 일관되지 못하거나, 부정확한 값이 발견되는 현상을 파악하는 절차
- 구조 결함을 발견하기 위해 관계 분석, 참조 무결성 분석, 구조 무결성 분석기법 등을 활용

 

ㄴ. 정규 표현식을 통한 검증 기법

※ 정규 표현식 (Regular Express): 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어

단순 값의 유무나 중복 여부 검증 외에도 데이터 양식이나 복잡한 규칙을 적용하기 위해 정규 표현식을 통해 유효성 검증 가능

 

ㄷ. 데이터 프로파일링을 통한 품질 검증 기법

※  데이터 프로파일링: 데이터 현황 분석을 위한 자료 수집을 통해 잠재적 오류 징후 발견

데이터의 저장, 연계, 가공, 활용 등 데이터의 변경이 발생하는 모든 영역에서 수행하여 오류를 사전에 파악

 

[절차]

메타데이터 수집 및 분석 → 대상 및 유형 선정 → 프로파일링 수행 → 프로파일링 결과 리뷰 → 프로파일링 결과 종합

 

(3) 품질 검증 기준

복잡성, 완전성, 유용성, 시간적 요소, 일관성, 타당성, 정확성

  • 복잡성: 빅데이터 수집 시스템에서 수집하는 데이터의 구조, 형식, 자료, 계층 측면에서 복잡성 기준 정의
  • 완전성: 수집된 빅데이터 질이 충분하고 완전한지에 대한 품질 관리 기준 정의
  • 유용성: 수집된 빅데이터 처리 용이성, 하드웨어 및 소프트웨어 제약 사항 관련 품질 관리 기준 정의
  • 시간적 요소: 데이터 전달과 수집 사이의 소요 기간 / 자료가 수집된 시점과 자료 수집 기간
  • 일관성: 수집된 빅데이터와 원천소스가 연결되지 않는 비율 정도 / 관심 사항과 연관된 변수들에 대한 평가
  • 타당성: 수집된 빅데이터의 메타데이터를 분석한 방법이 안정성을 평가할 수 있는지 여부
  • 정확성: 자료의 값들이 허용 범위 내에 존재하는지 여부 / 측정 도구의 타당성 및 관측의 정확성 여부

이전글

[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-2)

 

다음글

빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-2)

728x90
반응형