728x90
반응형
[목차]
빅데이터 분석기획 - 데이터 수집 및 저장 계획
4. 데이터 품질 검증
(1) 데이터 품질 특성
ㄱ. 데이터 품질 요소와 품질 전략
- 정확성: 데이터 사용 목적에 따라 데이터 정확성의 기준을 다르게 적용
- 완전성: 필요한 데이터의 완전한 확보보다는 필요한 데이터를 식별하는 수준으로 적용 가능
- 적시성: 소멸성이 강한 데이터에 대해 어느 정도의 품질 기준을 적용할 것인지를 결정
- 일관성: 같은 데이터라 할지라도 사용 목적에 따라 달라지는 데이터 수집 기준 때문에 데이터 의미가 달라질 수 있음
ㄴ. 데이터 품질 진단 절차
- 품질진단 계획 수립
- 품질 기준 및 진단 대상 정의
- 데이터 품질 측정
- 품질측정 결과 분석
- 데이터 품질개선
ㄷ. 데이터 품질 기준
[정형 데이터 품질 기준]
- 완전성 - 개별 완전성, 조건 완전성
- 유일성 - 단독, 조건 유일성
- 유효성 - 범위, 날짜, 형식 유효성
- 일관성 - 기준코드 일관성, 참조 무결성, 데이터 흐름 일관성, 칼럼 일관성
- 정확성 - 선후 관계, 계산/집계, 최신성, 업무규칙
[비정형 데이터 품질 기준]
- 기능성 - 적절성, 정확성, 상호 운용성, 기능 순응성
- 신뢰성 - 성숙성, 신뢰 순응성
- 사용성 - 이해성, 친밀성, 사용 순응성
- 효율성 - 시간 효율성, 자원 효율성, 효율 순응성
- 이식성 - 적응성, 공존성, 이식 순응성
(2) 데이터 변환 후 품질 검증 프로세스
ㄱ. 메타데이터를 통한 품질 검증 기법
※ 메타데이터: 데이터에 관한 구조화된 데이터로서 다른 데이터를 설명해주는 데이터
구분 | 분석 방안 |
메타데이터 수집 | - 테이블 정의서, 컬럼 정의서, 도메인 정의서, 데이터 사전, ERD, 관계 정의서를 통한 메타데이터 수집 - 테이블 및 컬럼 및 관계 목록 명세화 |
수집된 메타데이터 분석 |
- 테이블, 컬럼, 관계목록을 대조하여 불일치 사항 분석 - 메타데이터 분석을 통해 불일치 정보 정리 |
누락 값 분석 | - NULL 값, 공백 값(''), 숫자 '0' 등 분포를 통해 누락 값 분석 |
값의 허용 분석 | - 컬럼의 속성값이 가져야 할 범위 내에 속성값이 있는지 여부가 아닌, 해당 속성의 도메인 유형에 따라 범위를 결정 - 측량 단위, 자료형의 크기에 따라 값의 허용 범위 판단 |
허용 값 목록 분석 | - 해당 컬럼의 허용값 목록이나 집합에 포함되지 않는 값을 발견하는 절차 |
문자열 패턴 분석 | - 컬럼 속성값의 특성이 문자열로 반복되는 모형을 정형화하여 해당 컬럼의 특성 파악 |
날짜 유형 분석 | - DBMS 또는 시스템에서 제공하는 DATETIME 유형과 문자형 날짜 유형을 활용하여 날짜 유형 분석 |
유일 값 분석 | - 업무적 의미에서 유일해야 하는 컬럼에 중복이 발생되었는지를 확인하는 절차 - 테이블 식별자로 활용되는 컬럼 속성값들에 대해서 유일 값 분석 |
구조 분석 | - 잘못된 데이터 구조로 인해 데이터값에서 일관되지 못하거나, 부정확한 값이 발견되는 현상을 파악하는 절차 - 구조 결함을 발견하기 위해 관계 분석, 참조 무결성 분석, 구조 무결성 분석기법 등을 활용 |
ㄴ. 정규 표현식을 통한 검증 기법
※ 정규 표현식 (Regular Express): 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어
단순 값의 유무나 중복 여부 검증 외에도 데이터 양식이나 복잡한 규칙을 적용하기 위해 정규 표현식을 통해 유효성 검증 가능
ㄷ. 데이터 프로파일링을 통한 품질 검증 기법
※ 데이터 프로파일링: 데이터 현황 분석을 위한 자료 수집을 통해 잠재적 오류 징후 발견
데이터의 저장, 연계, 가공, 활용 등 데이터의 변경이 발생하는 모든 영역에서 수행하여 오류를 사전에 파악
[절차]
메타데이터 수집 및 분석 → 대상 및 유형 선정 → 프로파일링 수행 → 프로파일링 결과 리뷰 → 프로파일링 결과 종합
(3) 품질 검증 기준
복잡성, 완전성, 유용성, 시간적 요소, 일관성, 타당성, 정확성
- 복잡성: 빅데이터 수집 시스템에서 수집하는 데이터의 구조, 형식, 자료, 계층 측면에서 복잡성 기준 정의
- 완전성: 수집된 빅데이터 질이 충분하고 완전한지에 대한 품질 관리 기준 정의
- 유용성: 수집된 빅데이터 처리 용이성, 하드웨어 및 소프트웨어 제약 사항 관련 품질 관리 기준 정의
- 시간적 요소: 데이터 전달과 수집 사이의 소요 기간 / 자료가 수집된 시점과 자료 수집 기간
- 일관성: 수집된 빅데이터와 원천소스가 연결되지 않는 비율 정도 / 관심 사항과 연관된 변수들에 대한 평가
- 타당성: 수집된 빅데이터의 메타데이터를 분석한 방법이 안정성을 평가할 수 있는지 여부
- 정확성: 자료의 값들이 허용 범위 내에 존재하는지 여부 / 측정 도구의 타당성 및 관측의 정확성 여부
이전글
다음글
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터 분석기사] 2과목 빅데이터 탐색(1-1) (4) | 2024.03.12 |
---|---|
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-2) (0) | 2024.03.12 |
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-2) (1) | 2024.03.11 |
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-1) (1) | 2024.03.11 |
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (2-2) (0) | 2024.03.11 |