TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (1-2)

by 기록자_Recordian 2024. 3. 10.
728x90
반응형

[목차]

 

[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)

빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이

puppy-foot-it.tistory.com


빅데이터 분석기획 - 빅데이터의 이해

<빅데이터 기술 및 제도>

1. 빅데이터 플랫폼

(1) 개념

  • 빅데이터에서 가치를 추출하기 위해 일련의 과정 (수집 > 저장 > 분석 > 활용)을 규격화한 기술
  • 특화된 분석을 지원하는 빅데이터 플랫폼 발전 추세 (의료, 환경, 범죄, 자동차 등)

(2) 계층 구조

계층 설명
소프트웨어 계층 데이터 처리 및 분석 엔진, 데이터 수집 및 정제 모듈, 서비스 관리 모듈, 사용자 괸리모듈, 모니터링 모듈, 보안 모듈
플랫폼 계층 작업 스케쥴링 모듈, 데이터 자원 및 할당 모듈, 프로파일링 모듈, 데이터 관리 모듈, 자원 관리 모듈, 서비스 관리 모듈, 사용자 관리 모듈, 모니터링 모듈, 보안 모듈
인프라 스트럭처 계층 자원 배치 모듈, 노드 관리 모듈, 데이터 관리 모듈, 자원 관리 모듈, 서비스 관리 모듈, 사용자 관리 모듈, 모니터링 모듈, 보안 모듈

 
(3) 구성요소

  • 빅데이터 플랫폼은 크게 수집, 저장, 분석, 활용의 요소로 구성

(4) 하둡 에코시스템 (Hadoop Ecosystem)

  • 프레임 워크를 이루고 있는 다양한 서브 프로젝트들의 모임
  • 수집, 저장, 처리 기술과 분석, 실시간 SQL 질의 기술로 구분

하둡 에코 시스템
출처:&amp;nbsp;https://itpenote.tistory.com/503

 

  • 하둡에코시스템 기술 (하단 내용 참고)
 

[하둡 에코시스템] Hadoop Ecosystem

하둡 에코 시스템 (Hadoop Ecosystem) 하둡 에코시스템: 대규모 데이터 처리를 위한 여러 오픈 소스 프로젝트의 모음 하둡 에코시스템에 대해 설명하기 전에, "하둡" 이라는 것에 대해 먼저 간단히 짚

puppy-foot-it.tistory.com


2. 빅데이터와 인공지능

(1) 인공지능 (AI: Artificial Intelligence) 개념

  • 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어
  • 정확한 분석을 위해서는 학습 필요
  • 강한 인공지능은 사람처럼 학습하고, 추론하며, 문제를 인식하고 이것을 해결하기 위한 범용 인공지능

인공지능&#44; 기계학습&#44; 딥러닝의 관계
<인공지능의 범위> 출처:&amp;nbsp; https://blog.naver.com/dsjang650628/221864626337

 
(2) 인공지능, 머신러닝, 딥러닝과의 관계

  • 인공지능이 가장 넓은 개념이고, 인공지능을 구현하는 방법 중 중요한 방법이 머신러닝 (기계학습)
  • 딥러닝은 머신러닝의 여러 방법 중 중요한 방법론
  • 1950년에 등장한 인공지능을 최신 트렌드로 끌고 온 것은 '빅데이터'
  • 빅데이터는 비정형 데이터를 고속으로 분석할 수 있고, 이러한 점은 인공지능이 기존에 기계가 인지하지 못했던 정보들을 분석할 수 있게 함
  • 딥러닝: 빅데이터를 통해 자체 알고리즘을 가지고 학습
  • 인공지능의 암흑기를 지나 딥러닝 기술로 특정 분야에서 인간의 지능을 뛰어넘는 능력 갖춤
  • 빅데이터를 활용하여 인공지능 스스로 문제 해결 기준을 설정하고 학습

(3) 빅데이터와 인공지능의 관계

  • 상호보완 관계 (빅데이터 - 인공지능 구현 완성도 높임 / 인공지능 - 문제 해결 완성도 높임)
  • 우수한 정보처리를 바탕으로 의미 있는 결과 도출
  • 빅데이터 목표 = 인공지능 목표
  • 인공지능 판단을 위해서는 빅데이터와 같은 기술 필수 (빅데이터는 인공지능을 위한 기술)

3. 개인정보보호법-제도

(1) 개인정보

  • 개념: 정보 주체(개인)의 개인정보 자기 결정권을 철저히 보장하는 활동
  • 필요성: 정보사회의 핵심 인프라로 유출 시 피해 심각

(2) 빅데이터 개인정보보호 가이드라인
 
[요약]

  • 개인정보비식별화
  • 개인정보 재식별 시 조치
  • 투명성 확보
  • 민감정보 처리
  • 수집정보의 보호조치

[주요 내용]

 

Newsletter - January 2015

방송통신위원회 2014. 12. 23. 「빅데이터 개인정보보호 가이드라인」 발표 - 「빅데이터 개인정보보호 가이드라인」의 의의 및 주요 내용 방송통신위원회는 지난 2014. 12. 23. 빅데이터 처리‧활용

leeko.com

 
(3) 관련 법령

관련 법규 주요 내용
개인정보 보호법 - 개인정보 처리 과정상의 정보 주체와 개인정보 처리자의 권리, 의무 등 규정
정보통신망법 - '정보통신망 이용촉진 및 정보보호 등에 관한 법률'의 약칭
- 정보통신망을 통하여 수집, 처리, 보관, 이용되는 개인정보의 보호에 관한 규정
신용정보법 - '신용정보의 이용 및 보호에 관한 법률'의 약칭
- 개인 신용정보의 취급 단계별 보호조치 및 의무사항에 관한 규정
위치정보법 - '위치정보의 보호 및 이용 등에 관한 법률'의 약칭
- 개인 위치정보 수집, 이용, 제공 파기 및 정보 주체의 권리 등 규정

 
(4) 개인정보보호 관련 주요 용어

 

[데이터 3법 : 개인정보보호법] 개인정보 관련 용어 및 판례 정리  - 1

이번 포스팅 글은 개인정보보호법 제2조(정의) 용어 의미와 관련판례에 대한 내용이다. # 개인정보 - '살아 있는' 자연인에 관한 정보로 사망 및 실종 선고 등 관계법령에 의해 사망한 것으로 간

skhan.tistory.com

 
(5) 개인정보보호법 주요 내용

 

[개인정보보호법 주요 내용]

ㄱ. 개인정보 보호 원칙(제3조) ① 개인정보처리자는 개인정보의 처리 목적을 명확하게 하여야 하고 그 목적에 필요한 범위에서 최소한의 개인정보만을 적법하고 정당하게 수집하여야 한다. ②

puppy-foot-it.tistory.com

 

(6) 데이터 3법

  • 데이터 이용을 활성화하는 [개인정보 보호법], [정보통신망 이용촉진 및 정보보호 등에 관한 법률(약칭: 정보통신망법)], [신용정보의 이용 및 보호에 관한 법률 (약칭: 신용정보법)] 등 3가지 법률 통칭
  • 데이터 3법 주요 개정 내용

1) 가명 정보 도입: 데이터 이용 활성화를 위한 가명 정보 개념 도입
2) 거버넌스 체계 효율화: 관련 법률의 유사-중복 규정을 정비하고 추진체계 일원화
3) 책임 강화: 데이터 활용에 따른 개인정보처리자의 책임 강화
4) 기준 명확화: 모호한 '개인정보' 판단 기준의 명확화
 

  • 데이터 3법 주요 법률

1) 개인정보 보호법
2) 정보통신망법
3) 신용정보법
 

 

데이터 3법

데이터 이용을 활성화하는 「개인정보 보호법」, 「정보통신망 이용촉진 및 정보보호 등에 관한 법률」, 「신용정보의 이용 및 보호에 관한 법률」 등 3가지 법률을 통칭한다. [ 1. 데이터 3법이

terms.naver.com


4. 개인정보 활용

(1) 프라이버시 보호 모델: k-익명성 / l-다양성 / t-근접성 / m-유일성

프라이버시 보호 모델 설명
k-익명성
(k-Anonymity)
- 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 하는 모델
- 공개된 데이터에 대한 연결 공격 취약점을 방어하기 위한 모델
l-다양성
(l-Diversity)
- 주어진 데이터 집합에서 함께 비식별 되는 레코드들은 (동질 집합에서) 적어도 l개의 서로 다른 민감한 정보를 가져야 하는 프라이버시 모델
- 비식별 조치 과정에서 충분히 다양한 (l개 이상) 서로 다른 민감한 정보를 갖도록 동질 집합을 구성
- k-익명성에 대한 두 가지 취약점 공격인 동질성 공격, 배경 지식에 의한 공격을 방어하기 위한 프라이버시 모델
t-근접성
(t-Closeness)
- 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t 이하의 차이를 보여야 하는 모델
- l-다양성의 쏠림 공격, 유사성 공격을 보완하기 위해 제안된 모델
m-유일성
(m-Uniqueness)
- 원본 데이터와 동일한 속성 값의 조합이 비식별 결과 데이터에 최소 m개 이상 존재하도록 하여 재식별 가능성 위험을 낮춘 모델

 
(2) 차등 프라이버시 (Differential Privacy)
데이터에 포함된 개인정보를 보호하기 위해서 해당 데이터 세트 (Data Set) 에 임의의 노이즈 (Noise)를 삽입함으로써 개인정보가 제3자에게 노출되지 않도록 보호하는 기법
 
(3) 마이 데이터
[개념]

  • 개인이 자신의 정보를 관리, 통제할 뿐만 아니라 이러한 정보를 신용이나 자산관리 등에 능동적으로 활용하는 일련의 과정
  • 개인은 데이터 주권인 자기 정보결정권으로 개인 데이터의 활용과 관리에 대한 통제권을 개인이 가진다는 것이 핵심 원리
  • 개인의 동의하에 타 기업에 저장된 개인정보를 받아서 필요한 곳에 활용

마이데이터 서비스 기본 모델
마이데이터 서비스 기본 모델

 
[원칙]

구분 원칙
데이터 권한 개인이 개인 데이터의 접근, 이동, 활용 등에 대한 통제권 및 결정권을 가져야 함
데이터 제공 개인 데이터를 보유한 기관은 개인이 요구할 때, 개인 데이터를 안전한 환경에서 쉽게 접근하여 이용할 수 있는 형식으로 제공하여야 함
데이터 활용 개인의 요청 및 승인 (동의)에 의한 데이터의 자유로운 이동과 제3자 접근이 가능하여야 하며 그 활용 결과를 개인이 투명하게 알 수 있어야 함

 


이전글

[빅데이터분석기사] 1과목 - 빅데이터 분석 기획 (1)

 
다음글

[빅데이터 분석기사] 빅데이터 분석 기획 (3)

728x90
반응형