[목차]
빅데이터 분석기획 - 빅데이터의 이해
<빅데이터 기술 및 제도>
1. 빅데이터 플랫폼
(1) 개념
- 빅데이터에서 가치를 추출하기 위해 일련의 과정 (수집 > 저장 > 분석 > 활용)을 규격화한 기술
- 특화된 분석을 지원하는 빅데이터 플랫폼 발전 추세 (의료, 환경, 범죄, 자동차 등)
(2) 계층 구조
계층 | 설명 |
소프트웨어 계층 | 데이터 처리 및 분석 엔진, 데이터 수집 및 정제 모듈, 서비스 관리 모듈, 사용자 괸리모듈, 모니터링 모듈, 보안 모듈 |
플랫폼 계층 | 작업 스케쥴링 모듈, 데이터 자원 및 할당 모듈, 프로파일링 모듈, 데이터 관리 모듈, 자원 관리 모듈, 서비스 관리 모듈, 사용자 관리 모듈, 모니터링 모듈, 보안 모듈 |
인프라 스트럭처 계층 | 자원 배치 모듈, 노드 관리 모듈, 데이터 관리 모듈, 자원 관리 모듈, 서비스 관리 모듈, 사용자 관리 모듈, 모니터링 모듈, 보안 모듈 |
(3) 구성요소
- 빅데이터 플랫폼은 크게 수집, 저장, 분석, 활용의 요소로 구성
(4) 하둡 에코시스템 (Hadoop Ecosystem)
- 프레임 워크를 이루고 있는 다양한 서브 프로젝트들의 모임
- 수집, 저장, 처리 기술과 분석, 실시간 SQL 질의 기술로 구분
- 하둡에코시스템 기술 (하단 내용 참고)
2. 빅데이터와 인공지능
(1) 인공지능 (AI: Artificial Intelligence) 개념
- 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어
- 정확한 분석을 위해서는 학습 필요
- 강한 인공지능은 사람처럼 학습하고, 추론하며, 문제를 인식하고 이것을 해결하기 위한 범용 인공지능
(2) 인공지능, 머신러닝, 딥러닝과의 관계
- 인공지능이 가장 넓은 개념이고, 인공지능을 구현하는 방법 중 중요한 방법이 머신러닝 (기계학습)
- 딥러닝은 머신러닝의 여러 방법 중 중요한 방법론
- 1950년에 등장한 인공지능을 최신 트렌드로 끌고 온 것은 '빅데이터'
- 빅데이터는 비정형 데이터를 고속으로 분석할 수 있고, 이러한 점은 인공지능이 기존에 기계가 인지하지 못했던 정보들을 분석할 수 있게 함
- 딥러닝: 빅데이터를 통해 자체 알고리즘을 가지고 학습
- 인공지능의 암흑기를 지나 딥러닝 기술로 특정 분야에서 인간의 지능을 뛰어넘는 능력 갖춤
- 빅데이터를 활용하여 인공지능 스스로 문제 해결 기준을 설정하고 학습
(3) 빅데이터와 인공지능의 관계
- 상호보완 관계 (빅데이터 - 인공지능 구현 완성도 높임 / 인공지능 - 문제 해결 완성도 높임)
- 우수한 정보처리를 바탕으로 의미 있는 결과 도출
- 빅데이터 목표 = 인공지능 목표
- 인공지능 판단을 위해서는 빅데이터와 같은 기술 필수 (빅데이터는 인공지능을 위한 기술)
3. 개인정보보호법-제도
(1) 개인정보
- 개념: 정보 주체(개인)의 개인정보 자기 결정권을 철저히 보장하는 활동
- 필요성: 정보사회의 핵심 인프라로 유출 시 피해 심각
(2) 빅데이터 개인정보보호 가이드라인
[요약]
- 개인정보비식별화
- 개인정보 재식별 시 조치
- 투명성 확보
- 민감정보 처리
- 수집정보의 보호조치
[주요 내용]
(3) 관련 법령
관련 법규 | 주요 내용 |
개인정보 보호법 | - 개인정보 처리 과정상의 정보 주체와 개인정보 처리자의 권리, 의무 등 규정 |
정보통신망법 | - '정보통신망 이용촉진 및 정보보호 등에 관한 법률'의 약칭 - 정보통신망을 통하여 수집, 처리, 보관, 이용되는 개인정보의 보호에 관한 규정 |
신용정보법 | - '신용정보의 이용 및 보호에 관한 법률'의 약칭 - 개인 신용정보의 취급 단계별 보호조치 및 의무사항에 관한 규정 |
위치정보법 | - '위치정보의 보호 및 이용 등에 관한 법률'의 약칭 - 개인 위치정보 수집, 이용, 제공 파기 및 정보 주체의 권리 등 규정 |
(4) 개인정보보호 관련 주요 용어
(5) 개인정보보호법 주요 내용
(6) 데이터 3법
- 데이터 이용을 활성화하는 [개인정보 보호법], [정보통신망 이용촉진 및 정보보호 등에 관한 법률(약칭: 정보통신망법)], [신용정보의 이용 및 보호에 관한 법률 (약칭: 신용정보법)] 등 3가지 법률 통칭
- 데이터 3법 주요 개정 내용
1) 가명 정보 도입: 데이터 이용 활성화를 위한 가명 정보 개념 도입
2) 거버넌스 체계 효율화: 관련 법률의 유사-중복 규정을 정비하고 추진체계 일원화
3) 책임 강화: 데이터 활용에 따른 개인정보처리자의 책임 강화
4) 기준 명확화: 모호한 '개인정보' 판단 기준의 명확화
- 데이터 3법 주요 법률
1) 개인정보 보호법
2) 정보통신망법
3) 신용정보법
4. 개인정보 활용
(1) 프라이버시 보호 모델: k-익명성 / l-다양성 / t-근접성 / m-유일성
프라이버시 보호 모델 | 설명 |
k-익명성 (k-Anonymity) |
- 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 하는 모델 - 공개된 데이터에 대한 연결 공격 취약점을 방어하기 위한 모델 |
l-다양성 (l-Diversity) |
- 주어진 데이터 집합에서 함께 비식별 되는 레코드들은 (동질 집합에서) 적어도 l개의 서로 다른 민감한 정보를 가져야 하는 프라이버시 모델 - 비식별 조치 과정에서 충분히 다양한 (l개 이상) 서로 다른 민감한 정보를 갖도록 동질 집합을 구성 - k-익명성에 대한 두 가지 취약점 공격인 동질성 공격, 배경 지식에 의한 공격을 방어하기 위한 프라이버시 모델 |
t-근접성 (t-Closeness) |
- 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t 이하의 차이를 보여야 하는 모델 - l-다양성의 쏠림 공격, 유사성 공격을 보완하기 위해 제안된 모델 |
m-유일성 (m-Uniqueness) |
- 원본 데이터와 동일한 속성 값의 조합이 비식별 결과 데이터에 최소 m개 이상 존재하도록 하여 재식별 가능성 위험을 낮춘 모델 |
(2) 차등 프라이버시 (Differential Privacy)
데이터에 포함된 개인정보를 보호하기 위해서 해당 데이터 세트 (Data Set) 에 임의의 노이즈 (Noise)를 삽입함으로써 개인정보가 제3자에게 노출되지 않도록 보호하는 기법
(3) 마이 데이터
[개념]
- 개인이 자신의 정보를 관리, 통제할 뿐만 아니라 이러한 정보를 신용이나 자산관리 등에 능동적으로 활용하는 일련의 과정
- 개인은 데이터 주권인 자기 정보결정권으로 개인 데이터의 활용과 관리에 대한 통제권을 개인이 가진다는 것이 핵심 원리
- 개인의 동의하에 타 기업에 저장된 개인정보를 받아서 필요한 곳에 활용
[원칙]
구분 | 원칙 |
데이터 권한 | 개인이 개인 데이터의 접근, 이동, 활용 등에 대한 통제권 및 결정권을 가져야 함 |
데이터 제공 | 개인 데이터를 보유한 기관은 개인이 요구할 때, 개인 데이터를 안전한 환경에서 쉽게 접근하여 이용할 수 있는 형식으로 제공하여야 함 |
데이터 활용 | 개인의 요청 및 승인 (동의)에 의한 데이터의 자유로운 이동과 제3자 접근이 가능하여야 하며 그 활용 결과를 개인이 투명하게 알 수 있어야 함 |
이전글
다음글
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (2-2) (0) | 2024.03.11 |
---|---|
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (2-1) (0) | 2024.03.11 |
[빅데이터분석기사] 1과목 - 빅데이터 분석 기획 (1-1) (0) | 2024.03.10 |
[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기) (0) | 2024.03.10 |
빅데이터분석기사 필기 접수! (0) | 2024.03.05 |