[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-2)

728x90

[목차]

[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)

빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이

puppy-foot-it.tistory.com

빅데이터 분석 기획 - 데이터 수집 및 저장 계획

<데이터 적재 및 저장>

1. 데이터 적재

(1) 데이터 적재 특징

빅데이터 분석에 필요한 데이터를 수집한 후에는 데이터를 빅데이터 시스템에 적재해야 함
적재할 빅데이터 유형과 실시간 처리 여부에 따라 RDBMS, HDFS, NoSQL 저장 시스템에 데이터를 적재
여러 데이터 소스에서 데이터를 수집해 오기 위해, 데이터 소스를 처리하고, 분산된 여러 서버에서 데이터를 수집하는 데이터 수집 플랫폼과 저장 방법의 중요성이 점점 더 확대

(2) 데이터 적재 도구
플루언티드, 플럼, 스크라이브, 로그스태시

도구	설명
플루언티드 (Fluentd)	- 트래저 데이터에서 개발된 크로스 플랫폼 오픈 소스 데이터 수집 소프트웨어 - 주로 루비 프로그래밍 언어로 작성
플럼 (Flume)	- 많은 양의 로그 데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트와 에이전트를 활용하는 분산형 로그 수집 기술
스크라이브 (Scribe)	- 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저자하는 대용량 실시간 로그 수집 기술
로그스태시 (Logstash)	- 모든 로그 정보를 수집하여 하나의 저장소(DB, Elasticsearch 등)에 출력해주는 시스템

2. 데이터 저장

(1) 데이터 저장 기술
데이터베이스, 데이터 웨어하우스, 데이터 마트, 데이터 레이크, 데이터 댐

ㄱ. 데이터베이스 (Database)

체계적으로 정렬된 데이터 집합
데이터의 크기가 커지고 이용이 늘어나면서 대용량의 데이터를 저장-관리-검색-이용할 수 있는 컴퓨터 기반의 데이터베이스로 진화

장점	단점
- 데이터 중복 최소화 - 데이터 공유-일관성, 무결성, 보안성 유지 - 최신의 데이터 유지 - 데이터의 표준화 기능 - 데이터의 논리적, 물리적 독립성 - 쉬운 데이터 접근 - 데이터 저장 공간 절약	- 데이터베이스 전문가 필요 - 큰 비용 부담 - 데이터 백업과 복구가 어려움 - 시스템의 복잡합 - 대용량 디스크로 액세스가 집중되면 과부하 발생 - 통합된 시스템이기 때문에 일부에서 장애가 발생하면 전체 시스템이 중단되는 장애 발생

ㄴ. 데이터 웨어하우스(DW; Data Warehouse)

사용자의 의사결정에 도움을 주기 위하여, 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스
고도로 정제된 데이터로 스키마가 정의되어야 저장 가능
특징: 주제 지향적, 통합적, 시계열적, 비휘발적

ㄷ. 데이터 마트(DM; Data Mart)

데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 적은 규모의 데이터 웨어하우스
전사적으로 구축된 데이터 속의 특정 주제, 부서 중심으로 구축된 소규모 단위 주제의 데이터 웨어하우스
DW 환경에서 정의된 접근 게층으로, 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할
DW의 부분이며, 대개 특정한 조직 혹은 팀에서 사용하는 것을 목적
데이터 마트 개발: 분석 목적별, 주제별, 부서별로 데이터를 수집하고 변형하여 한 곳에 모으는 작업

ㄹ. 데이터 레이크 (Data Lake)

정형, 반정형, 비정형 데이터를 비롯한 모든 가공되지 않은 다양한 종류의 데이터 (Raw Data)를 저장할 수 있는 시스템 또는 중앙 집중식 데이터 저장소
구조화된 데이터 - RDBMS의 테이블에 저장
반구조화된 데이터 - CSV, XML, JSON에 저장
비정형 데이터 - 바이너리 데이터 형태로 저장
저장할 때 스키마와 상관없이 저장 가능
schema-on-read 로 읽을 때 스키마가 저장되어 데이터를 읽을 수 있음

ㅁ. 데이터 댐(Data Dam)

4차 산업혁명의 디지털 경쟁력 확보를 위해 모든 산업의 데이터를 데이터 댐에 쌓는다는 의미
어떤 값을 포함하고 있는 가공되지 않은 1차 데이터를 모아 놓은 저장소

(2) 데이터 저장 기술
GFS, HDFS, 러스터 / 오라클 RAC, IBM DB2, MS SQL, MySQL / 구글 빅테이블, HBase, 아마존 Simple DB, SSDS

기술	내용	제품
분산 파일 시스템	컴퓨터 네트워크를 통해 공유하는 여러 호스트 컴퓨터의 파일에 접근할 수 있게 하는 파일 시스템	- 구글 파일 시스템(GFS) - 하둡 분산 파일 시스템(HDFS) - 러스터
데이터베이스 클러스터	관계형 데이터베이스 관리 시스템으로 하나의 데이터베이스를 여러 개의 서버상에 구축하는 시스템	- 오라클 RAC - IBM DB2 ICE - MSSQL, MySQL
NoSQL	전통적인 RDBMS 와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인 연산을 사용할 수 없으며, 수평적으로 확장 가능한 DBMS	- 구글 빅테이블 - HBase - 아마존 Simple DB - 마이크로소프트 SSDS

(3) 빅데이터 저장 기술 - 분산 파일 시스템 상세

구글 파일 시스템(GFS), 하둡 분산 시스템(HDFS), 러스터

ㄱ. 구글 파일 시스템(GFS; Google File System)

구글의 대규모 클러스터 서비스 플랫폼의 기반이 되는 파일 시스템
파일을 고정된 크기(64MB)의 청크들로 나누며 각 청크와 여러 개의 복제본을 청크 서버에 분산하여 저장
구성요소: 클라이언트, 마스터, 청크 서버

ㄴ. 하둡 분산 시스템 (HDFS; Hadoop Distributed File System)

수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 저장된 데이터를 빠르게 처리할 수 있게 하는 분산 파일 시스템
저사양의 다수의 서버를 이용해서 스토리지를 구성할 수 있어 기존의 대용량 파일 시스템에 비해 비용관점에서 효율적
블록 구조의 파일 시스템으로 파일을 특정 크기의 블록으로 나누어 분산된 서버에 저장
블록 크기는 64MB 에서 하둡 2.0부터는 1278MB로 증가
구성요소: 하나의 네임 노드, 하나 이상의 보조 네임 노드, 다수의 데이터 노드
네임 노드는 GFS의 마스터, 데이터 노드는 청크 서버와 유사

ㄷ. 러스터 (Lustre)

클러스터 파일 시스템에서 개발한 객체 기반의 클러스터 파일 시스템
구성요소: 고속 네트워크로 연결된 클라이언트 파일 시스템, 메타데이터 서버, 객체 저장서버
계층화된 모듈 구조로 TCP/IP, 인피니밴드 같은 네트워크 지원

(4) 빅데이터 저장 기술 - 데이터베이스 클러스터 상세

데이터베이스 클러스터: 하나의 데이터베이스를 여러 개의 서버상에 분산하여 구축하는 것

데이터를 통합할 때, 성능과 가용성의 향상을 위해 데이터베이스 파티셔닝 또는 클러스터링 이용
데이터베이스 시스템을 구성하는 형태에 따라 단일 서버 파티셔닝과 다중 서버 파티셔닝으로 구분
종류: 공유 디스크 클러스터, 무공유 클러스터

(5) 빅데이터 저장 기술 - NoSQL (Not Only SQL)

대규모 데이터를 저장하기 위하여 고정된 테이블 스키마가 없고 조인 연산을 사용할 수 없으며, 수평적으로 확장이 가능한 DBMS
관계형 모델을 사용하지 않는 데이터 저장소 또는 인터페이스
대규모 데이터를 처리하기 위한 기술로 확정성, 가용성, 높은 성능 제공
스키마-리스 로 고정된 스키마 없이 자유롭게 데이터베이스의 레코드에 필드 추가 가능
대부분 오픈 소스이며 구글 Big Table, 아파치 HBase, 아마존 Simple DB, 마이크로소프트 SSDS 등

[NoSQL 특성] - BASE
Basically Available : 언제든지 접근 가능 (가용성)
Soft-State: 노드의 상태는 외부에서 전송된 정보를 통해 결정
Eventually Consistency: 일관성을 중시하고 지향

유형: Key-Value Store, Column Family Data Store, Document Store, Graph Store
NoSQL은 CAP 이론을 기반으로 함

※ CAP 이론
분산 컴퓨팅 환경은 Availability, Consitency, Partition Tolerance 3가지 특징을 가지고 있으며, 이 중 두가지만 만족
(유효성, 일관성, 분산 가능)

이전글

빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-3)

다음글

[빅데이터 분석기사] 2과목 빅데이터 탐색(1-1)

728x90

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

[빅데이터 분석기사] 2과목 빅데이터 탐색(1-2) (0)	2024.03.12
[빅데이터 분석기사] 2과목 빅데이터 탐색(1-1) (4)	2024.03.12
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-3) (0)	2024.03.12
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-2) (1)	2024.03.11
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-1) (1)	2024.03.11

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-2)

<데이터 적재 및 저장>

1. 데이터 적재

2. 데이터 저장

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-2)

<데이터 적재 및 저장>

1. 데이터 적재

2. 데이터 저장

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역