[목차]
빅데이터 분석 기획 - 데이터 수집 및 저장 계획
<데이터 적재 및 저장>
1. 데이터 적재
(1) 데이터 적재 특징
- 빅데이터 분석에 필요한 데이터를 수집한 후에는 데이터를 빅데이터 시스템에 적재해야 함
- 적재할 빅데이터 유형과 실시간 처리 여부에 따라 RDBMS, HDFS, NoSQL 저장 시스템에 데이터를 적재
- 여러 데이터 소스에서 데이터를 수집해 오기 위해, 데이터 소스를 처리하고, 분산된 여러 서버에서 데이터를 수집하는 데이터 수집 플랫폼과 저장 방법의 중요성이 점점 더 확대
(2) 데이터 적재 도구
플루언티드, 플럼, 스크라이브, 로그스태시
도구 | 설명 |
플루언티드 (Fluentd) |
- 트래저 데이터에서 개발된 크로스 플랫폼 오픈 소스 데이터 수집 소프트웨어 - 주로 루비 프로그래밍 언어로 작성 |
플럼 (Flume) |
- 많은 양의 로그 데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트와 에이전트를 활용하는 분산형 로그 수집 기술 |
스크라이브 (Scribe) |
- 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저자하는 대용량 실시간 로그 수집 기술 |
로그스태시 (Logstash) |
- 모든 로그 정보를 수집하여 하나의 저장소(DB, Elasticsearch 등)에 출력해주는 시스템 |
2. 데이터 저장
(1) 데이터 저장 기술
데이터베이스, 데이터 웨어하우스, 데이터 마트, 데이터 레이크, 데이터 댐
ㄱ. 데이터베이스 (Database)
- 체계적으로 정렬된 데이터 집합
- 데이터의 크기가 커지고 이용이 늘어나면서 대용량의 데이터를 저장-관리-검색-이용할 수 있는 컴퓨터 기반의 데이터베이스로 진화
장점 | 단점 |
- 데이터 중복 최소화 - 데이터 공유-일관성, 무결성, 보안성 유지 - 최신의 데이터 유지 - 데이터의 표준화 기능 - 데이터의 논리적, 물리적 독립성 - 쉬운 데이터 접근 - 데이터 저장 공간 절약 |
- 데이터베이스 전문가 필요 - 큰 비용 부담 - 데이터 백업과 복구가 어려움 - 시스템의 복잡합 - 대용량 디스크로 액세스가 집중되면 과부하 발생 - 통합된 시스템이기 때문에 일부에서 장애가 발생하면 전체 시스템이 중단되는 장애 발생 |
ㄴ. 데이터 웨어하우스(DW; Data Warehouse)
- 사용자의 의사결정에 도움을 주기 위하여, 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스
- 고도로 정제된 데이터로 스키마가 정의되어야 저장 가능
- 특징: 주제 지향적, 통합적, 시계열적, 비휘발적
ㄷ. 데이터 마트(DM; Data Mart)
- 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 적은 규모의 데이터 웨어하우스
- 전사적으로 구축된 데이터 속의 특정 주제, 부서 중심으로 구축된 소규모 단위 주제의 데이터 웨어하우스
- DW 환경에서 정의된 접근 게층으로, 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할
- DW의 부분이며, 대개 특정한 조직 혹은 팀에서 사용하는 것을 목적
- 데이터 마트 개발: 분석 목적별, 주제별, 부서별로 데이터를 수집하고 변형하여 한 곳에 모으는 작업
ㄹ. 데이터 레이크 (Data Lake)
- 정형, 반정형, 비정형 데이터를 비롯한 모든 가공되지 않은 다양한 종류의 데이터 (Raw Data)를 저장할 수 있는 시스템 또는 중앙 집중식 데이터 저장소
- 구조화된 데이터 - RDBMS의 테이블에 저장
- 반구조화된 데이터 - CSV, XML, JSON에 저장
- 비정형 데이터 - 바이너리 데이터 형태로 저장
- 저장할 때 스키마와 상관없이 저장 가능
- schema-on-read 로 읽을 때 스키마가 저장되어 데이터를 읽을 수 있음
ㅁ. 데이터 댐(Data Dam)
- 4차 산업혁명의 디지털 경쟁력 확보를 위해 모든 산업의 데이터를 데이터 댐에 쌓는다는 의미
- 어떤 값을 포함하고 있는 가공되지 않은 1차 데이터를 모아 놓은 저장소
(2) 데이터 저장 기술
GFS, HDFS, 러스터 / 오라클 RAC, IBM DB2, MS SQL, MySQL / 구글 빅테이블, HBase, 아마존 Simple DB, SSDS
기술 | 내용 | 제품 |
분산 파일 시스템 |
컴퓨터 네트워크를 통해 공유하는 여러 호스트 컴퓨터의 파일에 접근할 수 있게 하는 파일 시스템 | - 구글 파일 시스템(GFS) - 하둡 분산 파일 시스템(HDFS) - 러스터 |
데이터베이스 클러스터 |
관계형 데이터베이스 관리 시스템으로 하나의 데이터베이스를 여러 개의 서버상에 구축하는 시스템 | - 오라클 RAC - IBM DB2 ICE - MSSQL, MySQL |
NoSQL | 전통적인 RDBMS 와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인 연산을 사용할 수 없으며, 수평적으로 확장 가능한 DBMS | - 구글 빅테이블 - HBase - 아마존 Simple DB - 마이크로소프트 SSDS |
(3) 빅데이터 저장 기술 - 분산 파일 시스템 상세
구글 파일 시스템(GFS), 하둡 분산 시스템(HDFS), 러스터
ㄱ. 구글 파일 시스템(GFS; Google File System)
- 구글의 대규모 클러스터 서비스 플랫폼의 기반이 되는 파일 시스템
- 파일을 고정된 크기(64MB)의 청크들로 나누며 각 청크와 여러 개의 복제본을 청크 서버에 분산하여 저장
- 구성요소: 클라이언트, 마스터, 청크 서버
ㄴ. 하둡 분산 시스템 (HDFS; Hadoop Distributed File System)
- 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 저장된 데이터를 빠르게 처리할 수 있게 하는 분산 파일 시스템
- 저사양의 다수의 서버를 이용해서 스토리지를 구성할 수 있어 기존의 대용량 파일 시스템에 비해 비용관점에서 효율적
- 블록 구조의 파일 시스템으로 파일을 특정 크기의 블록으로 나누어 분산된 서버에 저장
- 블록 크기는 64MB 에서 하둡 2.0부터는 1278MB로 증가
- 구성요소: 하나의 네임 노드, 하나 이상의 보조 네임 노드, 다수의 데이터 노드
- 네임 노드는 GFS의 마스터, 데이터 노드는 청크 서버와 유사
ㄷ. 러스터 (Lustre)
- 클러스터 파일 시스템에서 개발한 객체 기반의 클러스터 파일 시스템
- 구성요소: 고속 네트워크로 연결된 클라이언트 파일 시스템, 메타데이터 서버, 객체 저장서버
- 계층화된 모듈 구조로 TCP/IP, 인피니밴드 같은 네트워크 지원
(4) 빅데이터 저장 기술 - 데이터베이스 클러스터 상세
데이터베이스 클러스터: 하나의 데이터베이스를 여러 개의 서버상에 분산하여 구축하는 것
- 데이터를 통합할 때, 성능과 가용성의 향상을 위해 데이터베이스 파티셔닝 또는 클러스터링 이용
- 데이터베이스 시스템을 구성하는 형태에 따라 단일 서버 파티셔닝과 다중 서버 파티셔닝으로 구분
- 종류: 공유 디스크 클러스터, 무공유 클러스터
(5) 빅데이터 저장 기술 - NoSQL (Not Only SQL)
- 대규모 데이터를 저장하기 위하여 고정된 테이블 스키마가 없고 조인 연산을 사용할 수 없으며, 수평적으로 확장이 가능한 DBMS
- 관계형 모델을 사용하지 않는 데이터 저장소 또는 인터페이스
- 대규모 데이터를 처리하기 위한 기술로 확정성, 가용성, 높은 성능 제공
- 스키마-리스 로 고정된 스키마 없이 자유롭게 데이터베이스의 레코드에 필드 추가 가능
- 대부분 오픈 소스이며 구글 Big Table, 아파치 HBase, 아마존 Simple DB, 마이크로소프트 SSDS 등
[NoSQL 특성] - BASE
Basically Available : 언제든지 접근 가능 (가용성)
Soft-State: 노드의 상태는 외부에서 전송된 정보를 통해 결정
Eventually Consistency: 일관성을 중시하고 지향
- 유형: Key-Value Store, Column Family Data Store, Document Store, Graph Store
- NoSQL은 CAP 이론을 기반으로 함
※ CAP 이론
분산 컴퓨팅 환경은 Availability, Consitency, Partition Tolerance 3가지 특징을 가지고 있으며, 이 중 두가지만 만족
(유효성, 일관성, 분산 가능)
이전글
다음글
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터 분석기사] 2과목 빅데이터 탐색(1-2) (0) | 2024.03.12 |
---|---|
[빅데이터 분석기사] 2과목 빅데이터 탐색(1-1) (4) | 2024.03.12 |
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-3) (0) | 2024.03.12 |
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-2) (1) | 2024.03.11 |
[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-1) (1) | 2024.03.11 |