TOP
class="layout-aside-left paging-number">
본문 바로가기
자격증/빅데이터분석기사

[빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-2)

by 기록자_Recordian 2024. 3. 12.
728x90
반응형

[목차]

 

[빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)

빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터 분석 기획 빅데이터의 이해 빅데이터 개요 및 활용 빅데이

puppy-foot-it.tistory.com


빅데이터 분석 기획 - 데이터 수집 및 저장 계획

 

<데이터 적재 및 저장>

1. 데이터 적재

(1) 데이터 적재 특징

  • 빅데이터 분석에 필요한 데이터를 수집한 후에는 데이터를 빅데이터 시스템에 적재해야 함
  • 적재할 빅데이터 유형과 실시간 처리 여부에 따라 RDBMS, HDFS, NoSQL 저장 시스템에 데이터를 적재
  • 여러 데이터 소스에서 데이터를 수집해 오기 위해, 데이터 소스를 처리하고, 분산된 여러 서버에서 데이터를 수집하는 데이터 수집 플랫폼과 저장 방법의 중요성이 점점 더 확대

(2) 데이터 적재 도구
플루언티드, 플럼, 스크라이브, 로그스태시

도구 설명
플루언티드
(Fluentd)
- 트래저 데이터에서 개발된 크로스 플랫폼 오픈 소스 데이터 수집 소프트웨어
- 주로 루비 프로그래밍 언어로 작성
플럼
(Flume)
- 많은 양의 로그 데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트와 에이전트를 활용하는 분산형 로그 수집 기술
스크라이브
(Scribe)
- 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저자하는 대용량 실시간 로그 수집 기술
로그스태시
(Logstash)
- 모든 로그 정보를 수집하여 하나의 저장소(DB, Elasticsearch 등)에 출력해주는 시스템

 


2. 데이터 저장

(1) 데이터 저장 기술
데이터베이스, 데이터 웨어하우스, 데이터 마트, 데이터 레이크, 데이터 댐
 
ㄱ. 데이터베이스 (Database)

  • 체계적으로 정렬된 데이터 집합
  • 데이터의 크기가 커지고 이용이 늘어나면서 대용량의 데이터를 저장-관리-검색-이용할 수 있는 컴퓨터 기반의 데이터베이스로 진화
장점 단점
- 데이터 중복 최소화
- 데이터 공유-일관성, 무결성, 보안성 유지
- 최신의 데이터 유지
- 데이터의 표준화 기능
- 데이터의 논리적, 물리적 독립성
- 쉬운 데이터 접근
- 데이터 저장 공간 절약
- 데이터베이스 전문가 필요
- 큰 비용 부담
- 데이터 백업과 복구가 어려움
- 시스템의 복잡합
- 대용량 디스크로 액세스가 집중되면 과부하 발생
- 통합된 시스템이기 때문에 일부에서 장애가 발생하면 전체 시스템이 중단되는 장애 발생

 
ㄴ. 데이터 웨어하우스(DW; Data Warehouse)

  • 사용자의 의사결정에 도움을 주기 위하여, 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스
  • 고도로 정제된 데이터로 스키마가 정의되어야 저장 가능
  • 특징: 주제 지향적, 통합적, 시계열적, 비휘발적

ㄷ. 데이터 마트(DM; Data Mart)

  • 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 적은 규모의 데이터 웨어하우스
  • 전사적으로 구축된 데이터 속의 특정 주제, 부서 중심으로 구축된 소규모 단위 주제의 데이터 웨어하우스
  • DW 환경에서 정의된 접근 게층으로, 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할
  • DW의 부분이며, 대개 특정한 조직 혹은 팀에서 사용하는 것을 목적
  • 데이터 마트 개발: 분석 목적별, 주제별, 부서별로 데이터를 수집하고 변형하여 한 곳에 모으는 작업

ㄹ. 데이터 레이크 (Data Lake)

  • 정형, 반정형, 비정형 데이터를 비롯한 모든 가공되지 않은 다양한 종류의 데이터 (Raw Data)를 저장할 수 있는 시스템 또는 중앙 집중식 데이터 저장소
  • 구조화된 데이터 - RDBMS의 테이블에 저장
  • 반구조화된 데이터 - CSV, XML, JSON에 저장
  • 비정형 데이터 - 바이너리 데이터 형태로 저장
  • 저장할 때 스키마와 상관없이 저장 가능
  • schema-on-read 로 읽을 때 스키마가 저장되어 데이터를 읽을 수 있음

출처: 무지로그 (https://mujilog.tistory.com)

 
ㅁ. 데이터 댐(Data Dam)

  • 4차 산업혁명의 디지털 경쟁력 확보를 위해 모든 산업의 데이터를 데이터 댐에 쌓는다는 의미
  • 어떤 값을 포함하고 있는 가공되지 않은 1차 데이터를 모아 놓은 저장소

(2) 데이터 저장 기술
GFS, HDFS, 러스터 / 오라클 RAC, IBM DB2, MS SQL, MySQL / 구글 빅테이블, HBase, 아마존 Simple DB, SSDS

기술 내용 제품
분산 파일
시스템
컴퓨터 네트워크를 통해 공유하는 여러 호스트 컴퓨터의 파일에 접근할 수 있게 하는 파일 시스템 - 구글 파일 시스템(GFS)
- 하둡 분산 파일 시스템(HDFS)
- 러스터
데이터베이스
클러스터
관계형 데이터베이스 관리 시스템으로 하나의 데이터베이스를 여러 개의 서버상에 구축하는 시스템 - 오라클 RAC
- IBM DB2 ICE
- MSSQL, MySQL
NoSQL 전통적인 RDBMS 와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인 연산을 사용할 수 없으며, 수평적으로 확장 가능한 DBMS - 구글 빅테이블
- HBase
- 아마존 Simple DB
- 마이크로소프트 SSDS

 
(3) 빅데이터 저장 기술 - 분산 파일 시스템 상세
 
구글 파일 시스템(GFS), 하둡 분산 시스템(HDFS), 러스터
 
ㄱ. 구글 파일 시스템(GFS; Google File System)

  • 구글의 대규모 클러스터 서비스 플랫폼의 기반이 되는 파일 시스템
  • 파일을 고정된 크기(64MB)의 청크들로 나누며 각 청크와 여러 개의 복제본을 청크 서버에 분산하여 저장
  • 구성요소: 클라이언트, 마스터, 청크 서버

ㄴ. 하둡 분산 시스템 (HDFS; Hadoop Distributed File System)

  • 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 저장된 데이터를 빠르게 처리할 수 있게 하는 분산 파일 시스템
  • 저사양의 다수의 서버를 이용해서 스토리지를 구성할 수 있어 기존의 대용량 파일 시스템에 비해 비용관점에서 효율적
  • 블록 구조의 파일 시스템으로 파일을 특정 크기의 블록으로 나누어 분산된 서버에 저장
  • 블록 크기는 64MB 에서 하둡 2.0부터는 1278MB로 증가
  • 구성요소: 하나의 네임 노드, 하나 이상의 보조 네임 노드, 다수의 데이터 노드
  • 네임 노드는 GFS의 마스터, 데이터 노드는 청크 서버와 유사

ㄷ. 러스터 (Lustre)

  • 클러스터 파일 시스템에서 개발한 객체 기반의 클러스터 파일 시스템
  • 구성요소: 고속 네트워크로 연결된 클라이언트 파일 시스템, 메타데이터 서버, 객체 저장서버
  • 계층화된 모듈 구조로 TCP/IP, 인피니밴드 같은 네트워크 지원

(4) 빅데이터 저장 기술 - 데이터베이스 클러스터 상세
 
데이터베이스 클러스터: 하나의 데이터베이스를 여러 개의 서버상에 분산하여 구축하는 것

  • 데이터를 통합할 때, 성능과 가용성의 향상을 위해 데이터베이스 파티셔닝 또는 클러스터링 이용
  • 데이터베이스 시스템을 구성하는 형태에 따라 단일 서버 파티셔닝과 다중 서버 파티셔닝으로 구분
  • 종류: 공유 디스크 클러스터, 무공유 클러스터

(5) 빅데이터 저장 기술 - NoSQL (Not Only SQL)
 

  • 대규모 데이터를 저장하기 위하여 고정된 테이블 스키마가 없고 조인 연산을 사용할 수 없으며, 수평적으로 확장이 가능한 DBMS
  • 관계형 모델을 사용하지 않는 데이터 저장소 또는 인터페이스
  • 대규모 데이터를 처리하기 위한 기술로 확정성, 가용성, 높은 성능 제공
  • 스키마-리스 로 고정된 스키마 없이 자유롭게 데이터베이스의 레코드에 필드 추가 가능
  • 대부분 오픈 소스이며 구글 Big Table, 아파치 HBase, 아마존 Simple DB, 마이크로소프트 SSDS 등
[NoSQL 특성] - BASE
Basically Available : 언제든지 접근 가능 (가용성)
Soft-State: 노드의 상태는 외부에서 전송된 정보를 통해 결정
Eventually Consistency: 일관성을 중시하고 지향

 

  • 유형: Key-Value Store, Column Family Data Store, Document Store, Graph Store
  • NoSQL은 CAP 이론을 기반으로 함

※ CAP 이론
분산 컴퓨팅 환경은 Availability, Consitency, Partition Tolerance 3가지 특징을 가지고 있으며, 이 중 두가지만 만족
(유효성, 일관성, 분산 가능)


이전글

빅데이터 분석기사] 1과목 빅데이터 분석 기획 (3-1-3)

 
다음글

[빅데이터 분석기사] 2과목 빅데이터 탐색(1-1)

728x90
반응형