데이터 산업의 모든 것! 데이터 수집, 생성부터 유통, 생태계까지!
데이터 산업의 시장 참여자는 누구이며,
그들은 지금 무엇을 하는가?
데이터 과학자가 알려주는
데이터 산업의 A to Z!
4차 산업혁명에 따른 데이터 기반 기업 혁신 모델을 제시한다!
[목차]
|
데이터 자본주의가 온다
- 빅데이터를 기반으로 산업 전반에 큰 영향을 미친 데이터 유통 경제의 형성
- 데이터 유통 경제가 전통 산업의 기본 틀에 미친 영향과 데이터를 기반으로 한 신사업 분석
1. 공유 경제와 데이터 경제
- 공유 경제: 물건 등을 소유하지 않고 빌리거나 빌려 주는 개념의 경제
- 데이터 공유: 공유 경제의 가장 기본이 되는 인프라 (자동차 셰어링, 바이크 셰어링, 태양 에너지 공급, 장난감 대여, 도서 대여 등)
공유 경제의 진화
- 초기: 아마존이나 이베이 고객들이 해당 기업의 플랫폼을 이용해 다른 고객에게 상품 판매하는 방식(C2C)의 직거래 형태
- 최근: 에어비앤비나 우버 등, 기업들은 플랫폼만 제공하고 고객들은 해당 플랫폼을 공유하면서 직거래 하는 형태
- 미래: 블록체인을 활용해 개인들이 중개자 없이 상품이나 서비스를 직거래하는 형태
※ 블록체인: 데이터를 블록에 저장해 누구도 임의로 수정할 수 없고, 누구나 바뀐 결과를 볼 수 있는 분산 컴퓨팅 기술 기반의 데이터 위,변조 방지 기술
데이터 경제 시스템
데이터 경제 시스템: 데이터와 정보를 공유 및 거래하는 대가로 요금을 지불하는 시스템
공유 경제의 기반이 되는 데이터와 정보의 거래가 시장에서 지속적으로 순환하는 시스템
- 데이터 경제시스템에는 개인, 기업, 공공 기관 등과 같은 다양한 주체가 참여
- 데이터 제공자가 제공하는 무료 데이터, 공개 데이터와 상업성 민간 데이터가 데이터 가공 및 중개 기관이나 기업을 거치면서 정제된 데이터를 데이터 수요자가 구매해 활용하는 방식으로 구성.
- 공급자로는 주로 IT 관련 기업들이 있으며, 이외에 데이터를 수집하는 기업, 데이터를 통합 / 정제 / 가공하는 기업, 데이터를 분석하는 기업, 데이터를 기반으로 비즈니스 서비스를 제공하는 기업 등
데이터 경제의 규모는 전 세계적으로 2018년 1,660억 달러에서
2022년 2,600억 달러로 성장
2. 데이터 자본과 데이터 현금화
오늘날 데이터는 시장 경제 시스템에 따라 거래됨으로써 '자산'으로서의 의미를 가짐.
즉, 경제 주체들이 시장 경제 시스템 안에서 데이터를 기반으로 이익을 추구할 수 있고, 데이터를 자본이나 상품으로 거래하고 현금화할 수 있음. ▶ 데이터의 자본 체계가 형성됐다는 것을 의미.
데이터 현금화와 상품화
데이터를 현금화하는 2가지 방법
1. 기업의 내부에서 데이터를 활용해 효율적으로 운용함으로써 비용을 최적화 하거나 매출이나 이익을 최대화
▶ 간접적 현금화 방식
2. 데이터에서 찾은 인사이트를 상품 및 서비스에 탑재해 가치를 추가로 높이거나 데이터 자체를 상품화해 거래
▶ 직접적 현금화 방식
데이터 상품화의 4단계
1단계: 전혀 가공되지 않은 원천 데이터
2단계: 정제돼 단순히 연결 및 통합된 데이터
3단계: 데이터 융합으로 만들어진 데이터
4단계: 분석 알고리즘을 활용한 지수 또는 추정 데이터
데이터의 가치
- 데이터는 완전한 무형 자산은 아니며, 운영 프로세스에 사용되는 데이터의 경우 물리적 유형 자산으로 취급되기도 함.(은행 잔고, 유통 회사들의 거래 이력 등)
- 데이터 자산은 '품질(정확도)'이 가치에 결정적인 영향을 미침.
3. 데이터 시장
구매 데이터의 가치는 시장에서 생산자와 사용자 간의 반복적인 교환 및 거래로 결정.
데이터 가격
데이터 가격은 비용, 품질, 데이터의 용도, 대체 가능한 데이터의 시장 가격, 고객의 필요 등 매우 복잡한 요소들에 영향을 받아 결정.
데이터 판매 정책
1. 무료 데이터 정책: 샘플 데이터, 저품질 데이터, 공공 데이터 등
2. 사용기반 가격 정책: 데이터의 단위별 사용 시간을 기반으로 하는 정책
3. 패키지 가격 정책: 사용 기반 정책에서 발전한 모델, 기본 고정 가격을 정해 놓고 그 이상 추가로 사용하는 데이터에 대해 사용 기반 가격 정책 활용
4. 일정 단위 정액 가격 정책: 단순 가격 정책 (처음 사용 시 한 번만 요금 지불)
5. 프리미엄 가격 정책: 처음에는 무료 또는 저가 정책 > 고객이 고급 서비스나 완전 상품을 원하면 요금을 추가로 지불하게끔 유도
데이터 중개 및 가공 서비스 사업 모델
1. 데이터 중개 모델: 데이터를 연결만 하는 모델
2. 데이터 가공 서브시 모델 및 사업자: 플랫폼 및 데이터 제공, 수집, API 를 이용한 데이터 수집, 정제한 데이터의 리포팅 및 분석 서비스 또는 데이터 기반 서비스를 제공하는 기업들이 주로 운용 + 데이터 관리 및 데이터 보안, 보호 컨설팅 업체들
크레딧 뷰로와 데이터 뷰로
1. 크레딧 뷰로: 주로 금융 분야 (NICE 신용 정보, 트랜스 유니온, 액스페리언, 에퀴팩스 등)
2. 데이터 뷰로: 데이터 가공 사업을 영위하는 기업 (시그나이트, 퀀들 등)
4. 데이터 보안과 개인정보 보호
오늘날 데이터 유통 산업이 신규 일자리 창출, 침체된 경제를 활성화시키는 촉매 역할을 하고 있으나, 빅데이터 수집 및 활요에 따른 민감한 개인 정보의 보호와 데이터 유출 이라는 위험한 숙제를 안고 있음.
데이터의 보호 및 보안
- 데이터의 중요성과 민감도에 따라 등급 체계 생성
- 데이터의 관리 시스템을 마련해 활용을 통제
- 데이터 가공 서비스 기관에서 전문적으로 관리
데이터 가공 기관의 데이터 보호와 보안을 위한 시스템적 역할
- 유럽의 개인정보 보호 법령(GDPR)
- 미국 캘리포니아 주 [소비자 개인 정보 보호법]
- 우리나라의 데이터 등급 체계 (기밀/개인정보/대외비/공개자료)
- 디지털 권리 관리
- 데이터 가공 서비스 기관: 신뢰할 수 있는 제3자 모델
5. 4차 산업혁명: 스마트 혁신 사회
산업별 스마트 사회의 사례
스마트 금융 | 빅데이터, 인공지능 등과 같은 IT 기술로 고객들이 원하는 형태의 금융 관련 요구 충족 |
스마트 부동산 | 부동산 서비스를 제공하는 프롭테크가 국내 부동산 사이에서 영향력 커짐. * 프롭테크: Property (부동산) + Technology (기술) |
스마트 물류 | 인공지능, 정보통신기술 등과 같은 다양한 신기술을 활용해 물류 현장의 자동화 설비를 구축 > 수송에서 보관, 포장, 배송까지 최근 물류 현장의 전 과정에서 자동화 기계 활용 > 사물인터넷과 빅데이터 기술을 활용한 물류 정보 제공, 물류 서비스 및 자산 관리 시스템 등의 개발 |
스마트 소매 유통 | 재고 관리, 수요 예측, 가격 계산, 공급망 관리 등 주요 영역에 데이터 기반 기술 적극 활용 고객 경험의 중요성이 커짐에 따라 제품 추천 및 프로모션 최적화를 위한 인공지능과 머신러닝 기술 활용 |
스마트 광고 | 스마트 TV, IP-TV. 스마트폰, 디지털 사이니지 등 IP 기술이 기반인 스마트 미디어를 이용하는 새로운 패러다임의 광고. |
스마트 법률 | 리컬테크 전자 증거 개시와 디지털 포렌식, 인공지능 법률 기술, 변호사와 법률 검색, 온라인 법률 서비스 등 |
스마트 농업 | IT 기술을 농업의 생산, 가공, 유통, 소비 전반에 접목해 작물의 생육 환경을 자동으로 관리하고 생산 효율을 높일 수 있는 기술 |
스마트 헬스 케어 | 개인의 건강과 의료에 관한 정보, 기기, 시스템, 플랫폼을 다루는 산업 분야 |
스마트 교육 | 학습 분석 + 교육 관리 분석 - 학습분석: 학습자의 데이터를 측정, 수집, 분석, 보고 하는 것 - 교육 관리 분석: 빅데이터를 기반으로 한 교육 조직 운영과 정책 개발 |
스마트 팩토리 | 공장 내 설비 및 기계에 설치된 사물 인터넷 센서로 데이터를 수집 및 분석해 공장 내의 모든 상황을 일목요연하게 살펴보고, 이를 분석해 목적한 바에 따라 스스로 제어하는 공장 |
스마트 시티 | 도시에 정보통신기술과 빅데이터 등의 신기술을 접목해 각종 문제를 해결하고, 지속 가능한 도시를 만드는 모델 |
스마트 모빌리티 서비스 | 기존의 가치 사슬(개발-생산-판매-AS) 에서 벗어나 자동차와 관련된 다양한 서비스를 지원 |
스마트 아트 | 인공지능, 가상현실, 빅데이터 등의 기술과 결합해 새로운 아트 테크를 선보이는 것 |
데이터 경제만이 살길이다
- 데이터 경제가 저성장 시대에 접어들고 있는 우리에게 어떻게 다가왔는가
- 우리는 지금까지 어떤 문제를 해결해 왔는가
- 글로벌 기업에서 시대별 문제를 해결하기 위해 데이터 중심의 기업 경쟁력을 키워 온 과정
- 글로벌 기업들은 어떤 방법으로 데이터를 활용하고 분석 경쟁력을 강화하고 있는가
6. 국가가 저성장의 늪에 빠지는 이유
인구 대비 경제 규모의 한계와 인구 구조의 양극화
저출산 ▶ 핵심 생산 인구 감소 ▶ 노동력 감소, 인건비 상승 ▶ 해외 설비 투자 증가 ▶ 국내 민간 소비 위축 ▶ 경제 성장률 감소
기업 핵심 경쟁 비즈니스의 순환적 요인
필립 코틀러: 핵심 경쟁 비즈니스는 거의 40년을 주기로 생성과 쇠퇴 반복
▶ 핵심 경쟁 비즈니스 주기는 한 주기가 끝나면 다음 주기가 시작되는 것이 아니라 서로 겹침.
우리나라의 단계별 소매 유통 형태는 미국보다 대략 짧게는 10년, 길게는 20년 정도 늦게 진화
신규 설비 투자 부족과 저임금 산업 구조
한국은행, 수출입은행: 국내 설비투자는 2000년을 기준으로 지속적으로 감소하다가 2005년을 기점으로 현격히 감소
▶ 1980년대 초기에 투자된 설비들은 노후되고 추가적인 고정 설비 투자는 거의 없는 산업 구조
▶ 제조 관련 산업 취약
한국의 서비스 산업은 대부분 저부가 가치 사업 중심이며 고부가 가치 사업의 비중은 미국과 유럽 국가들의 평균에 비해 현저히 저조 - 매켄지 글로벌 연구소, 한국개발연구원 발표 자료
▶ 향후 IT 서비스, 경영 지원 서비스, 사회 복지 서비스 등 전문 서비스 부문에서 더 많은 고임금 일자리를 창출할 필요
산업 간 또는 기업 내 사일로 효과가 초래한 비효율성
사일로 효과 (Silo Effect)
기업 내 각 사업부가 총체적 기업 운영의 최적화보다
개별 사업의 운영을 최우선시함으로써 전사적 기업 운영 차원에서
비용 및 투자의 비효율성을 초래하는 상황
▶ 개별 기업의 의사결정에 따라 내부 운영 구조나 프로세스를 혁신적으로 개선해야만 극복할 수 있는 문제
데이터 경제는 저성장 시대의 생존 방법
- 데이터를 기반으로 의사결정을 하는 기업들의 생산성이 5~6% 향상
- 기업들이 데이터 활용 효율성을 1% 높이면 다양한 업계에서 수익이 향상돼 2030년에는 전 세계 GDP에 약 15조 달러 추가 (미국 경제 규모의 2배)
- 인구 데이터 과학 학문 대두 / 인구 데이터 과학: 데이터를 활용해 인구에 관련된 트렌드, 건강, 환경, 그리고 사회 문제를 연구, 분석해 국가나 지방 정책에 반영
7. 시대에 따른 데이터 기반 혁신과 성장
기업의 데이터 분석 경쟁력과 진화 배경
1. 데이터를 이용해 찾은 인사이트가 기업에 미치는 효과
- 기업들은 불확실성을 줄이기 위해 다양하고 방대한 데이터와 정보를 기록, 수집, 분석, 예측, 활용 하기 위해 막대한 자금과 인력 투자
- 데이터와 정보는 시간이 지나면 가치가 떨어지는 속성을 지님: 가치를 재생시키기 위한 데이터 가공 및 관리 기술과 가공한 데이터에서 인사이트를 찾기 위한 데이터 분석 기술 필요
- 데이터 분석으로 찾은 인사이트를 현장에 적용 하기 위해 현장을 설득하는 과정 필요
- 해당 인사이트를 현업 프로세스에 적용하면 기업의 기존 수익 모델을 바꾸는 등과 같은 파급 효과를 얻을 수 있음
2. 글로벌 기업들의 데이터 분석 경쟁력 성장 배경
- 우리 기업들보다 업종의 생애 주기를 빨리 겪은 글로벌 기업들은 판매-유통 시대부터 가격 관련 데이터를 수집 및 분석했으며, 산업이 성숙기에 접어드는 마케팅 시대에는 마케팅의 최적 효과와 고객 관련 데이터 분석
- 가격 경쟁 시대와 마케팅-광고 시대의 정점에 도달하면 기업들은 이익이 지속적으로 줄어드는 구조에서 벗어나기 위해 신사업, 신상품, 신시장 개척 ▶ 외부의 공개 데이터나 구매 데이터를 사용하기 시작 / 최근에는 웹 로그와 비정형 대량 데이터를 분석해 새로운 성장-발전의 계기 마련
- 데이터 분석 경쟁력이 각 단계별 비즈니스 시대를 지나면서 지속적으로 발전해 기업 문화가 됨 (빅데이터 산업이나 사물 인터넷 관련 수익 모델을 만들어 내는 기본 토양)
8. 데이터 기반 사업 모델과 데이터 전략
데이터 중심의 비즈니스 전략은 항상 이긴다
기존 시스템인 산업 시대에서 새로운 시스템인 데이터 시대로 넘어가기 위해서 필요한 조건
- IT를 기반으로 한 클라우드와 빅데이터 중심의 인프라-아키텍처에서 비즈니스 중심의 IT, 즉 셀프 서비스 데이터와 분석 그리고 매출 및 수익 위주, 즉 비즈니스 가치를 추구하는 사물 인터넷, 데이터 과학, 스마트 애플리케이션 시스템 등으로의 전환 필요
데이터 활용 모델 4가지
- 효율성 모델: 지속적 저비용 기반의 수행 성과 제공
- 효과성 모델: 유연한 통합과 협력을 지원하는 모델
- 전문성 모델: 특정 전문 기술이나 영역 지식을 활용하는 모델
- 혁신성 모델: 창의력과 새로운 아이디어를 실현하는 모델
데이터 기반 비즈니스 모델 - 빌 슈마르조 모델
빌 슈마르조 모델: 미국의 스토리지 업체 델 EMC의 CTO 인 빌 슈마르조가 구상, 기업 내부의 데이터 활용 혁신 과정을 고려해 만든 데이터 기반 비즈니스 모델
1. 모니터링 단계
2. 인사이트 단계
3. 최적화 단계
4. 데이터 현금화
5. 사업 모델 혁신
딜로이트 컨설팅이 제시한 6가지 비즈니스 모델
1. 상품 개발 혁신 모델
2. 시스템 혁신 모델
3. 데이터 제공 모델
4. 데이터 중개 모델
5. 가치 사슬 통합 모델
6. 물류 네트워크 모델
데이터 활용 단계적 전략
- 데이터 전략은 데이터가 '자산'이라는 인식에서 시작
- 데이터 자산은 수없이 사용해도 고갈되지 않고 재사용 가능
- 데이터를 자산으로 인식하기 위해서는 '데이터 거버넌스적인 접근' 필요
※ 데이터 거버넌스: 데이터 활용을 중심으로 한 인력, 프로세스, 정책에 관련된 일련의 시스템적 접근
데이터를 자산화하라
- 개별 기업의 데이터 분석 경쟁력을 갖추기 위한 데이터 자산화 과정
- 데이터 자산화 과정에 중요한 환경을 제공할 데이터 가공과 관리 플랫폼
- 분산된 데이터를 통합 및 정제하는 데 필요한 데이터 거버넌스
9. 데이터는 살아 있는 생물이다
데이터의 생명 주기
(1) 데이터 수집: 데이터를 모으는 것
데이터를 생성-수집하는 방법
ㄱ. 데이터 취득: 기업의 외부에 이미 존재하는 데이터 입수
ㄴ. 데이터 기입: 기업에 존재하지 않던 데이터를 새로 생성
ㄷ. 데이터 수신: 시스템이나 장치에서 생성된 신호 등과 같은 데이터 집
(2) 데이터 관리 및 정제: 데이터의 일관성을 유지하기 위해 표준화 하거나 데이터의 가치를 높이기 위해 다른 데이터를 더 추가하는 방식 등을 이용해 데이터를 정제
(3) 데이터 융합: 데이터를 융합하고 분석해 데이터의 가치를 찾아내는 것
(4) 데이터 활용: 기업을 운영-관리할 때 데이터를 정보화해 활용하는 것
(5) 데이터 공개-공유: 데이터를 기업의 외부로 내보내 다른 기업이나 사람이 활용하게 하는 것.
(6) 데이터 보관: 데이터를 완전히 제거하기 전에 일정 기간동안 보관
(7) 데이터 제거: 기업의 모든 데이터를 삭제해 없애는 것
10. 데이터 연결, 통합, 융합
데이터 개발 기획-생성-수집-저장
- 데이터를 잘 활용하려면 데이터를 생성하기 위해 어떤 데이터를 어디에서 어떤 형태로 수집할 지 정하는 데이터 기획에 관심을 가져야 함.
- 데이터 기획: 데이터의 속성과 프로세스를 전체적으로 정의하고 찾아내는, 데이터 활용을 위한 첫 번째 작업. (비즈니스 규칙을 적용한 저장 시스템 및 데이터 통합에도 관여.)
- 수집된 데이터는 저장하는데, 이때 저장 형태와 주기는 데이터의 활용 주기와 수집 속도에 따라 결정.
- 람다 아키텍처: 데이터의 수집 속도를 반영한 아키텍처. 오래된 데이터를 보관하는 배치 테이블과 실시간 데이터를 가진 실시간 테이블을 서로 연결해 결과값을 얻을 수 있도록 구성한 아키텍처
- 데이터 파밍: 원천 데이터 수집과 함께 데이터의 활용 결과를 다양한 시나리오에 따라 시뮬레이션 하는 프로세스. 데이터 기획과 개발의 가장 좋은 사례.
데이터 연결
- 데이터 시대에서 기업을 성공적으로 이끌기 위한 최우선 과제는 모든 수단을 동원해 내-외부데이터를 연결-통합-융합할 수 있는 환경 조성
- 데이터의 병목 현상은 기업의 데이터를 활용함에 있는 많은 시간과 투자를 낭비하게 만드는 원인으로 데이터의 가치를 높이기 위해서는 반드시 데이터를 연결-통합-융합하는 과정 필요
- 각 데이터 세트가 최소한의 연결이라도 되어 있어야 더 많은 정보를 확보할 가능성이 커지고 그만큼 데이터의 가치도 높아짐. ▶ 적정한 데이터 식별자 공유는 데이터 연결의 필수조건
데이터 통합 및 융합
■ 데이터 통합: 여러 개의 데이터 세트들을 식별자로 연결한 후 중복 식별자들을 걸러내서 단독 식별자만으로 데이터 세트를 구성하고, 필요한 내용에 대해 중복 정보를 제거하거나 잘못된 포인트 값을 수정하거나 빠진 포인트 값을 채워 넣는 등의 정제 작업을 하는 것.
원천 데이터는 2~3년 정도 지나면 20~30%의 가치만 남고 대부분이 소멸 ▶ 데이터를 다시 사용하려면 정제 필요
데이터 통합은 사용자 간 데이터 의미에 대한 표준화 작업을 통해 데이터의 일관성을 유지하게 하거나, 업데이트 하거나, 정제 작업을 함으로써 고품질의 데이터를 제공하는 역할 수행
■ 데이터 융합: 통합 데이터에 데이터 분석 기법을 적용해서 필요한 정보를 좀 더 정교하게 만드는 작업
여러 변수의 조합을 통해 필요한 정보를 만들어내는 것.
11. 데이터 관리
- 기업이 건강하려면 잘 정제된 데이터가 기업의 곳곳에 적시에, 원활하게 제공돼야 함.
- 데이터 관리 플랫폼: 데이터 관리를 수행하는 플랫폼
데이터 관리 플랫폼
- 프라이빗 데이터 관리 플랫폼: 개별 기업의 내-외부 데이터를 가공
- 퍼블릭 데이터 관리 플랫폼: 산업 간 또는 기업 간 데이터의 연결과 광고나 마케팅의 활용을 도움.
데이터 식별 관리
- 식별자: 어떤 대상을 유일하게 식별-구별할 수 있는 이름.
- 기업의 데이터 활용은 고객의 개인 정보를 보호하는 정책에서 시작.
▶ 데이터 비식별, 시스템 접근 권한, 내부 교육 등과 같은 방법을 이용해 데이터 활용 방안 마련 필요
(비식별화 방식: 가명화, 익명화, 데이터 통합 방식 등)
- 데이터 온보딩: 온라인 데이터와 오프라인을 연결하는 것. 디지털 세계에서 고객과 기업 간의 양방향 의사 소통을 가능하게 하는 작업.
식별 ID 매칭
식별 ID를 매칭하는 방법
1) 이미 알고 있는 ID 사용
2) 통계 알고리즘을 사용해 ID 추정
식별 엔진
식별 ID 관리와 ID 매칭 프로세스를 위해서는 전사적으로 실시간 업데이트가 가능한 '식별 엔진' 필요.
식별 엔진: 모든 채널과 디바이스의 데이터를 연결
데이터 옵스
- 업계에서 사용하는 데이터 운영 시스템
- 데이터 파이프라인에서 병목 현상을 일으키는 데이터 품질-가격-비용 문제, 개인 정보, 법 적용, 데이터 서비스 과정에서의 품질 문제, 분배 과정에서의 가격-비용 문제 등 데이터 운영 시스템을 현업에 적용하거나 운영하는 과정에서 발생하는 일련의 문제 해결
- 데이터 보안이나 정책 관련 업무를 현장에 적용
- 다양한 데이터 활용 기능 요소 간의 지속적인 협력을 원활
AI 플랫폼
- AI 플랫폼은 인지 서비스, 봇 도구를 사용한 대화형 AI 등 사전에 구축된 API 에서 머신러닝을 사용한 사용자 맞춤형 모델의 구축에 이르기까지 포괄적인 AI 서비스 세트 제공
- 알고리즘 개발자 및 데이터 과학자가 AI 도구를 활용해 AI 솔루션을 쉽게 만드는 데 도움
- 구글 - 클라우드 머신러닝 엔진 / 아마존 - 세이지 메이커 / 마이크로 소프트 - 애저 머신러닝 스튜디오 / 세일즈포스 - 아인슈타인 / IBM - 왓슨 스튜디오
12. 데이터 거버넌스
데이터 거버넌스: 데이터 자산을 관리하는 일련의 업무 (데이터를 관리하는 데 필요한 프로세스, 역할, 책임, 정책 포함)
데이터 거버넌스의 목적
1. 데이터의 내용적인 측면: 비즈니스 용어, 데이터 사전, 핵심 데이터 요소, 참조 데이터, 데이터 매핑 검토
※ 데이터 매핑: 소스 데이터와 목표 데이터를 연결하기 위해 필드 간의 관계를 정리하는 것
2. 데이터 거버넌스의 실행과 통제적인 측면: 메타데이터, 정책, 보안 승인, 통지, 절차 등 확인
※ 메타데이터: 데이터에 관련된 정보를 포함하고 있는 데이터. 데이터에 관련된 등급, 구조, 내용 정보를 제공함으로써 데이터를 쉽게 관리하고 검색 가능
3. 데이터의 품질적인 측면: 비즈니스 규칙, 품질 모니터링, 품질 대시보드, 이슈 관리, 데이터 연계 등과 같은 데이터 관리 시스템 확인.
데이터 품질 수준을 결정하는 요소
완전성
적시성
유효성
일관성
정확성
연관성
최신성
데이터 거버넌스의 단계별 수위
데이터 수집 단계: 단순 메타데이터와 데이터의 생명 주기 관리
데이터 통합 단계: 데이터 품질 관리 및 모니터링
전사 데이터 웨어하우스 단계: 모든 데이터 거버넌스의 영역 관리
데이터 거버넌스 구현의 3단계
1단계. 운영적 접근 단계: 여러 부서의 협력 없이 주로 IT 부서에서 데이터 정책-보안-보호 담당
데이터가 기업의 전략적 자산으로 취급되지 않으며, 조직 내에 데이터를 전적으로 담당하는 실무자나 관리자 부재
2단계. 전술적 접근 단계: 현재 직면하고 있는 이슈에 중점을 두고, 데이터 거버넌스 수행.
데이터 거버넌스에 관련된 책임, 역할, 정책에 신경쓰며, 데이터에 관련된 메타데이터, 비즈니스 용어를 표준화..
최고 의사결정자의 지원이나 관여 없음.
3단계. 전략적 접근 단계: 데이터를 기업의 자산으로 인식하고, 기업 내 데이터의 성장에 도전이 되는 환경에 적극적으로 대처하면서 데이터 거버넌스를 장기적-미래지향적으로 바라봄.
데이터 거버넌스 위원회와 데이터 최고 책임자, 데이터 위험 관리 최고 책임자를 두고, 데이터에서 최대의 가치를 뽑아 내기 위한 전사적 노력.
13. 데이터 서비스
데이터 서비스를 구성하는 요소
서비스 제공자 - 개인, 민간 기업, 공공 기관
서비스를 요구하는 고객 - 개인, 민간 기업, 공공 기관
제공자와 고객을 연결해 고객의 요구를 전달하는 프로토콜
서비스 아키텍처
1. 모놀리식 아키텍처: 공통된 라이브러리를 사용해 서로 연결돼 있으므로 데이터를 추가하거나 갱신할 때 시스템 전체 부팅, 구조상 확장성이 제한
2. 서비스지향 아키텍처: 소프트웨어를 재사용할 수 있도록 서비스 단위나 구성 단위로 분리해 구축하는 방식
3. 마이크로 서비스 아키텍처: 시스템 간에 메시지를 주고받을 수 있도록 최소한으로만 연결되고, 나머지는 독립적인 프로세스로 구성
시스템 연결: API
- API는 애플리케이션끼리 소통하게 해 주는 프로그램.
- API는 사용자에 따라 기업 내부에서만 연결할 수 있는 '프라이빗 API' 와 외부와도 연결할 수 있는 '오픈 API'로 구성
- 산업 분야에 따라 통신 API, 금융 API
- API를 누가 사용하는지에 따라: 내-외부 최종 사용자 API, 파트너 API, B2B/SYSTEM API, EVENT API/ IOT API로 구분
- API는 다양한 시스템 간에 점점 늘어나는 데이터를 주고받는 개방형 플랫폼으로 발전하는 과정에서 시스템적인 접근만이 아닌 기업의 전략으로 접근
- API 아키텍처를 디자인하려면 보안 문제, 개발자의 경험, 활용 범위, 각 기능의 수행 능력, 시스템들의 통합-사용에 관한 모니터링, 오류에 관련된 대응 방안 등을 파악해야 함.
- API 전략을 세울 때는 어떤 데이터를, 어떤 방법으로, 누구에게 제공하고, 운영-관리할 것인지를 데이터 거버넌스 차원에서 고려
데이터 서비스
- 데이터 서비스: 준비된 데이터를 비즈니스에 이용할 수 있도록 제공하기 위해 전달하는 기능.
- 내부적으로는 마케팅, 고객관리, 영업 및 기업운영 관리의 최적화를 통해 신시장 개척, 신상품 개발과 같은 새로운 수익모델의 비즈니스 혁신을 위한 비즈니스 서비스들을 지원
- 외부적으로는 데이터의 교환, 개발 커뮤니티, 협력사와의 공유 같은 업무 수행
- 고객 데이터 플랫폼: 고객 데이터들을 통합하고 활용할 수 있게 만든 플랫폼.
- IOT 플랫폼: 주로 기기들의 센서 데이터를 수집, 저장하고 센서 데이터를 필요한 곳에 전달.
- CKAN 기반 개방 플랫폼: CKAN (비영리 단체인 OKF에서 개발한 공공 데이터 개방 플랫폼)
데이터 생태계를 구축하라
- 데이터 경제를 활성화하는 데 반드시 필요한 데이터 생태계
- 데이터 생태계를 성장시키는 데이터 과학의 진화 과정과 데이터 기반 혁신 사업 운영의 연결성
- 데이터 인사이트
14. 데이터 생태계
데이터 생태계의 정의
- 데이터 생태계는 데이터 생성자, 데이터 비즈니스 활용자, 데이터 제공 및 관리자 그리고 데이터의 최종 사용자인 고객이 서로 상호 작용하며 지속적으로 성장.
- 데이터 생태계의 각 주체들이 맡은 업무에 충실하면서 상호 의존하는 관계가 지속되면 산업 생태계도 지속적으로 성장 가능.
데이터 생태계를 구성하는 데이터의 종류
1) 기록 형태에 따라
- 정형 데이터: 일련의 측정된 경험을 기록한 신호들 (길이, 높이, 크기, 시간, 비용, 나이 등과 같이 주로 숫자로 표현되는 데이터)
기업이 고객, 고객의 행동 패턴, 트렌드 등을 이해하는 데 도움. (기업의 고객 관리 시스템, 기업 운영 시스템 등)
- 비정형 데이터: 소셜 미디어 활동, 센서, 인공위성 이미지 등
최근에 생성된 데이터의 80% 이상, 인터넷의 영향으로 지속적으로 증가하는 추세.
비정형 데이터로 구성되는 디지털 콘텐츠의 종류는 비싸고 복잡한 전자책, 인포그래픽, 동영상, 논문, 케이스 스터디, 고객 리뷰 등
▶ 주로 고객을 교육하거나, 재미를 선사하거나, 제품-서비스를 구매하도록 설득하는 데 활용.
기업의 지식 관리 차원에서 다양한 형태의 콘텐츠르 확장-관리
신규 데이터의 기획과 생성
데이터 생성을 종류별로 정리해 보면 전문가 지식, 대중 행동, 질문과 조사, 기업 운영, 기계 신호 인식, 정부 행정에서 얻는 데이터.
1) 전문 지식 기반의 데이터: 각 분야의 전문가들이 자신의 전문 지식과 경험을 바탕으로 관련 분야의 정보를 정의하는 방식으로 생성.
2) 대중 행동 기반의 데이터: 대중들의 소셜 네트워크 활동으로 자연스럽게 생성되며, 대부분의 비정형 데이터가 이에 속함. (네이버, 구글 등과 같은 웹 검색 기업들과 트위터-페이스북 등과 같은 기업에서 생성하며, 소셜 네트워크에서 사용자가 남긴 글, 글에 관련된 반응, 사람들 간의 관계 속에서 생성되는 그래프 구조의 '관계형 데이터' 등)
3) 질문과 조사 기반의 데이터: 주로 연구소나 실험 기관에서 생성 (컴퓨터를 이용한 자료 수집 방법 - CAPI 활용)
산업별 데이터의 종류
1) 광고 데이터
ㄱ. KOBAnet
ㄴ. KODEX:
ㄷ. 광고량 데이터
ㄹ. 시청률 데이터
ㅁ. 청취율 데이터
2) 유통 데이터
ㄱ.판매 관리 시스템
ㄴ.고객 관련 소셜 데이터
ㄷ.실시간 재고 데이터
ㄹ.판매 기반 데이터 (방문자 수, 체류 시간, 재방문율, 구매 전환율 등)
3) 금융 데이터
신용 등급 산정, 마케팅 등에 활용
4) 부동산 데이터
ㄱ.민간 데이터: 부동산 실거래 기반으로 생성
ㄴ.행정 데이터: 공공 기관 등에서 생성
5) 의료 데이터
- 인구 고령화에 따른 만성병 및 퇴행성 질환의 증가라는 환경에 대응해 빅데이터를 의료비 절감, 전염병 예방, 의료 서비스의 질 향상에 활용하기 위한 다양한 연구 시도.
- 의료 기록 전자화에 따라 축적되는 방대한 데이터를 효율적으로 저장-분석
- 바이오 및 제약 업체에서는 바이오 데이터를 확보하고, 이를 바탕으로 머신러닝 알고리즘을 활용해 신약 및 치료-진달 기술 개발
- 보건 의료 분야에서 생성되는 데이터에는 대부분 개인 정보가 포함돼 있으므로 기밀 유지 필수.
6) IoT 데이터 (제조, 환경, 자동차, 에너지)
센서 기반 데이터는 주로 제품-생산 라인의 제조 과정 중 센서로 생성되는 기계 결함이나 생산 라인과 관련된 신호
7) 공공 데이터
공공 데이터는 중앙 부처, 지방자치단체, 공공 기관이 생산-보유-관리하고 있는 교통, 기상, 의료, 경제 환경 등의 모든 데이터 (버스 도착 정보 서비스, 기상청 앱, 전국 주유소 유가 정보 등)
8) 농업 데이터
- 정밀 농업, SSCM, 스마트 팜, 스마트 파밍
- 농작물의 가변성과 관련된 관찰-측정-반응에 기반을 둔 농업 관리 개념
- 정부의 농업 정책, 법률, 농업 연구 관련 데이터
- 물, 농지 및 주변 자연 환경 관련 데이터
- 농지 사용 및 생산량
- 농업 인프라
- 농산물 시장 관련 사회-경제 데이터
- 종자, 병충해 관련 데이터
9) 교육 데이터
- 학생들의 교육 평가 관련 데이터 (각종 시험 점수 관련 데이터)
- 인구 통계적 데이터 (성별-종교-경제 상태-학교 위치 등과 같은 학교나 학생 관련 데이터)
- 학생들의 학교 생활 행동이나 참여 관련 데이터, 교육 커리큘럼 등의 데이터
- 학생, 교사, 부모 또는 다른 교육 관련자들의 인터뷰, 조사 자료 또는 관찰을 거쳐 수집한 데이터
기업에서 중요하게 인식하는 데이터의 종류
[중요하다고 생각하는 데이터 순]
재정 기획 예측 데이터
기업 운영 데이터
고객 데이터
고객 운영 이력 데이터
사내 개인 저장 데이터
내부 비정형 데이터
상품 데이터
기업 운영 시스템의 로그 데이터
[1~3차 데이터]
1) 1차 데이터: 기업이나 기관에서 자체 생성해 활용하는 내부 데이터, ERP 관련 데이터 (회계, 인력, 고객 관리, 생산 관련)
2) 2차 데이터: 자회사, 협력사 등이 생성하는 데이터, 소셜 네트워크를 이용해 생성되는 데이터
3) 3차 데이터: 개별 기업과 관련 없는 서드파티 기업이나 기관이 유통-판매를 목적으로 수집-가공한 데이터, 공공 기관 등에서 생성-수집한 공개 데이터
산업 데이터 생태계
[데이터 생태계의 흐름]
사람과 사물이 데이터 생성 ▶ 각 산업마다 개별 기업들이 데이터 수집 (내부 활용 / 일부는 외부 판매 또는 개방) ▶ (외부로 내보낸 데이터) 데이터 가공 또는 중개 기업들이 수집, 통합, 융합해 데이터 시장에 유통 ▶ (데이터 시장에 유통 중인 데이터) 각 산업의 개발 기업이나 기관들이 필요에 따라 구매 및 활용 ▶ 데이터 질의 향상 ▶ 기업의 혁신과 성장에 기여
데이터 가공 및 중개
데이터를 가공 및 중개하는 기업: 1차 데이터를 수집-공유하거나 외부에서 판매하는 데이터를 수집-가공해 (3차 데이터) 재판매 (데이터 브로커, 미디어 저장 기관, 신용 기관, 의료 분석 기업, 광고 네트워크 기업, 리스트 브로커, 기업의 데이터 협력 기관 등)
마이 데이터
각 개인이 자신에 관련된 데이터를 직접 관리하고, 활용-유통 목적으로 거래하는 방식을 도입하려는 시도 증가
기업 내에서 많이 활용하는 고객 관련 데이터: 인구 통계 데이터, 기업 운영 및 이력 데이터, 채널 이력 데이터, 고객 행동 데이터
인구 통계 데이터 | 성향, 나이, 성별, 주소 등 |
기업 운영 및 이력 데이터 | 상품 판매 액수, 구매 이력, 지불 이력, 구매 단계 |
고객 행동 데이터 | 고객 접점 채널로 생성된 데이터 (웹, 콜센터, 이메일, 챗봇) |
공개 데이터
공유 데이터 | 조건이 맞을 때 상호 합의에 따라 사용하는 데이터 |
비공개 데이터 | 기업의 영업 비밀이나 고급 기술 정보 관련 데이터 |
공개 데이터 | 외부에 공개해도 법이나 기업 운영상 문제가 없는 데이터 |
공개 데이터는 개인, 기업, 정부가 상호 영향을 미치며 점진적으로 발전
개방 생태계는 국가 데이터 생태계를 활성화
국가 데이터 생태계: 행정 데이터, 공공 데이터, 기업 데이터, 시민 데이터
15. 데이터 과학과 인사이트
데이터 과학과 연결성
정보 가치 사슬: 데이터, 정보, 지식을 기반으로 의사결정을 하고, 그 성과로 가치가 구현되는 과정
데이터: 서술적, 질적, 양적 데이터
정보: 사실, 매트릭스, 인사이트
지식: 경험, 본능, 신념 또는 믿음 기반 (기업의 중요한 문제에 관련된 의사결정을 돕고, 혁신을 가져옴)
데이터 관리는 경험을 기억하게 하고, 정보 관리는 상황이나 문제를 이해하게 하고, 지식 관리는 지속적인 배움을 가능하게 함.
데이터 과학은 다양한 비즈니스 영역에서 데이터 인사이트와 비즈니스 서비스 간의 갭을 연결해 기업의 문제 해결을 돕는 역할 수행
데이터 과학
분야별 데이터 분석 방법론과 알고리즘, 데이터 운영 기술인 데이터 엔지니어링 그리고 각 비즈니스 영역의 현장 경험들을 결합해 날로 어려워지는 기업 운영의 최적화를 전사적-산업적 차원에서 추구
데이터 과학과 인공지능
- 빅데이터를 활용한 머신러닝의 일부인 딥러닝 알고리즘의 발전은 지능 정보 서비스 분야에서의 데이터 과학 영역을 빠르게 성장 시킴.
- 지능 정보는 ICT 기반의 빅데이터를 정제-가공해 통계와 머신러닝, 즉 분석 알고리즘을 사용해 기계나 제조 과정 또는 사람을 대상으로 한 고객 서비스에 활용
- 인공지능: 지능 정보 중 특별히 사람의 지능적인 행동을 모방하는 기계나 서비스
- 인공지능에 사용하는 빅데이터는 정형, 시계열 데이터와 이미지-비디오-텍스트-오디오 등은 비정형
- 데이터 과학은 문제를 해결하기 위한 하나의 포괄적 방법이 존재하지 않으며, 통계, 선형 수학, 비선형 수학, 인공지능, 머신러닝, 앙상블, 협업적 방법, 자연어 처리 등과 같은 다양한 기술과 방법을 적용해 문제를 끊임없이 해결
데이터 과학과 인사이트
데이터 기반 인사이트: 기업이나 기관이 데이터를 분석해 새로운 문제나 이슈 또는 지식을 발견하거나 문제를 해결하기 위한 방법을 찾는 것.
데이터를 성공적으로 활용하기 위한 5가지 과정
|
데이터 활용을 실패하게 만드는 요소
|
데이터 측정과 평가
- 인사이트를 찾을 때 모든 데이터 또는 빅데이터가 유용하지는 않으므로 데이터 중 적합한 정보를 제공할 가능성이 높은 데이터를 선정해야 함.
- 새로운 인사이트를 찾아 현장에 적용한 이후에는 결과를 평가해야 함.
데이터 관련 직무들
- 데이터 큐레이터: 문제 해결, 일의 효율성과 속도 관련 이슈를 해결하기 위해 어떤 데이터가 필요한지를 기획하는 직무 수행
- 데이터 수집 코디네이터 및 관리자: 시스템의 내-외부에서 업무와 과거 자료를 추적해 필요한 데이터 수집
- 데이터 엔지니어: 데이터를 효과적으로 분석하기 위해 막대한 데이터를 안전하고 효과적으로 저장하고, 필요할 때마다 빠르게 처리하는 과정에 관여하며, 데이터 플랫폼의 안정적인 운영과 데이터 품질 관리에도 관여
- 빅데이터 엔지니어: 대용량의 데이터 관리, 데이터 처리 속도 및 전달 등 빅데이터를 처리
- 데이터 아키텍트-개발자: 데이터를 기반으로 IT 정책, 표준화, 구조 설계 및 이행하는 직무 수행
- 데이터베이스 관리자: 데이터베이스의 현황 보고서 작성과 개발 영역에서의 문제를 해결하고, 주기적인 보수뿐 아니라 다양한 데이터 사용자의 긴급 요청 돕는 역할
- 데이터 웨어하우징 전문가: 여러 관리 시스템에서 데이터의 정확성과 일관성을 유지하고, 데이터의 효율적인 분석과 보고를 위해 거대한 데이터를 한곳으로 통합시키는 직무 수행. 최적화된 데이터 처리와 데이터 정확성 및 일관성을 유지하기 위해 데이터 처리 체계 개발
- 비즈니스 인텔리전스 아키텍트: 비즈니스 성과 지표, 데이터 품질, 데이터 서비스의 효과적인 운영을 위한 시트메의 현황 보고와 검증-개선 등에 책임. 개발자와 시스템 아키텍처 간의 의사 소통으로 비즈니스 인텔리전스와 분석 솔루션 관리
- 비즈니스 분석가: 고객과 데이터 관련 직군을 이어주는 다리 역할. 데이터 분석 결과를 고객의 시각에서 바라보고 설명. 주로 비즈니스 문제를 정의하는 데 관여. 비즈니스 문제를 발견하고 해결하기 위한 방안을 제시하기 위해 이해 관계자들과 소통.
- 데이터 과학자: 고도화된 데이터 분석 전문 기술과 수학-통계학-사회학 등의 전문 지식을 바탕으로 수많은 데이터 속에 숨어 있는 가치를 발견하고, 비즈니스 인사이트를 제시하며, 의사결정을 지원하는 전문가
- 데이터 마이닝 분석가: 다양한 소스에서 데이터를 추출-정제-모델링해 비즈니스에 필요한 유용한 정보 제공. 업무 대부분을 의사결정권자를 설득-이해시키기 위해 시각적인 자료를 만드는 데 할애.
- 고급 분석가: 산업별 특성에 따른 업계의 지식을 갖고 고도화된 데이터 분석 업무 수행.
'Book Record > 2024 - 10권 목표' 카테고리의 다른 글
[24년 6th] 파이썬 머신러닝 완벽 가이드 (0) | 2024.05.04 |
---|---|
[24년 5번째] 파이썬으로 데이터 주무르기 (0) | 2024.04.10 |
[24년 4번째] 현대통계학 (0) | 2024.04.09 |
24년 3rd: 1년 안에 AI 빅데이터 전문가가 되는 법 (3) | 2024.03.05 |
24년 첫번째 책 요약: 일상을 사로잡는 제품의 비밀 - 훅(Hooked) (1) | 2024.02.01 |