TOP
class="layout-aside-left paging-number">
본문 바로가기
프로그래밍 및 기타/프로그래밍 용어, 상식 등

[빅데이터] 관련 용어 설명 (+ 웹사이트)

by 기록자_Recordian 2024. 5. 24.
728x90
반응형

※ 해당 내용은 <1년 안에 AI 빅데이터 전문가가 되는 법> 서대호 저, 반니 출판사 의 내용을 토대로 작성되었음을 안내 드립니다.

네이버 도서

책으로 만나는 새로운 세상

search.shopping.naver.com

 

  • DNN (Deep Neural Network): 입력층과 출력층 사이에 여러 개의 은닉층들로 이루어진 신경망. 복잡한 비선형 관계를 모델링 가능
  • RNN (Recurrent Neural Network): 은닉층의 결과가 다시 같은 은닉층의 입력으로 들어가도록 연결되어 있다. 이런 특성은 RNN이 순서 또는 시간이라는 측면을 고려할 수 있게 해준다
  • LTSM (Long Short Term Memory): 기존 RNN의 문제점은 입력된 데이터와 참고해야 할 데이터의 위치 차이가 커질 때 문맥을 연결하기 힘들다는 것이다. 즉, 참고해야 할 데이터의 시간 차가 커지면 입력 데이터에 영향을 거의 미치지 못한다. LTSM은 Cell State를 통해서 어떤 정보를 취사할지 정하기 때문에 긴 시간 동안의 정보를 기억할 수 있다.
  • CNN (Convolution Neural Network): 모델이 직접 이미지, 비디오, 텍스트 또는 사운드를 분류하는 딥러닝에 가장 많이 사용되는 알고리즘. 기존의 신경망에 필터 기술을 병합해 2차원 데이터를 잘 학습할 수 있도록 최적화 시켰다.
  • GAN (Generative Adversarial Network): 두 개의 네트워크로 구성된 심층 신경망 구조. 한 네트워크가 다른 네트워크와 겨루는 구조. 처음에 생성자는 무작위 데이터를 만들고 구분자는 제대로 분류하지 못한다. 하지만 구분자는 생성자가 만든 데이터와 함께 진짜 데이터를 동시에 학습하기 때문에 조금씩 실력이 향상된다. 생성자 역시 구분자를 더 잘 속이기 위해 진짜처럼 보이는 데이터를 만들어 간다.
  • 오토인코더: 신경망의 입력층과 출력층의 노드 개수가 같은 구조다. 차원 축소 또는 노이즈 제거에 널리 쓰이는 네트워크 구조
  • 캐글(Kaggle): 2010년 설립된 예측 모델 및 분석 대회 플랫폼. 기업 및 단체에서 데이터와 해결 과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁 https://www.kaggle.com/
  • 이미지넷 (ImageNet): 이미지넷 프로젝트는 비주얼 객체 인식 소프트웨어 연구에 사용되도록 설계된 대형 비주얼 데이터베이스. 프로젝트에 의해 1,400만 개가 넘는 이미지에 대한 주석이 달려 있다.  https://www.image-net.org/
  • 파이썬 (Python): 1990년 네덜란드 암스테르담의 귀도 판 로섬이 개발한 인터프리터 언어. 기업의 실무를 위해서도 많이 사용하는 언어이며, 구글에서 만든 소프트웨어의 50퍼센트 이상이 파이썬으로 작성되었다. 최근에 데이터 과학을 위해 가장 많이 사용되는 언어.
  • R: 통계 계산과 그래픽을 위한 프로그래밍 언어. 통계 소프트웨어 개발과 자료 분석에 널리 사용되고 있으며, 패키지 개발이 용이해 통계 소프트웨어 개발에 많이 쓰이고 있다.
  • 추천 알고리즘: 사용자가 선호할 만한 아이템을 추측함으로써 여러 가지 항목 중 사용자에게 적합한 특정 항목을 추천해 제공하는 알고리즘.
  • 이상탐지: 시계열 데이터에서 과거 또는 비슷한 시점의 다른 데이터의 보편적인 패턴에서 벗어나거나 벗어나려는 징후가 있는 드문 패턴을 찾아내는 데이터 분석의 한 분야.
  • 텍스트 마이닝: 비정형 데이터 마이닝의 유형 중 하나. 비정형 및 반정형 데이터에 대해 자연어 처리 기술과 문서 처리 기술을 적용해 유용한 정보를 추출, 가공을 목적으로 하는 기술.
  • SQL (Structured Query Language): 관계형 데이터베이스 관리 시스템(RDBMS) 의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어.
  • RDB: 키-값 들의 간단한 관계를 테이블화한 간단한 원칙의 전산정보 데이터베이스.
  • 몽고DB: 크로스 플랫폼 도큐먼트 지향 데이터베이스 시스템. No-SQL 데이터베이스로 분류되는 몽고 DB는 JSON과 같은 동적 스키마형 DOCUMENT들을 선호함에 따라 전통적인 테이블 기반 관계형 데이터베이스 구조의 사용을 삼간다.  https://www.mongodb.com/ko-kr
  • 텐서플로 (Tensorflow): 다양한 작업에 대해 데이터 흐름 프로그래밍을 위한 오픈소스 소프트웨어 라이브러리. 심볼릭 수학 라이브러리이자, 뉴럴 네트워크 같은 기계학습 응용프로그램에도 사용.  https://www.tensorflow.org/?hl=ko
  • 케라스 (Keras): 파이썬으로 작성된 오픈 소스 신경망 라이브러리. MXNet, Deeplearning4j, 텐서플로, Microsoft Cognitive Toolkit 또는 테아노 위에서 수행.  https://www.tensorflow.org/guide/keras?hl=ko
  • 군집 분석: 각 개체의 유사성을 측정해 높은 대상 집단을 분류하고, 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 개체 간의 상이성을 규명하는 통계 분석 기법.
  • 나이브 베이즈 (Naive Bayes): 개별 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기의 일종. 텍스트 분류에 주로 사용됨으로써 문서를 여러 범주 중 하나로 판단하는 문제에 적용.
  • 의사 결정 나무: 데이터를 분석해 이들 사이에 존재하는 패턴을 예측 가능한 규칙들의 조합으로 나타내며, 그 모양이 '나무'와 같다고 하여 의사 결정 나무라 지칭 됨.
  • RISS: 대한민국 교육부 출연 기관 한국교육학술정보원에서 제공하는 학술 연구 정보화 시스템.  https://www.riss.kr/index.do
  • 구글 학술검색: 구글에서 제공해주는 검색 서비스 중 하나로 논문, 학술지, 간행물 등의 학술 용도를 검색 대상으로 함.  https://scholar.google.co.kr/schhp?hl=ko
  • 토픽모델링: 문서 집합의 추상적인 '주제'를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문에 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나.
  • 감성 분석: 어떤 주제에 대한 주관적인 인상, 감정, 태도, 개인의 의견들을 텍스트로부터 뽑아내는 분석.
  • 단어 네트워크: 각 단어들을 노드로 단어 가느이 관계를 엣지로 표현해 단어 간의 관계를 네트워크로 도식화하는 분석 방법.
  • 서포트 벡터 머신(SVM; Support Vector Machine): 기계 학습의 분야 중 하나로 패턴 인식, 자료 분석을 위한 지도 학습 모델이며, 주로 분류와 회귀 분석을 위해 사용.
  • 랜덤 포레스트(Random Forest): 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로, 훈련 과정에서 구성한 다수의 의사 결정 나무로부터 부류(분류) 또는 평균 예측치(회귀 분석)를 출력함으로써 동작.
  • 배깅(Bagging; Bootstrap Aggregating): 통계적 분류와 회귀 분석에서 사용되는 기계 학습 알고리즘의 안정성과 정확도를 향상시키기 위해 고안된 일종의 앙상블 학습법의 메타 알고리즘.
  • 부스팅(Boosting): 전체 데이터에서 여러 샘플링 데이터를 추출해 순차적으로 이전 학습 분류기의 결과를 토대로 다음 학습 데이터의 샘플 가중치를 조정하면서 학습을 진행하는 기법.
  • KNN(K-nearst Neighbor): 분류나 회귀에 사용되는 비모수 방식. 입력이 특징 공간 내 k개의 가장 가까운 훈련 데이터로 구성. 출력은 k개의 최근접 이웃이 가진 투표값 또는 평균값.
  • SI 업체: 정보시스템의 개발에 관하여 상담하고 그에 따라 설계, 개발, 운용, 보수, 관리 등 일체 업무를 담당하는 정보 통신 기업.
  • IBM 모델러(IBM Modeler): IBM의 데이터 마이닝 및 텍스트 분석 소프투에어 애플리케이션. 예측 모델을 작성하고 다른 분석 작업을 수행하는 데 사용. 사용자가 프로그래밍 없이 통계 및 데이터 마이닝 알고리즘을 활용할 수 있는 시각적 인터페이스가 있다.
  • 래피드마이너(Rapid Miner): 데이터 과학에서 사용하는 컴퓨터 소프트웨어 프로그램. 프로그램을 통해 데이터 전처리, 기계학습, 딥러닝, 텍스트 마이닝, 예측 분석 등을 활용할 수 있는 프로그램 제공. '래피드마이너'라는 회사에서 개발.
  • 나임(Knime): 무료 오픈 소스 데이터 분석, 보고 및 통합 플랫폼. 모듈식 데이터 파이프라인 개념을 통해 기계 학습 및 데이터 마이닝을 위한 다양한 구성 요소를 통합 제공.  https://www.knime.com/
  • 주성분 분석: 고차원의 데이터를 저차원의 데이터로 환원(축소) 시키는 기법. 서로 연관 가능성이 있는 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간의 표본으로 변환하기 위해 직교 변환 사용. 주성분의 차원 수는 원래 표본의 차원 수보다 작거나 같다.
  • 장고(Django): 파이썬으로 작성된 오픈 소스 웹 애플리케이션 프레임워크. 모델-뷰-컨트롤러 패턴을 따름.  https://www.djangoproject.com/
  • PyQT: C++의 크로스 플랫폼 GUI 프레임워크 중 하나인 QT를 파이썬 모듈로 변환해 사용 가능하게 만든 라이브러리.  https://wikidocs.net/35478
  • Tkinter: 파이썬 설치 시 기본적으로 내장되어 있는 파이썬 표준 라이브러리. 쉽고 간단한 GUI 프로그램 만들 때 활용.
  • 스파크(Spark): 메모리 내 처리를 지원하여 빅데이터를 분석하는 애플리케이션의 성능을 향상시키는 오픈소스 병렬 처리 프레임워크.  https://cloud.google.com/learn/what-is-apache-spark?hl=ko
  • SCI-HUB: 온라인 논문 검색 엔진 사이트. 5,800만 개의 유료 논문을 무료로 제공.  https://sci-hub.se/
  • 슬랙(Slack): 클라우드 기반 팀 협업 도구. https://slack.com/intl/ko-kr/
  • 플로(Flow): 프로젝트 관리 중심의 그룹웨어 협업 툴. 프로젝트 일정 관리, 일정 공유, 업무 관리 제공.  https://flow.team/kr/index
  • API(Application Programming Interface): 응용 프로그램에서 사용할 수 있도록, 운영 체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스.
  • 프로세스 마이닝(Process Mining): 이벤트 로그 데이터 분석을 통해서 어떤 일이 어떻게 흘러가는지, 어떤 상품이 어떤 과정으로 제작되는지, 한 고객이 서비스 내에서 어떤 여정을 거치는지 등의 프로세스를 도출해내는 것을 의미.
728x90
반응형