머신러닝 기반 분석 모형 선정
지도 학습, 비지도 학습, 강화 학습, 준지도 학습, 전이 학습
1) 지도 학습: 정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법(컴퓨터에 먼저 정보를 가르치는 방법.)
- 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해 내는 것에 초점
- 주로 인식, 분류, 진단, 예측 등의 문제 해결에 적합
- 분석하고자 하는 목적변수의 형태가 수치형인가 범주형인가에 따라 분류와 수치예측 방법으로 다시 나눔
- 로지스틱 회귀, 인공신경망 분석(ANN), 의사결정나무, 서포트 벡터 머신(SVM), 랜덤 포레스트, 감성 분석 등
- 예를 들어, 사진을 주고 "이 사진은 고양이" 라고 알려주는 식이며, 기존 기계학습 알고리즘은 대부분 지도 학습에 기초.
2) 비지도 학습: 입력 데이터에 대한 정답인 레이블이 없는 상태에서 훈련 데이터를 통해 학습시키는 방법
- 지도 학습의 배움 과정이 없고, 컴퓨터가 스스로 학습.
- 지도 학습에 비해 진보한 기술이며, 컴퓨터의 높은 연산 능력 요구
- 목적변수에 대한 정보 없이 학습이 이루어짐
- 예측의 문제보다는 주로 현상의 설명이나 특징 도출, 패턴 도출 등의 문제에 많이 활용
- 사전정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 데이터 마이닝의 성격이 더 강함
- 군집화, 차원 축소 기법, 연관 관계분석, 자율학습 인공신경망
- 딥러닝 기법에서도 입력 특성들의 차원을 축소하는 단게에서 비지도 학습 기법 적용
- 예. 구글 유튜브의 영상 식별 기술
3) 강화 학습: 선택 가능한 행동 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 학습 방법
- 컴퓨터가 선택한 행동에 대한 반응에 따라 보상이 주어짐
- 행동의 결과로 나타나는 보상을 통하여 학습 진행
- 보상을 최대한 많이 얻도록 하는 행동을 유도하도록 학습 진행
4) 준지도 학습: 정답인 레이블이 포함되어 있는 훈련 데이터와 레이블이 없는 훈련 데이터를 모두 훈련에 사용하는 학습 방법
- 레이블이 일부만 있어도 데이터 다룰 수 있음
- 일반적으로 정답인 레이블이 포함된 훈련 데이터가 적고 정답인 레이블이 없는 훈련 데이터를 많이 갖고 있음
5) 전이학습: 학습된 모형을 기반으로 최종 출력층을 바꾸어 재학습하는 알고리즘
- 한 분야에서 학습한 결과를 학습한 적 없는 분야에 적용해서 학습하는 방법
[전이 학습, 비지도 사전 훈련]
★ 텍스트 분석은 지도학습인가, 비지도학습인가?
텍스트 분석에서는 주로 비지도학습 방법인 자연어 처리 알고리즘이 많이 사용되며, 대표적인 예로는 단어 빈도수 기반의 불용어 제거 및 전처리 과정, TF-IDF 벡터화 기법, 워드 클라우드 시각화 등이 있다.
또한, 지도학습 방법으로는 스팸 메일 필터링, 감정 분석, 문장 분류 등의 작업에서 사용된다. 이 경우에는 미리 정의된 클래스나 라벨링 된 데이터셋을 사용하여 모델을 학습시키고 예측 결과를 도출한다.
다음 내용
[출처]
핸즈 온 머신러닝
생활 코딩
수제비, 빅데이터분석기사 필기
'[파이썬 Projects] > <파이썬 머신러닝>' 카테고리의 다른 글
[머신러닝] 군집: 군집 사례 (1) | 2024.11.16 |
---|---|
[머신러닝] 군집: k-평균 알고리즘 훈련하기 (0) | 2024.11.16 |
[머신러닝] 차원 축소: 랜덤 투영, 지역 선형 임베딩 (3) | 2024.11.15 |
[머신러닝] 차원 축소: 주성분 분석 (추가) (3) | 2024.11.15 |
[머신러닝] 앙상블 : AdaBoost (2) | 2024.11.15 |