TOP
class="layout-aside-left paging-number">
본문 바로가기
[파이썬 Projects]/<파이썬 머신 | 딥러닝 & AI>

[머신러닝] 회귀(Regression)

by 기록자_Recordian 2024. 9. 21.
728x90
반응형
회귀(Regression)

 

회귀 분석은 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법이다.

회귀는 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭한다. 예를 들어 집의 방 개수, 방 크기, 주변 학군 등 여러 개의 독립변수에 따라 주택 가격이라는 종속변수가 어떤 관계를 나타내는지를 모델링하고 예측하는 것이다.

머신러닝 관점에서 보면 독립변수는 피처에 해당되며 종속변수는 결정 값이다.

 

[변수]

영향을 주는 변수 독립 변수, 설명 변수, 예측 변수
영향을 받는 변수 종속 변수, 반응 변수, 결과 변수

머신러닝 회귀 예측의 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것이다.


회귀 모형의 가정

 

선형성, 독립성, 등분산성, 비상관성, 정상성

 

◆ 회귀 모형의 체크리스트

  • 회귀 모형이 통계적으로 유의미한가? (F-통계량 통해 확인)
  • 회귀 계수들이 유의미한가? (t-통계량 통해 확인)
  • 회귀 모형이 얼마나 설명력을 갖는가? (결정계수로 판단)
  • 회귀 모형이 데이터를 잘 적합하고 있는가? (잔차를 그래프로 그리고 회귀진단)
  • 데이터가 가정을 만족시키는가? (회귀 모형 가정을 만족해야 함)

회귀 유형의 구분

 

회귀는 회귀 계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 가지 유형으로 나눌 수 있으며, 회귀에서 가장 중요한 것은 회귀 계수(regression coefficients) 이다. 이 회귀 계수가 선형이냐 아니냐에 따라 선형 회귀와 비선형 회귀로 나눌 수 있고, 독립변수의 개수가 한 개인지 여러 개인지에 따라 단일 회귀, 다중 회귀로 나뉜다.

 

<회귀 유형의 구분>

독립변수 개수 회귀 계수의 결합
1개: 단일 회귀 선형: 선형 회귀
2개: 다중 회귀 비선형: 비선형 회귀

 

지도학습은 두 가지 유형으로 나뉘는데, 바로 분류와 회귀이다.

이 두 가지 기법의 가장 큰 차이는

  • 분류: 예측값이 카테고리와 같은 이산형 클래스 값
  • 회귀: 예측값이 연속형 숫자 값

여러 가지 회귀 중에서 선형 회귀가 가장 많이 사용되는데, 선형 회귀는 실제 값과 예측값의 차이(오류의 제곱값)를 최소화하는 직선형 회귀선을 최적화하는 방식이다. 선형 회귀 모델은 규제 방법에 따라 다시 별도의 유형으로 나뉠 수 있다.

★ 규제(regularization): 일반적인 선형 회귀의 과적합 문제를 해결하기 위해서 회귀 계수에 패널티 값을 적용하는 것

 

[회귀 분석 유형]

1) 단순선형 회귀: 독립변수가 1개, 종속변수와의 관계가 직선

2) 다중선형 회귀: 독립변수가 k개, 종속변수와의 관계가 선형 (1차 함수)

3) 다항 회귀: 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계 (독립변수가 1개일 경우에는 2차 함수 이상)

4) 곡선회귀: 독립변수가 1개 이며, 종속변수와의 관계가 곡선

 

 

[대표적인 선형 회귀 모델]

1) 일반 선형 회귀: 예측값과 실제 값의 RSS(Residual Sum of Squares)를 최소화할 수 있도록 회귀 계수를 최적화하며, 규제를 적용하지 않은 모델

2) 릿지(Ridge): 선형 회귀에 L2 규제를 추가한 회귀 모델. 릿지 회귀는 L2 규제를 적용하는데, L2 규제는 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해서 회귀 계수값을 더 작게 만드는 규제 모델이다.

3) 라쏘(Lasso): 선형 회귀에 L1 규제를 적용한 방식. L2 규제가 회귀 계수 값의 크기를 줄이는 데 반해, L1 규제는 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않게 하는 것이다. 이러한 특성 때문에 L1 규제는 피처 선택 기능으로도 불린다.

4) 엘라스틱넷: L2, L1 규제를 결합한 모델. 주로 피처가 많은 데이터 세트에서 적용되며, L1 규제로 피처의 개수를 줄임과 동시에 L2 규제로 계수 값의 크기를 조정.

5) 로지스틱회귀: '회귀' 라는 이름이 붙어 있으나, 분류에 사용되는 선형 모델. 로지스틱 회귀는 이진 분류 뿐만 아니라 희소 영역의 분류 (텍스트 분류 등) 영역에서 뛰어난 예측 성능을 보이는 매우 강력한 분류 알고리즘. 종속변수가 범주형인 경우 적용

6) 비선형 회귀: 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져 있지 않은 모형


단순 선형 회귀를 통한 회귀 이해

 

단순 선형 회귀: 독립변수도 하나, 종속변수도 하나인 선형 회귀.

 

최적의 회귀 모델을 만든다는 것은 전체 데이터의 잔차 합이 최소가 되는 모델을 만든다는 의미인 동시에 오류 값 합이 최소가 될 수 있는 최적의 회귀 계수를 찾는다는 의미이다.

★ 잔차: 실제 값과 회귀 모델의 차이에 따른 오류 값 (남은 오류). 오류 값은 +나 -가 될 수 있다.

 

보통 오류 합을 계산할 때는 절댓값을 취해서 더하거나 (Mean Absolute Error), 오류 값의 제곱을 구해서 더하는 방식(RSS, Residual Sum of Square) 값을 취한다. 일반적으로 미분 등의 계산을 편리하게 하기 위해서 RSS 방식으로 오류 합을 구한다.

RSS는 회귀식의 독립변수 X, 종속변수가 중심 변수가 아니라 w 변수(회귀 계수)가 중심 변수임을 인지하는 것이 매우 중요하다. 

 

회귀에서 이 RSS는 비용(Cost)이며 w 변수(회귀 계수)로 구성되는 RSS를 비용 함수라고 한다.

머신러닝 회귀 알고리즘은 데이터를 계속 학습하면서 이 비용 함수가 반환하는 값(오류 값)을 지속해서 감소시키고 최종적으로는 더 이상 감소하지 않는 최소의 오류 값을 구하는 것이다.

비용 함수는 손실 함수(loss function)라고도 한다.


회귀 모형의 평가지표

 


[출처]

파이썬 머신러닝 완벽 가이드 - 권철민 저, 위키북스
빅데이터분석기사 필기 - 수제ㅂ

728x90
반응형