TOP
class="layout-aside-left paging-number">
본문 바로가기
[파이썬 Projects]/<파이썬 머신러닝>

[머신러닝] 차원 축소(Dimension Reduction)

by 기록자_Recordian 2024. 10. 24.
728x90
반응형
차원 축소(Dimension Reduction)
차원 축소의 중요한 의미는
차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는
잠재적인 요소를 추출하는 데 있다.

출처: https://codingalzi.github.io/handson-ml3/dimensionality_reduction.html

  • 차원 축소: 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터를 생성하는 것.
  • 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소한 구조를 가지게 되며 피처가 많을 경우 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다.
  • 피처가 많을 경우 개별 피처 간에 상관관계가 높을 가능성이 크고, 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 이로 인한 다중 공선성 문제로 모델의 예측 성능이 저하된다.
  • 다차원의 피처를 차원 축소해 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있으며, 시각적으로 데이터를 압축해서 표현할 수 있고, 차원 축소 시 학습 데이터의 크기가 줄어들어 학습에 필요한 처리 능력도 줄일 수 있다.
  • 일반적으로 차원 축소는 피처 선택(feature selection)과 피처 추출(feature extraction)로 나눌 수 있다.
  • 피처 선택 (특성 선택): 특정 피처에 종속성이 강한 불필요한 피처는 아예 제거하고, 데이터의 특징을 잘 나타내는 주요 피처만 선택하는 것.
  • 피처 추출: 기존 피처를 저차원의 중요 피처로 압축해서 추출하는 것이며, 새롭게 추출된 중요 피처는 기존의 피처가 압축된 것이므로 기존의 피처와는 완전히 다른 값이 된다. 즉, 기존 피처를 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해 추출하는 것이며, 기존 피처가 전혀 인지하기 어려웠던 잠재적인 요소(Latent Factor)를 추출하는 것을 의미한다.
  • 대표적인 차원 축소 알고리즘에는 PCA, LDA, SVD, NMF 가 있다.
  • 차원 축소 알고리즘은 매우 많은 픽셀로 이뤄진 이미지 데이터에서 잠재된 특성을 피처로 도출해 함축적 형태의 이미지 변환과 압축을 수행할 수 있다.
  • 변환된 이미지는 원본 이미지보다 훨씬 적은 차원이기 때문에 분류 수행(이미지 분류 등) 시 과적합 영향력이 작아져서 원본 데이터로 예측하는 것보다 예측 성능을 더 끌어올릴 수 있다.
  • 텍스트 문서의 숨겨진 의미를 추출하는 데에도 차원 축소 알고리즘이 자주 사용된다.
  • 차원 축소 알고리즘은 문서 내 단어들의 구성에서 숨겨져 있는 시맨틱(Semantic)의미나 토픽(Topic)을 잠재 요소로 간주하고 이를 찾아낼 수 있으며, SVD와 NMF는 이러한 시맨틱 토픽(Semantic Topic) 모델링을 위한 기반 알고리즘으로 사용된다. 

 

[같이 보면 좋은 글]

 

차원 축소란 무엇인가요? | IBM

PCA, LDA, t-SNE와 같은 차원 축소 기법은 머신 러닝 모델을 개선하여 복잡한 데이터 세트의 핵심 특징을 보존합니다.

www.ibm.com

 

[빅데이터 분석기사] 2과목 빅데이터 탐색(1-2)

[목차] [빅데이터 분석기사] 시험 과목 및 주요 내용 (필기)빅데이터 분석기사 (필기) 시험 과목 및 주요 내용 출처: 데이터자격검정 (dataq.or.kr) 필기과목명 주요항목 세부항목 세세항목 빅데이터

puppy-foot-it.tistory.com

 

 

[머신러닝] 차원의 저주(Curse of Dimensionality)란?

고차원의 데이터 분석에서 발생하는 문제를 설명하는 용어로 "차원의 저주(Curse of Dimensionality)"가 있습니다. 이 문제는 특히 빅데이터 분석과 머신러닝에서 많이 다뤄지며, 데이터

puppy-foot-it.tistory.com

 


PCA(Principal Component Analysis)

 

  • PCA는 대표적인 차원 축소 기법이며, 여러 변수 간에 존재하는 상관관계를 이용해 이를 대표하는 주성분을 추출해 차원을 축소하는 기법이다.
  • PCA는 입력 데이터의 변동성이 가장 큰 축을 구하고, 다시 이 축에 직각인 축을 반복적으로 축소하려는 차원 개수만큼 구한 뒤 입력 데이터를 이 축들에 투영해 차원을 축소하는 방식이다
  • 입력 데이터의 공분산 행렬을 기반으로 고유 벡터를 생성하고 이렇게 구한 고유 벡터에 입력 데이터를 선형 변환하는 방식이다
 

[머신러닝] 차원 축소 - PCA

차원 축소란? [머신러닝] 차원 축소(Dimension Reduction)차원 축소(Dimension Reduction)차원 축소의 중요한 의미는차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는잠재적인 요소를 추출하는 데 있다.

puppy-foot-it.tistory.com


LDA(Linear Discriminant Analysis)

 

  • LDA는 선형 판별 분석법으로 불리며, PCA와 매우 유사하게 입력 데이터 세트를 저차원 공간에 투영해 차원을 축소하는 기법이다
  • LDA와 PCA의 중요한 차이는 LDA는 지도학습의 분류에서 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소한다.
 

[머신러닝] 차원 축소 - LDA

차원 축소란? [머신러닝] 차원 축소(Dimension Reduction)차원 축소(Dimension Reduction)차원 축소의 중요한 의미는차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는잠재적인 요소를 추출하는 데 있다.

puppy-foot-it.tistory.com


SVD((Singular Value Decomposition)

 

  • SVD 역시 PCA와 유사한 행렬 분해 기법을 사용하는데, PCA의 경우 정방행렬(행과 열의 크기가 같은 행렬)만을 고유벡터로 분해할 수 있지만, SVD는 정방행렬 뿐만 아니라 행과 열의 크기가 다른 행렬에도 적용할 수 있다.
  • SVD는 특이값 분해로 불리며, 행렬 U와 V에 속한 벡터는 특이벡터이며, 모든 특이 벡터는 서로 직교하는 성질을 가진다.
  • SVD는 매우 많은 피처 데이터를 가진 고차원 행렬을 두 개의 저차원 행렬로 분리하는 행렬 분해 기법이다.
  • 행렬 분해를 수행하면서 원본 행렬에서 잠재된 요소를 추출하기 때문에 토픽 모델링이나 추천 시스템에서 활발하게 사용된다.
 

[머신러닝] 차원 축소 - SVD

차원 축소란? [머신러닝] 차원 축소(Dimension Reduction)차원 축소(Dimension Reduction)차원 축소의 중요한 의미는차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는잠재적인 요소를 추출하는 데 있다.

puppy-foot-it.tistory.com


NMF(Non-Negative Matrix Factorization)

 

  • NMF는 Truncated SVD와 같이 낮은 랭크를 통한 행렬 근사(Low-Rank Approximation) 방식의 변형이다.
  • NMF는 원본 행렬 내의 모든 원소 값이 모두 양수(0 이상)라는 게 보장되면 좀 더 간단하게 두 개의 기반 양수 행렬로 분해될 수 있는 기법을 지칭한다
  • NMF는 매우 많은 피처 데이터를 가진 고차원 행렬을 두 개의 저차원 행렬로 분리하는 행렬 분해 기법이다.
  • 행렬 분해를 수행하면서 원본 행렬에서 잠재된 요소를 추출하기 때문에 토픽 모델링이나 추천 시스템에서 활발하게 사용된다.
 

[머신러닝] 차원 축소 - NMF

차원 축소란? [머신러닝] 차원 축소(Dimension Reduction)차원 축소(Dimension Reduction)차원 축소의 중요한 의미는차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는잠재적인 요소를 추출하는 데 있다.

puppy-foot-it.tistory.com


다음 내용

 

[머신러닝] 군집화 (Clustering)

군집화(Clustering) [군집]군집은 비슷한 샘플을 클러스터 또는 비슷한 샘플의 그룹으로 할당하는 작업으로, 데이터 분석, 고객 분류, 추천 시스템, 검색 엔진, 이미지 분할, 준지도 학습, 차원 축소

puppy-foot-it.tistory.com


[출처]

빅데이터 분석기사 필기 - 수제비

파이썬 머신러닝 완벽 가이드

IBM

 

728x90
반응형