728x90 머신러닝73 [머신러닝] 군집화: k-평균 군집화란? [머신러닝] 군집화 (Clustering)군집화(Clustering) [군집]군집은 비슷한 샘플을 클러스터 또는 비슷한 샘플의 그룹으로 할당하는 작업으로, 데이터 분석, 고객 분류, 추천 시스템, 검색 엔진, 이미지 분할, 준지도 학습, 차원 축소puppy-foot-it.tistory.comk-평균 k-평균은 군집 중심점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법이다. 또한, 반복 몇 번으로 데이터셋을 빠르고 효율적으로 클러스터로 묶을 수 있는 간단한 알고리즘이다.군집 중심점은 선택된 포인트의 평균 지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트를 선택, 다시 중심점을 평균 지점으로 이동하는 프로세스를 반복적으로 수행하며.. 2024. 10. 25. [머신러닝] 차원 축소 - SVD 차원 축소란? [머신러닝] 차원 축소(Dimension Reduction)차원 축소(Dimension Reduction)차원 축소의 중요한 의미는차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는잠재적인 요소를 추출하는 데 있다.차원 축소: 매우 많은 피처로 구성된 다차원 데이터puppy-foot-it.tistory.comSVD(Singular Value Decompostion, 특이값 분해) [PCA vs SVD]PCA: 정방행렬만을 고유벡터로 분해SVD: 정방행렬 뿐 아니라 행과 열의 크기가 다른 행렬에도 적용 가능여기에서 각 행렬은 다음과 같은 성질을 가진다. U는 m × m 크기를 가지는 유니터리 행렬이다. Σ는 m × n 크기를 가지며, 대각선상에 있는 원소의 값은 음수가 아니며 나머지 원소의.. 2024. 10. 24. [머신러닝] 차원 축소 - NMF 차원 축소란? [머신러닝] 차원 축소(Dimension Reduction)차원 축소(Dimension Reduction)차원 축소의 중요한 의미는차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는잠재적인 요소를 추출하는 데 있다.차원 축소: 매우 많은 피처로 구성된 다차원 데이터puppy-foot-it.tistory.comNMF(Non-Negative Matrix Factorization, 비음수 행렬 분해) 비음수 행렬 분해(Non-negative matrix factorization, NMF)는 음수를 포함하지 않은 행렬 V를 음수를 포함하지 않은 행렬 W와 H의 곱으로 분해하는 알고리즘이다. 행렬이 음수를 포함하지 않는 성질은 분해 결과 행렬을 찾기 쉽게 만든다. 일반적으로 행렬 분해는 정확한 해.. 2024. 10. 24. [머신러닝] 차원 축소 - LDA 차원 축소란? [머신러닝] 차원 축소(Dimension Reduction)차원 축소(Dimension Reduction)차원 축소의 중요한 의미는차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는잠재적인 요소를 추출하는 데 있다.차원 축소: 매우 많은 피처로 구성된 다차원 데이터puppy-foot-it.tistory.comLDA(Linear Discriminant Analysis, 선형 판별 분석) [PCA vs LDA]- LDA는 PCA와 유사하게 입력 데이터 세트를 저차원 공간에 투영해 차원을 축소하는 기법이지만, 중요한 차이는 LDA는 지도학습의 분류(Classification)에서 사용하기 쉽도로 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소한다.- PCA는 입력 데이터의 .. 2024. 10. 24. [머신러닝] 차원 축소 - PCA 차원 축소란? [머신러닝] 차원 축소(Dimension Reduction)차원 축소(Dimension Reduction)차원 축소의 중요한 의미는차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는잠재적인 요소를 추출하는 데 있다.차원 축소: 매우 많은 피처로 구성된 다차원 데이터puppy-foot-it.tistory.comPCA(Principal Component Analysis, 주성분 분석)주성분 분석(PCA)은 원본 데이터의 피처 개수에 비해매우 작은 주성분으로 원본 데이터의 총 변동성을 대부분 설명할 수 있는 분석법이다. PCA는 대표적인 차원 축소 기법이며, 여러 변수 간에 존재하는 상관관계를 이용해 이를 대표하는 주성분을 추출해 차원을 축소하는 기법이며, PCA는 입력 데이터의 변동성이 가장.. 2024. 10. 24. [머신러닝] 차원 축소(Dimension Reduction) 머신러닝 기반 분석 모형 선정 [머신러닝] 머신러닝 기반 분석 모형 선정머신러닝 기반 분석 모형 선정 지도 학습, 비지도 학습, 강화 학습, 준지도 학습, 전이 학습 1) 지도 학습: 정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법(puppy-foot-it.tistory.com차원 축소(Dimension Reduction)차원 축소의 중요한 의미는차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는잠재적인 요소를 추출하는 데 있다.차원 축소: 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터를 생성하는 것.일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소한 구조를 가지게 되며 피처가 많을.. 2024. 10. 24. [머신러닝] 회귀 - 캐글 주택 가격 회귀 관련 내용[머신러닝] 회귀(Regression)[머신러닝]경사 하강법(GD, gradient descent)[머신러닝] 회귀 - LinearRegression 클래스[머신러닝] 회귀 - 다항 회귀와 과대(과소) 적합[머신러닝] 회귀 - 규제 선형 모델: 릿지, 라쏘, 엘라스틱넷[머신러닝] 로지스틱 회귀[머신러닝] 회귀 트리캐글 주택 가격 실습 (고급 회귀 기법) 이번에는 캐글에서 제공하는캐글 주택 가격: 고급 회귀 기법(House Prices: Advanced Regression Techniques) 데이터 세트를 이용해 회귀 분석을 더 심층적으로 학습해 본다.캐글(하단 링크)에 접속하여 해당 실습의 데이터 (train.csv)를 다운 받는다. (로그인 및 경쟁 규칙 동의 필요) House Pric.. 2024. 10. 23. [머신러닝] 회귀 트리 이전 내용 [머신러닝] 로지스틱 회귀이전 내용 [머신러닝] 회귀 - 규제 선형 모델: 릿지, 라쏘, 엘라스틱넷이전 내용 [머신러닝] 회귀 - 다항 회귀와 과대(과소) 적합이전 내용 [머신러닝] 회귀 - LinearRegression 클래스사이킷런 LinearRegpuppy-foot-it.tistory.com회귀 트리 트리 기반의 회귀는 회귀 트리를 이용하는 것인데, 회귀를 위한 트리를 생성하고 이를 기반으로 회귀 예측을 하는 것이다. [분류 트리와 회귀 트리의 차이]분류 트리와 회귀 트리는 모두 기계 학습의 다양한 유형의 예측 작업에 사용되는 의사 결정 트리 유형이며, 주요 차이점은 다음과 같다.1.출력 유형:분류 트리: 범주형 출력에 사용. 목표는 데이터를 사전 정의된 카테고리 또는 클래스로 분류하는 .. 2024. 10. 23. [머신러닝] 로지스틱 회귀 이전 내용 [머신러닝] 회귀 - 규제 선형 모델: 릿지, 라쏘, 엘라스틱넷이전 내용 [머신러닝] 회귀 - 다항 회귀와 과대(과소) 적합이전 내용 [머신러닝] 회귀 - LinearRegression 클래스사이킷런 LinearRegression scikit-learn: machine learning in Python — scikit-learn 1.5.2 documentationCopuppy-foot-it.tistory.com로지스틱 회귀 로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘으로, 분류에 사용된다.회귀는 가중치 변수가 선형 인지 아닌지에 따라 선형 또는 비선형으로 나뉜다.로지스틱 회귀가 선형 회귀와 다른 점은 학습을 통해 선형 함수의 회귀 최적선을 찾는 게 아니라 시그모이드 함수 최적선.. 2024. 10. 23. [머신러닝] 회귀 - 규제 선형 모델: 릿지, 라쏘, 엘라스틱넷 이전 내용 [머신러닝] 회귀 - 다항 회귀와 과대(과소) 적합이전 내용 [머신러닝] 회귀 - LinearRegression 클래스사이킷런 LinearRegression scikit-learn: machine learning in Python — scikit-learn 1.5.2 documentationComparing, validating and choosing parameters and models. Applications: Improvepuppy-foot-it.tistory.com규제 선형 모델 좋은 머신러닝 회귀 모델은 적절히 데이터에 적합하면서도 회귀 계수가 기하급수적으로 커지는 것을 제어할 수 있어야 한다. 이전까지 선형 모델의 비용 함수는 실제 값과 예측값의 차이 (RSS)를 최소화하는 것.. 2024. 10. 22. [머신러닝] 회귀 - 다항 회귀와 과대(과소) 적합 이전 내용 [머신러닝] 회귀 - LinearRegression 클래스사이킷런 LinearRegression scikit-learn: machine learning in Python — scikit-learn 1.5.2 documentationComparing, validating and choosing parameters and models. Applications: Improved accuracy via parameter tuning. Algorithms: Grid search, cross vpuppy-foot-it.tistory.com다항 회귀 이해 - 다항 (Polynomial) 회귀: 회귀가 독립변수의 단항식이 아닌 2차, 3차 방정식과 같은 다항식으로 표현되는 것. 회귀에서 선형 회귀/비선형.. 2024. 10. 22. [머신러닝] 회귀 - LinearRegression 클래스 사이킷런 LinearRegression scikit-learn: machine learning in Python — scikit-learn 1.5.2 documentationComparing, validating and choosing parameters and models. Applications: Improved accuracy via parameter tuning. Algorithms: Grid search, cross validation, metrics, and more...scikit-learn.org LinearRegression 클래스는 예측값과 실제 값의 RSS(Residual Sum of Squares)를 최소화해 OLS(Ordinary Least Squares) 추정 방식으로 구현한.. 2024. 10. 21. [Teachable Machine] 코딩없이 머신러닝 모델 만들기 - 2 이전 내용 [Teachable Machine] 코딩없이 머신러닝 모델 만들기 - 1Teachable Machine 이란? Teachable Machine은 누구나 머신러닝 모델을 쉽고 빠르고 간단하게 만들 수 있도록 제작된 웹 기반 도구이다.특별한 전문지식이나 코딩 능력 필요 없이 머신러닝 모델을 간단히puppy-foot-it.tistory.com Teachable Machine 을 통해 쿠로미와 하츄핑 이미지를 분류하는 모델을 만들었다.수행 내용 및 목표 이번에는 만들어진 모델을 활용하여 실제로 사용할 수 있는 사이트를 생성 및 배포하려 한다.Teachable Machine 에서 만든 모델 다운로드 생성한 AI를 웹서버에 옮기기 위해 일단 내보내기로 모델을 다운받는다. 1. 모델 내보내기 클릭 2. .. 2024. 9. 24. [머신러닝] 스태킹 앙상블 앙상블 학습 [머신러닝] 분류 - 앙상블 학습(Ensemble Learning)앙상블 학습(Ensemble Learning) 앙상블 학습을 통한 분류는,여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법을 말한다. 앙상블 학습의 목표는,다양한puppy-foot-it.tistory.com스태킹 모델 스태킹(Stacking)은 개별적인 여러 알고리즘을 서로 결합해 예측 결과를 도출한다는 점에서 배깅(Bagging) 및 부스팅(Boosting)과 공통점을 갖고 있으나, 가장 큰 차이점은 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측을 수행한다는 것이다.- 배깅: 훈련 세트에서 중복을 허용하여 샘플링하는 방식.- 부스팅: 약한 학습기를 여러 개 연결하여 강한 학습기.. 2024. 9. 21. [머신러닝] 차원의 저주(Curse of Dimensionality)란? 고차원의 데이터 분석에서 발생하는 문제를 설명하는 용어로 "차원의 저주(Curse of Dimensionality)"가 있습니다. 이 문제는 특히 빅데이터 분석과 머신러닝에서 많이 다뤄지며, 데이터셋의 피처(차원) 수가 매우 많을 때 발생하는 여러 가지 어려움을 의미합니다. "차원의 저주"는 고차원 공간에서 데이터를 분석할 때 발생하는 여러 문제를 설명하는 용어로, 데이터 희소성, 계산 요구 사항의 증가, 과적합, 거리 지표의 비효율성을 포함합니다. 이러한 문제를 해결하기 위해 차원 축소, 특징 선택, 정규화, 고차원에 적합한 알고리즘 사용 등의 기법이 필요합니다. 차원의 저주를 이해하고 해결하는 것은 큰 데이터셋을 다룰 때, 데이터 분석 및 머신러닝 모델의 성능과 정확도에 직접적인 영향을 미치기 때문에.. 2024. 9. 3. 이전 1 2 3 4 5 다음 728x90