TOP
class="layout-aside-left paging-number">
본문 바로가기
728x90

[파이썬 Projects]352

[머신러닝] 머신러닝 기반 분석 모형 선정 머신러닝 기반 분석 모형 선정   지도 학습, 비지도 학습, 강화 학습, 준지도 학습, 전이 학습 1) 지도 학습: 정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법(컴퓨터에 먼저 정보를 가르치는 방법.)설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해 내는 것에 초점주로 인식, 분류, 진단, 예측 등의 문제 해결에 적합분석하고자 하는 목적변수의 형태가 수치형인가 범주형인가에 따라 분류와 수치예측 방법으로 다시 나눔로지스틱 회귀, 인공신경망 분석(ANN), 의사결정나무, 서포트 벡터 머신(SVM), 랜덤 포레스트, 감성 분석 등 예를 들어, 사진을 주고 "이 사진은 고양이" 라고 알려주는 식이며, 기존 기계학습 알고리즘은 대부분 지도 학습에 기초.  .. 2024. 11. 16.
[머신러닝] 차원 축소: 랜덤 투영, 지역 선형 임베딩 차원축소란? [머신러닝] 차원 축소(Dimension Reduction)차원 축소(Dimension Reduction)차원 축소의 중요한 의미는차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는잠재적인 요소를 추출하는 데 있다.차원 축소: 매우 많은 피처로 구성된 다차원 데이터puppy-foot-it.tistory.com랜덤 투영 랜덤 투영은 간단하고 빠르며 메모리 효율이 높고 강력한 차원 축소 알고리즘으로, 특히 고차원 데이터셋을 다룰 때 염두에 두어야 한다. 랜덤 투영 알고리즘은 랜덤한 선형 투영을 사용하여 데이터를 저차원 공간에 투영한다. 이러한 랜덤 투영은  실제로 거리를 상당히 잘 보존할 가능성이 매우 높다는 것이 존슨과 린덴스트라우스가 수학적으로 증명해 냄에 따라 투영 후에도 비슷한 두 개의.. 2024. 11. 15.
[머신러닝] 차원 축소: 주성분 분석 (추가) 차원 축소란? [머신러닝] 차원 축소(Dimension Reduction)차원 축소(Dimension Reduction)차원 축소의 중요한 의미는차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는잠재적인 요소를 추출하는 데 있다.차원 축소: 매우 많은 피처로 구성된 다차원 데이터puppy-foot-it.tistory.com주성분 분석(PCA) 주성분 분석(principal component analysis)은 가장 인기 있는 차원 축소 알고리즘이다. 먼저 데이터에 가장 가까운 초평면을 정의한 다음, 데이터를 이 평면에 투영시킨다. [보다 자세한 내용] [머신러닝] 차원 축소 - PCA차원 축소란? [머신러닝] 차원 축소(Dimension Reduction)차원 축소(Dimension Reduction).. 2024. 11. 15.
[머신러닝] 앙상블 : AdaBoost 앙상블 학습 [머신러닝] 분류 - 앙상블 학습(Ensemble Learning)앙상블 학습(Ensemble Learning) 앙상블 학습을 통한 분류는,여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법을 말한다. 앙상블 학습의 목표는,다양한puppy-foot-it.tistory.com에이다 부스트 (AdaBoost) ◆ 부스팅(Boosting):부스팅은 약한 학습기를 여러 개 연결하여 강한 학습기를 만드는 앙상블 방법을 말하며, 앞의 모델을 보완해 나가면서 일련의 예측기를 학습시키는 것이다.  ◆ AdaBoost 개념- 에이다부스트는 Adaptive + Boosting 로 만들어진 단어이며, 알고리즘의 정의를 살펴보면 아래와 같다.약한 분류기(weak classi.. 2024. 11. 15.
[머신러닝] 앙상블: 투표 기반 분류기, 배깅과 페이스팅 앙상블 학습 [머신러닝] 분류 - 앙상블 학습(Ensemble Learning)앙상블 학습(Ensemble Learning) 앙상블 학습을 통한 분류는,여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법을 말한다. 앙상블 학습의 목표는,다양한puppy-foot-it.tistory.com투표 기반 분류기 - 직접 투표(hard voting) 더 좋은 분류기를 만드는 매우 간단한 방법은 각 분류기의 예측을 집계하는 것인데, 가장 많은 표를 얻은 클래스가 앙상블의 예측이 되며, 이렇게 다수결 투표로 정해지는 분류기를 직접 투표 (하드 보팅, hard voting) 분류기라고 한다.이 다수결 투표 분류기가 앙상블에 포함된 개별 분류기 중 가장 뛰어난 것보다도 정확도가 높은.. 2024. 11. 15.
[머신러닝] 결정 트리 (추가) 결정 트리 [머신러닝] 결정 트리 (+시각화)시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 결정 트리(Decision Tree) ◆ 결puppy-foot-it.tistory.com [결정 트리 개념]결정 트리(decision tree)는 분류와 회귀 작업 그리고 다중 출력 작업까지 가능한 다목적 머신러닝 알고리즘이며, 매우 복잡한 데이터셋도 학습할 수 있는 강력한 알고리즘이다.결정 트리는 최근에 자주 사용되는 강력한 머신러닝 알고리즘인 랜덤 포레스트의 기본 구성 요소이기도 하다. 결정 트리는 export_graphviz() 함수를 사용해 그래프 정의를 .dot 파일로 출력하여 훈련된 결정 트.. 2024. 11. 14.
[머신러닝] 서포트 벡터 머신(SVM) 머신러닝 기반 분석 모형 선정  [머신러닝] 머신러닝 기반 분석 모형 선정머신러닝 기반 분석 모형 선정   지도 학습, 비지도 학습, 강화 학습, 준지도 학습, 전이 학습 1) 지도 학습: 정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법(puppy-foot-it.tistory.com서포트 벡터 머신(Support Vector Machine, SVM) SVM은 매우 강력할 뿐만 아니라 선형이나 비선형 분류, 회귀, 특이치 탐지에도 사용할 수 있는 다목적 머신러닝 모델이다. SVM은 중소규모의 비선형 데이터셋, 특히 분류 작업에서 빛을 발하나 매우 큰 데이터셋으로는 잘 확장되지 않는다. [SVM 주요 특징]벡터 공간에서 훈련 데이터가 속한 2개의 그룹을 분류하는 선형 .. 2024. 11. 14.
[머신러닝] 모델 훈련 - 2 이전 내용 [머신러닝] 모델 훈련 - 1머신러닝 모델 훈련 머신러닝 모델이 어떻게 작동하는지 잘 이해하고 있으면 적절한 모델, 올바른 훈련 알고리즘, 작업에 맞는 좋은 하이퍼 파라미터를 빠르게 찾을 수 있다. 또한 디버깅이나puppy-foot-it.tistory.com학습 곡선 학습 곡선은 모델의 훈련 오차와 검증 오차를 훈련 반복 횟수의 함수로 나타낸 그래프이다. 고차 다항 회귀를 적용하면 일반 선형 회귀에서보다 훨씬 더 훈련 데이터에 잘 맞추려 할 것이다,아래의 코드는 300차 다항 회귀 모델을 훈련 데이터에 적용하여 단순한 선형 모델이나 2차 다항 회귀 모델과 결과를 비교해본 것이다.from sklearn.preprocessing import StandardScalerfrom sklearn.pipe.. 2024. 11. 13.
[머신러닝] 모델 훈련 - 1 머신러닝 모델 훈련 머신러닝 모델이 어떻게 작동하는지 잘 이해하고 있으면 적절한 모델, 올바른 훈련 알고리즘, 작업에 맞는 좋은 하이퍼 파라미터를 빠르게 찾을 수 있다. 또한 디버깅이나 에러를 효율적으로 분석하는 데 도움이 된다. 모델을 훈련시킨다는 것은 모델이 훈련 세트에 가장 잘 맞도록 모델 파라미터를 설정하는 것이며, 이를 위해 먼저 모델이 훈련 데이터에 얼마나 잘 맞는지 측정해야 한다. 이 글에서 언급하는 대부분의 주제는 신경망을 이해하고 구축하고 훈련시키는 데 필수이다. [알아볼 개념]선형 회귀다항 회귀 - 학습 곡선규제가 있는 선형 모델(릿지, 라쏘, 엘라스틱넷, 조기 종료)로지스틱 회귀, 소프트맥스 회귀선형 회귀는 닫힌 형태의 방정식을 사용하여 비용 함수를 최소화하는 파라미터를 계산하거나, .. 2024. 11. 9.
[머신러닝] 분류: MNIST 데이터셋 실습 - 2 분류란? [머신러닝] 분류와 분류 관련 머신러닝 알고리즘시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 분류(Classification) 지도학습puppy-foot-it.tistory.com이전 내용 [머신러닝] 분류: MNIST 데이터셋 실습 - 1분류란? [머신러닝] 분류와 분류 관련 머신러닝 알고리즘시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적puppy-foot-it.tistory.com다중 분류 이진 분류기는 두 개의 클래스를 구별하는 반면 다중 분류기는 둘 이상의 클래스를 구별할 수 있다.Logis.. 2024. 11. 9.
[머신러닝] 분류: MNIST 데이터셋 실습 - 1 분류란? [머신러닝] 분류와 분류 관련 머신러닝 알고리즘시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 분류(Classification) 지도학습puppy-foot-it.tistory.comMINIST ◆ MINIST 데이터셋이란? (출처: 위키백과)MNIST 데이터베이스 (Modified National Institute of Standards and Technology database)는 손으로 쓴 숫자들로 이루어진 대형 데이터베이스이며, 다양한 화상 처리 시스템을 트레이닝하기 위해 일반적으로 사용된다. 이 데이터베이스는 또한 기계 학습 분야의 트레이닝 및 테스트에 널리 사용된다. NIST.. 2024. 11. 9.
[머신러닝] 캘리포니아 주택 가격 프로젝트-3 ◆ 프로젝트: 캘리포니아 주택 가격 데이터셋을 이용한 머신러닝 프로젝트이 데이터셋은 1990년 캘리포니아 인구 조사 데이터를 기반으로 하며, 진행할 주요 단계는 아래와 같다.데이터 준비데이터로부터 인사이트를 얻기 위해 탐색하고 시각화모델 선택하고 훈련모델 미세 튜닝솔루션 제시시스템 론칭, 모니터링, 유지보수이전 내용 [머신러닝] 캘리포니아 주택 가격 프로젝트-2◆ 프로젝트: 캘리포니아 주택 가격 데이터셋을 이용한 머신러닝 프로젝트이 데이터셋은 1990년 캘리포니아 인구 조사 데이터를 기반으로 하며, 진행할 주요 단계는 아래와 같다.데이터 준비데puppy-foot-it.tistory.com모델 선택과 훈련 [훈련 세트에서 훈련하고 평가하기]간단한 선형 회귀 모델 훈련하기from sklearn.linear_.. 2024. 11. 8.
[머신러닝] 캘리포니아 주택 가격 프로젝트-2 ◆ 프로젝트: 캘리포니아 주택 가격 데이터셋을 이용한 머신러닝 프로젝트이 데이터셋은 1990년 캘리포니아 인구 조사 데이터를 기반으로 하며, 진행할 주요 단계는 아래와 같다.데이터 준비데이터로부터 인사이트를 얻기 위해 탐색하고 시각화모델 선택하고 훈련모델 미세 튜닝솔루션 제시시스템 론칭, 모니터링, 유지보수이전 내용 [머신러닝] 캘리포니아 주택 가격 프로젝트◆ 프로젝트: 캘리포니아 주택 가격 데이터셋을 이용한 머신러닝 프로젝트이 데이터셋은 1990년 캘리포니아 인구 조사 데이터를 기반으로 하며, 진행할 주요 단계는 아래와 같다.데이터 준비데puppy-foot-it.tistory.com특성 스케일과 변환 데이터에 적용할 변환 한 가지는 특성 스케일링으로, 머신러닝 알고리즘은 입력된 숫자 특성들의 스케일이 .. 2024. 11. 8.
[머신러닝] 데이터셋을 구하기 좋은 사이트 모음 머신러닝을 배울 때는 인공적으로 만들어진 데이터셋이 아닌 실제 데이터셋으로 실험해보는 것이 가장 좋다.다음은 데이터를 구하기 좋은 곳이다.유명한 공개 데이터 저장소 이러한 리포지토리는 과학 데이터부터 고품질 이미지, 텍스트, 특히 기계 학습용 데이터 세트까지 모든 것을 포괄하는 품질과 폭으로 잘 알려져 있다.- OpenML(https://openml.org)OpenML은 기계 학습을 위한 광범위한 데이터 세트를 제공하므로 학생, 연구원 및 데이터 과학자에게 이상적인 저장소다. 또한 사용자는 결과와 작업 흐름을 공유하여 협업 환경을 조성할 수 있다.- 캐글(https://kaggle.com/datasets)Kaggle의 데이터세트 라이브러리는 데이터 매니아들이 즐겨찾는 곳이다. 다양한 분야의 데이터 세트를.. 2024. 11. 8.
[머신러닝] 캘리포니아 주택 가격 프로젝트-1 ◆ 프로젝트: 캘리포니아 주택 가격 데이터셋을 이용한 머신러닝 프로젝트이 데이터셋은 1990년 캘리포니아 인구 조사 데이터를 기반으로 하며, 진행할 주요 단계는 아래와 같다.데이터 준비데이터로부터 인사이트를 얻기 위해 탐색하고 시각화모델 선택하고 훈련모델 미세 튜닝솔루션 제시시스템 론칭, 모니터링, 유지보수데이터 준비 및 탐색하기 모든 데이터가 들어 있는 CSV 파일인 housing.csv를 압축한 housing.tgz 파일을 내려받는데, 데이터를 수동으로 내려받아 압축을 푸는 대신 이를 위한 함수를 작성하는 것이 일반적으로 낫다. 특히 데이터가 정기적으로 바뀌는 경우에 유용하며, 최근 데이터를 내려받기 위해 이 함수를 사욯아는 짧은 스크립트를 작성할 수 있다.데이터를 내려받는 일을 자동화하면 여러 기기.. 2024. 11. 7.
728x90