TOP
class="layout-aside-left paging-number">
본문 바로가기
728x90

[파이썬 Projects]/<파이썬 머신러닝>92

[머신러닝] 결정트리 - 사용자 행동 인식 데이터 세트 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다.사용자 행동 인식 데이터 세트 [실습 내용]결정 트리를 이용해 UCI 머신러닝 리포지토리(Machine Learning Repository)에서 제공하는 사용자 행동 인식(Human Activity Recognition) 데이터 세트에 대한 예측 분류 수행 해당 데이터는 30명에게 스마트폰 센서를 장착한 뒤 사람의 동작과 관련된 여러 가지 피처를 수집한 데이터이며,수집된 피처 세트를 기반으로 결정 트리를 이용해 어떠한 동작인지 예측해 보는 것이 수행 목표이다. 우선, 하단의 링크로 접속하여 데이터 세트를 다운 받는다.https://archive.i.. 2024. 6. 23.
[머신러닝] 결정 트리 - 3 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 이전 내용 [파이썬] 머신러닝 알고리즘: 결정 트리 - 2시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 이전 내용 [파이썬] 머신러puppy-foot-it.tistory.comfeature_importances_ 결정 트리는 균일도에 기반해 어떠한 속성을 규칙 조건으로 선택하느냐가 중요한 요건이다.중요한 몇 개의 피처가 명확한 규칙 트리를 만드는 데 크게 기여하며, 모델을 좀 더 간결하고 이상치(Outlier)에 강한 모델을 만들 수.. 2024. 6. 23.
[머신러닝] 결정 트리 - 2 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 이전 내용 [파이썬] 머신러닝 알고리즘: 결정 트리 (+시각화)시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 결정 트리(Decision Tree) ◆ 결puppy-foot-it.tistory.com시각회된 결정 트리 분석 앞서 시각화했던 결정 트리에 대해 상세히 설명하면, [노드 내에 기술된 지표의 의미]- petal length(cm) (이 조건이 없으면 자식 노드이다.)- gini는 다음의 value=[]로 주어진 데이터 분포에서.. 2024. 6. 23.
[머신러닝] 결정 트리 (+시각화) 결정 트리(Decision Tree) ◆ 결정 트리 알고리즘: 데이터 있는 규칙을 학습을 통해 자동으로 찾아내 트리(Tree) 기반의 분류 규칙을 만드는 것.일반적으로 룰 기반의 프로그램에 적용되는 if, else 를 자동으로 찾아내 예측을 위한 규칙을 만드는 알고리즘이다.▶ 데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될 것인가가 알고리즘의 성능을 크게 좌우 [결정 트리의 구조]- 규칙 노드(Decision Node): 규칙 조건- 리프 노드(Leaf Node): 결정된 클래스 값- 서브 트리(Sub Tree): 새로운 규칙 조건 마다 생성 데이터 세트에 피처가 있고 이러한 피처가 결합해 규칙 조건을 만들 때마다 규칙 노드가 생성되나,트리의 깊이가 깊어질수록 과적합 발생 우려가 .. 2024. 6. 23.
[머신러닝] 분류와 분류 관련 머신러닝 알고리즘 머신러닝 기반 분석 모형 선정  [머신러닝] 머신러닝 기반 분석 모형 선정머신러닝 기반 분석 모형 선정   지도 학습, 비지도 학습, 강화 학습, 준지도 학습, 전이 학습 1) 지도 학습: 정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법(puppy-foot-it.tistory.com 분류(Classification) 지도학습의 대표적인 유형인 분류는 학습 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것이다. 즉, 기존 데이터가 어떤 레이블에 속하는지 패턴을 알고리즘으로 인지한 뒤에 새롭게 관측된 데이터에 대한 레이블을 판별하는 것이다. [분.. 2024. 6. 11.
[머신러닝] 피마 인디언 당뇨병 예측 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 피마 인디언 당뇨병 예측 ◆ 피마 인디언 당뇨병(Pima Indian Diabetes) 데이터 세트를 이용해 당뇨병 여부를 판단하는 머신러닝 예측 모델을 수립하고 평가 지표 적용하기 고립된 유전적 특성 때문에 당뇨학회에서는 피마 인디언의 당뇨병 자료에 대해 많은 연구를 했다.1. 캐글에서 데이터 세트 다운받기하단 캐글 페이지에 접속하여 압축 파일을 다운로드https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database Pima Indians Diabetes DatabasePredict t.. 2024. 6. 11.
[머신러닝] 성능 평가 지표 - 3 (F1 스코어, ROC 곡선, AUC) 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 이전 내용 [파이썬] 성능 평가 지표 - 2 (정밀도, 재현율)시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 이전 내용 [파이썬] 성능 평puppy-foot-it.tistory.comF1 스코어 F1 Score는 정밀도와 재현율을 결합한 지표 사이킷런에서는 f1_score() API 제공. [앞서 학습/예측한 로지스틱 회귀 기반 타이타닉 생존자 모델의 F1 스코어 구하기] [임곗값 변화에 따른 F1 스코어 및 기타 평가 지표 구하기].. 2024. 6. 10.
[머신러닝] 성능 평가 지표 - 2 (정밀도, 재현율) 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 이전 내용 [파이썬] 성능 평가 지표 - 1시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 평가 머신러닝은 데이터 가puppy-foot-it.tistory.com정밀도/재현율 트레이드오프 '정밀도/재현율의 트레이드오프(Trade-off)'정밀도와 재현율은 상호 보완적인 평가 지표이기 때문에 어느 한 쪽을 강제로 높이면 다른 하나의 수치는 떨어지기 쉽다. ◆ predict_proba( ) 메서드: 개별 데이터별로 예측 확률을 반환하는 메.. 2024. 6. 10.
[머신러닝] 성능 평가 지표 - 1 (정확도, 정밀도, 재현율, 오차 행렬) 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 평가 머신러닝은 데이터 가공/변환, 모델 학습/예측, 평가의 프로세스로 구성된다.머신러닝 모델은 여러 가지 방법으로 예측 성능을 평가할 수 있다. [성능 평가 지표(Evaluation Metric)]- 회귀: 실제값과 예측값의 오차 평균값에 기반. 예측 오차를 가지고 정규화 수준을 재가공하는 방법- 분류: 일반적으로는 실제 결과 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적게 발생하는가에 기반하나, 단순히 이러한 정확도만 가지고 판단하면 잘못된 평가 결과에 빠질 수 있다. 또한, 분류는 이진 분류와 멀티 분류로 나뉠 수 있다.- 이진 분.. 2024. 6. 9.
[머신러닝] 타이타닉 생존자 예측 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 사이킷런으로 수행하는 타이타닉 생존자 예측 1. 분석에 필요한 라이브러리, 시각화 패키지, 파일 불러오기 2. 데이터 칼럼 타입 확인하기Range Index: DataFrame 인덱스의 범위 (전체 로우 수)Data Columns: 전체 칼럼 수dtypes: 데이터 타입판다스의 object 타입 = string 타입판다스는 넘파이 기반으로 만들어졌고 넘파이의 String 타입이 길이 제한이 있어서 이에 대한 구분을 위해 object 타입으로 명기전체 891개 데이터 중 Null 값이 있는 칼럼은 'Age', 'Cabin', 'Embarked'3... 2024. 6. 9.
[머신러닝] 데이터 전처리 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는 새로운 세상search.shopping.naver.com 데이터 전처리(Data Preprocessing) ML 알고리즘은 데이터에 기반하고 있어 어떤 데이터를 입력으로 가지느냐에 따라 결과도 크게 달라질 수 있기 때문에 데이터 전처리가 매우 중요하다. [데이터 전처리 기본 사항]결손값(Null, NaN)은 허용되지 않는다. : 결손값은 고정된 다른 값으로 변환되어야 한다.사이킷런의 머신러닝 알고리즘은 문자열 값을 입력값으로 허용하지 않는다.: 모든 문자열은 인코딩돼서 숫자 형으로 변환해야 한다.데이터 인코딩 레이블 인코.. 2024. 6. 9.
[머신러닝] 사이킷런의 model_selection 모듈 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는 새로운 세상search.shopping.naver.com Model Selection 모듈 소개 사이킷런의 model_selection 모듈은 학습 데이터와 테스트 데이터 세트를 분리하거나 교차 검증 분할 및 평가, 그리고 Estimator의 하이퍼 파라미터 (초매개변수)를 튜닝하기 위한 다양한 함수와 클래스를 제공한다. model_selection 모듈은 머신러닝 모델을 만들 때, 데이터를 효율적으로 나누고 평가하기 위해 사용되는 Python의 scikit-learn 라이브러리의 일부이며, 이 모듈은 다음과 같은 주요 .. 2024. 6. 7.
[머신러닝] 사이킷런에 내장된 예제 데이터 세트 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는 새로운 세상search.shopping.naver.com 이전 내용 [파이썬] 사이킷런 주요 모듈시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는puppy-foot-it.tistory.com내장된 예제 데이터 세트 사이킷런에는 별도의 예제로 활용할 수 있는 간단하면서도 좋은 데이터 세트가 내장되어 있다.이 데이터는 datasets 모듈에 있는 여러 API를 호출해 만들 수 있다.사이킷런에.. 2024. 5. 30.
[머신러닝] 사이킷런 주요 모듈 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는 새로운 세상search.shopping.naver.com Estimator 이해 및 fit( ), predict( ) 메서드 사이킷런은 ML 모델 학습을 위해 fit( ), 학습된 모델의 예측을 위해 predict( ) 메서드 제공.' ◆ 지도학습에서의 사이킷런 클래스(분류, 회귀, Estimator)지도학습의 주요 두 축인 분류와 회귀의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 위의 두 메서드만을 이용해 간단하게 학습과 예측 결과를 반환한다.Classifier: 분류 알고리즘을 구현한 클래스Regressor: 회.. 2024. 5. 30.
[머신러닝] 사이킷런으로 시작하는 ML 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는 새로운 세상search.shopping.naver.com사이킷런(sickit-learn) 이란? 사이킷런은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리이다.그러나 최근에는 텐서플로, 케라스 등 딥러닝 전문 라이브러리의 강세로 인해 대중적인 관심이 줄어들고 있으나 여전히 대표적인 파이썬 머신러닝 라이브러리이다.Anaconda를 설치하면 기본으로 사이킷런까지 설치가 완료된다. [사이킷런 특징]쉽고 가장 파이썬스러운 API 제공(파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API 지향)머신러닝을 위한.. 2024. 5. 30.
728x90