TOP
class="layout-aside-left paging-number">
본문 바로가기
728x90

[파이썬 Projects]/<파이썬 머신 | 딥러닝 & AI>43

[파이썬] 분류와 분류 관련 머신러닝 알고리즘 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 분류(Classification) 지도학습의 대표적인 유형인 분류는 학습 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것이다. 즉, 기존 데이터가 어떤 레이블에 속하는지 패턴을 알고리즘으로 인지한 뒤에 새롭게 관측된 데이터에 대한 레이블을 판별하는 것이다. [분류와 관련된 머신러닝 알고리즘]베이즈 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes)독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Log.. 2024. 6. 11.
[파이썬 머신닝] 피마 인디언 당뇨병 예측 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 피마 인디언 당뇨병 예측 ◆ 피마 인디언 당뇨병(Pima Indian Diabetes) 데이터 세트를 이용해 당뇨병 여부를 판단하는 머신러닝 예측 모델을 수립하고 평가 지표 적용하기 고립된 유전적 특성 때문에 당뇨학회에서는 피마 인디언의 당뇨병 자료에 대해 많은 연구를 했다.1. 캐글에서 데이터 세트 다운받기하단 캐글 페이지에 접속하여 압축 파일을 다운로드https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database Pima Indians Diabetes DatabasePredict t.. 2024. 6. 11.
[파이썬] 성능 평가 지표 - 3 (F1 스코어, ROC 곡선, AUC) 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 이전 내용 [파이썬] 성능 평가 지표 - 2 (정밀도, 재현율)시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 이전 내용 [파이썬] 성능 평puppy-foot-it.tistory.comF1 스코어 F1 Score는 정밀도와 재현율을 결합한 지표 사이킷런에서는 f1_score() API 제공. [앞서 학습/예측한 로지스틱 회귀 기반 타이타닉 생존자 모델의 F1 스코어 구하기] [임곗값 변화에 따른 F1 스코어 및 기타 평가 지표 구하기].. 2024. 6. 10.
[파이썬] 성능 평가 지표 - 2 (정밀도, 재현율) 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 이전 내용 [파이썬] 성능 평가 지표 - 1시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 평가 머신러닝은 데이터 가puppy-foot-it.tistory.com정밀도/재현율 트레이드오프 '정밀도/재현율의 트레이드오프(Trade-off)'정밀도와 재현율은 상호 보완적인 평가 지표이기 때문에 어느 한 쪽을 강제로 높이면 다른 하나의 수치는 떨어지기 쉽다. ◆ predict_proba( ) 메서드: 개별 데이터별로 예측 확률을 반환하는 메.. 2024. 6. 10.
[파이썬] 성능 평가 지표 - 1 (정확도, 정밀도, 재현율, 오차 행렬) 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 평가 머신러닝은 데이터 가공/변환, 모델 학습/예측, 평가의 프로세스로 구성된다. 머신러닝 모델은 여러 가지 방법으로 예측 성능을 평가할 수 있다. [성능 평가 지표(Evaluation Metric)] - 회귀: 실제값과 예측값의 오차 평균값에 기반. 예측 오차를 가지고 정규화 수준을 재가공하는 방법 - 분류: 일반적으로는 실제 결과 데이터와 예측 결과 데이터가 얼마나 정확하고 오류가 적게 발생하는가에 기반하나, 단순히 이러한 정확도만 가지고 판단하면 잘못된 평가 결과에 빠질 수 있다. 또한, 분류는 이진 분류와 멀티 분류로 나뉠 수 있다. - .. 2024. 6. 9.
[파이썬] 사이킷런 - 타이타닉 생존자 예측 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 사이킷런으로 수행하는 타이타닉 생존자 예측 1. 분석에 필요한 라이브러리, 시각화 패키지, 파일 불러오기 2. 데이터 칼럼 타입 확인하기Range Index: DataFrame 인덱스의 범위 (전체 로우 수)Data Columns: 전체 칼럼 수dtypes: 데이터 타입판다스의 object 타입 = string 타입판다스는 넘파이 기반으로 만들어졌고 넘파이의 String 타입이 길이 제한이 있어서 이에 대한 구분을 위해 object 타입으로 명기전체 891개 데이터 중 Null 값이 있는 칼럼은 'Age', 'Cabin', 'Embarked'3... 2024. 6. 9.
[파이썬] 데이터 전처리 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는 새로운 세상search.shopping.naver.com 데이터 전처리(Data Preprocessing) ML 알고리즘은 데이터에 기반하고 있어 어떤 데이터를 입력으로 가지느냐에 따라 결과도 크게 달라질 수 있기 때문에 데이터 전처리가 매우 중요하다. [데이터 전처리 기본 사항]결손값(Null, NaN)은 허용되지 않는다. : 결손값은 고정된 다른 값으로 변환되어야 한다.사이킷런의 머신러닝 알고리즘은 문자열 값을 입력값으로 허용하지 않는다.: 모든 문자열은 인코딩돼서 숫자 형으로 변환해야 한다.데이터 인코딩 레이블 인코.. 2024. 6. 9.
[파이썬] 사이킷런의 model_selection 모듈 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는 새로운 세상search.shopping.naver.com Model Selection 모듈 소개 사이킷런의 model_selection 모듈은 학습 데이터와 테스트 데이터 세트를 분리하거나 교차 검증 분할 및 평가, 그리고 Estimator의 하이퍼 파라미터 (초매개변수)를 튜닝하기 위한 다양한 함수와 클래스를 제공한다. model_selection 모듈은 머신러닝 모델을 만들 때, 데이터를 효율적으로 나누고 평가하기 위해 사용되는 Python의 scikit-learn 라이브러리의 일부이며, 이 모듈은 다음과 같은 주요 .. 2024. 6. 7.
[파이썬] 사이킷런에 내장된 예제 데이터 세트 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는 새로운 세상search.shopping.naver.com 이전 내용 [파이썬] 사이킷런 주요 모듈시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는puppy-foot-it.tistory.com내장된 예제 데이터 세트 사이킷런에는 별도의 예제로 활용할 수 있는 간단하면서도 좋은 데이터 세트가 내장되어 있다.이 데이터는 datasets 모듈에 있는 여러 API를 호출해 만들 수 있다.사이킷런에.. 2024. 5. 30.
[파이썬] 사이킷런 주요 모듈 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는 새로운 세상search.shopping.naver.com Estimator 이해 및 fit( ), predict( ) 메서드 사이킷런은 ML 모델 학습을 위해 fit( ), 학습된 모델의 예측을 위해 predict( ) 메서드 제공.' ◆ 지도학습에서의 사이킷런 클래스(분류, 회귀, Estimator)지도학습의 주요 두 축인 분류와 회귀의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 위의 두 메서드만을 이용해 간단하게 학습과 예측 결과를 반환한다.Classifier: 분류 알고리즘을 구현한 클래스Regressor: 회.. 2024. 5. 30.
[파이썬] 사이킷런으로 시작하는 ML 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는 새로운 세상search.shopping.naver.com사이킷런(sickit-learn) 이란? 사이킷런은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리이다.그러나 최근에는 텐서플로, 케라스 등 딥러닝 전문 라이브러리의 강세로 인해 대중적인 관심이 줄어들고 있으나 여전히 대표적인 파이썬 머신러닝 라이브러리이다.Anaconda를 설치하면 기본으로 사이킷런까지 설치가 완료된다. [사이킷런 특징]쉽고 가장 파이썬스러운 API 제공(파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API 지향)머신러닝을 위한.. 2024. 5. 30.
[파이썬 머신러닝] 주요 패키지 파이썬 머신러닝 생태계를 구성하는 주요 패키지 파이썬 언어를 이용해 머신러닝 애플리케이션을 작성하기 위해서는 먼저 관련된 여러 패키지에 친숙해져야 한다. [파이썬 기반의 머신러닝에 필요한 주요 패키지] ◆ 사이킷런(Scikit-Learn): 머신러닝 패키지 scikit-learn(이전 명칭: scikits.learn, sklearn)은 파이썬 프로그래밍 언어용 자유 소프트웨어 기계 학습 라이브러리이다. 다양한 분류, 회귀, 그리고 서포트 벡터 머신, 랜덤 포레스트, 그라디언트 부스팅, k-평균, DBSCAN을 포함한 클러스터링 알고리즘을 특징으로 하며, 파이썬의 수치 및 과학 라이브러리 NumPy 및 SciPy와 함께 운용되도록 설계되었다. [출처: 위키백과] 많은 데이터 과학자와 분석가들이 꼽는 파이썬.. 2024. 5. 25.
[파이썬 머신러닝] 머신러닝과 생태계 이해 머신러닝의 개념 머신러닝은 일반적으로, 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법을 통칭한다.업무적으로 복잡한 조건/규칙들이 다양한 형태로 결합하고 시시각각 변하면서 도저히 소프트웨어 코드로 로직을 구성하여 이들을 관통하는 일정한 패턴을 찾기 어려운 경우에 머신러닝은 훌륭한 솔루션을 제공한다.ex) 스팸메일 필터링, 금융 사기 거래 적발 등 머신러닝은 데이터를 기반으로 숨겨진 패턴을 인지해 문제를 해결하고, 머신러닝 알고리즘은 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 에측 결과를 도출해 낸다. 데이터마이닝, 영상 인식, 음성 인식, 자연어 처리에.. 2024. 5. 17.
728x90