TOP
class="layout-aside-left paging-number">
본문 바로가기
728x90

Machine Learning13

[머신러닝] 결정 트리 (추가) 결정 트리 [머신러닝] 결정 트리 (+시각화)시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 결정 트리(Decision Tree) ◆ 결puppy-foot-it.tistory.com [결정 트리 개념]결정 트리(decision tree)는 분류와 회귀 작업 그리고 다중 출력 작업까지 가능한 다목적 머신러닝 알고리즘이며, 매우 복잡한 데이터셋도 학습할 수 있는 강력한 알고리즘이다.결정 트리는 최근에 자주 사용되는 강력한 머신러닝 알고리즘인 랜덤 포레스트의 기본 구성 요소이기도 하다. 결정 트리는 export_graphviz() 함수를 사용해 그래프 정의를 .dot 파일로 출력하여 훈련된 결정 트.. 2024. 11. 14.
[머신러닝] 캘리포니아 주택 가격 프로젝트-3 ◆ 프로젝트: 캘리포니아 주택 가격 데이터셋을 이용한 머신러닝 프로젝트이 데이터셋은 1990년 캘리포니아 인구 조사 데이터를 기반으로 하며, 진행할 주요 단계는 아래와 같다.데이터 준비데이터로부터 인사이트를 얻기 위해 탐색하고 시각화모델 선택하고 훈련모델 미세 튜닝솔루션 제시시스템 론칭, 모니터링, 유지보수이전 내용 [머신러닝] 캘리포니아 주택 가격 프로젝트-2◆ 프로젝트: 캘리포니아 주택 가격 데이터셋을 이용한 머신러닝 프로젝트이 데이터셋은 1990년 캘리포니아 인구 조사 데이터를 기반으로 하며, 진행할 주요 단계는 아래와 같다.데이터 준비데puppy-foot-it.tistory.com모델 선택과 훈련 [훈련 세트에서 훈련하고 평가하기]간단한 선형 회귀 모델 훈련하기from sklearn.linear_.. 2024. 11. 8.
[머신러닝] 캘리포니아 주택 가격 프로젝트-2 ◆ 프로젝트: 캘리포니아 주택 가격 데이터셋을 이용한 머신러닝 프로젝트이 데이터셋은 1990년 캘리포니아 인구 조사 데이터를 기반으로 하며, 진행할 주요 단계는 아래와 같다.데이터 준비데이터로부터 인사이트를 얻기 위해 탐색하고 시각화모델 선택하고 훈련모델 미세 튜닝솔루션 제시시스템 론칭, 모니터링, 유지보수이전 내용 [머신러닝] 캘리포니아 주택 가격 프로젝트◆ 프로젝트: 캘리포니아 주택 가격 데이터셋을 이용한 머신러닝 프로젝트이 데이터셋은 1990년 캘리포니아 인구 조사 데이터를 기반으로 하며, 진행할 주요 단계는 아래와 같다.데이터 준비데puppy-foot-it.tistory.com특성 스케일과 변환 데이터에 적용할 변환 한 가지는 특성 스케일링으로, 머신러닝 알고리즘은 입력된 숫자 특성들의 스케일이 .. 2024. 11. 8.
[머신러닝] 캘리포니아 주택 가격 프로젝트-1 ◆ 프로젝트: 캘리포니아 주택 가격 데이터셋을 이용한 머신러닝 프로젝트이 데이터셋은 1990년 캘리포니아 인구 조사 데이터를 기반으로 하며, 진행할 주요 단계는 아래와 같다.데이터 준비데이터로부터 인사이트를 얻기 위해 탐색하고 시각화모델 선택하고 훈련모델 미세 튜닝솔루션 제시시스템 론칭, 모니터링, 유지보수데이터 준비 및 탐색하기 모든 데이터가 들어 있는 CSV 파일인 housing.csv를 압축한 housing.tgz 파일을 내려받는데, 데이터를 수동으로 내려받아 압축을 푸는 대신 이를 위한 함수를 작성하는 것이 일반적으로 낫다. 특히 데이터가 정기적으로 바뀌는 경우에 유용하며, 최근 데이터를 내려받기 위해 이 함수를 사욯아는 짧은 스크립트를 작성할 수 있다.데이터를 내려받는 일을 자동화하면 여러 기기.. 2024. 11. 7.
[머신러닝] 스태킹 앙상블 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 참고하여 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다.스태킹 모델 스태킹(Stacking)은 개별적인 여러 알고리즘을 서로 결합해 예측 결과를 도출한다는 점에서 배깅(Bagging) 및 부스팅(Boosting)과 공통점을 갖고 있으나, 가장 큰 차이점은 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측을 수행한다는 것이다.- 배깅: 훈련 세트에서 중복을 허용하여 샘플링하는 방식.- 부스팅: 약한 학습기를 여러 개 연결하여 강한 학습기를 만드는 앙상블 방법, 앞의 모델을 보완해나가면서 일련의 예측기를 학습시킴. 즉, 개별 알고리즘의 예측 결과 데이터 세트를 최종적인 메타 데이터 세트로 만들어 별도.. 2024. 9. 21.
[머신러닝 프레임워크] Keras vs Tensorflow vs Pytorch 머신러닝 프레임워크 Keras vs Tensorflow vs Pytorch 비교하기 문서 작업을 할 때 MS Word, 한컴 등 다양한 프로그램이나 툴처럼 AI 개발, 학습, 배포 후 운영 작업을 하는 과정에서 다양한 프레임워크를 활용할 수 있는데, 대표적으로는 Keras(케라스), Tensorflow(텐서플로우), Pytorch (파이토치)가 있다.그전에, 머신러닝이라는 개념에 대해 알고 싶다면 [파이썬 머신러닝] 머신러닝과 생태계 이해머신러닝의 개념 머신러닝은 일반적으로, 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법을 통칭한다.업무적으로 복잡한 조건/규칙들이puppy-foot-it.tistory.com 프레임워크란,개발 과정의 설계와 구현을 좀 더 편.. 2024. 9. 9.
[머신러닝] 텐서플로우(TensorFlow)란? 텐서플로우(TensorFlow)란? 텐서플로우(TensorFlow)는 구글에서 개발한 오픈소스 머신러닝 프레임워크이다. 주로 딥러닝 모델을 만들고 학습시키는 데 사용되며, 다양한 플랫폼에서 실행이 가능하다. 텐서플로우는 직관적인 API와 대화형 코드 샘플을 통해 머신러닝을 쉽게 배울 수 있도록 도와준다. 텐서플로우는 기계학습 분야를 일반인들도 사용하기 쉽도록 다양한 기능들을 제공한다. 2016년 알파고와 함께 한국에서도 관심이 높아진 추세이며 관련 컨퍼런스들도 개최되고 있다. 고수준 프로그래밍 언어로 알려진 Python을 활용하여 연산처리를 작성할 수 있다. 다른 언어들도 대부분 지원하지만 Python 관련 자료가 가장 많다. 때문에 공개된 지 그리 오래되지 않았음에도 불구하고 다양한 분야에서 활용되고 .. 2024. 8. 6.
[머신러닝] 결정 트리 - 3 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 이전 내용 [파이썬] 머신러닝 알고리즘: 결정 트리 - 2시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 이전 내용 [파이썬] 머신러puppy-foot-it.tistory.comfeature_importances_ 결정 트리는 균일도에 기반해 어떠한 속성을 규칙 조건으로 선택하느냐가 중요한 요건이다.중요한 몇 개의 피처가 명확한 규칙 트리를 만드는 데 크게 기여하며, 모델을 좀 더 간결하고 이상치(Outlier)에 강한 모델을 만들 수.. 2024. 6. 23.
[머신러닝] 사이킷런에 내장된 예제 데이터 세트 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는 새로운 세상search.shopping.naver.com 이전 내용 [파이썬] 사이킷런 주요 모듈시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는puppy-foot-it.tistory.com내장된 예제 데이터 세트 사이킷런에는 별도의 예제로 활용할 수 있는 간단하면서도 좋은 데이터 세트가 내장되어 있다.이 데이터는 datasets 모듈에 있는 여러 API를 호출해 만들 수 있다.사이킷런에.. 2024. 5. 30.
[머신러닝] 주요 패키지 파이썬 머신러닝 생태계를 구성하는 주요 패키지 파이썬 언어를 이용해 머신러닝 애플리케이션을 작성하기 위해서는 먼저 관련된 여러 패키지에 친숙해져야 한다. [파이썬 기반의 머신러닝에 필요한 주요 패키지] ◆ 사이킷런(Scikit-Learn): 머신러닝 패키지 scikit-learn(이전 명칭: scikits.learn, sklearn)은 파이썬 프로그래밍 언어용 자유 소프트웨어 기계 학습 라이브러리이다. 다양한 분류, 회귀, 그리고 서포트 벡터 머신, 랜덤 포레스트, 그라디언트 부스팅, k-평균, DBSCAN을 포함한 클러스터링 알고리즘을 특징으로 하며, 파이썬의 수치 및 과학 라이브러리 NumPy 및 SciPy와 함께 운용되도록 설계되었다. [출처: 위키백과] 많은 데이터 과학자와 분석가들이 꼽는 파이썬.. 2024. 5. 25.
[머신러닝] 머신러닝과 생태계 이해 머신러닝의 개념 머신러닝은 일반적으로, 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법을 통칭한다. 톰 미첼(Tom Mitchell)은 머신러닝에 대해"어떤 작업 T에 대한 컴퓨터 프로그램의 성능을 P로 측정했을 때 경험 E로 인해 성능이 향상됐다면, 이 컴퓨터 프로그램은 작업 T와 성능 측정 P에 대해 경험 E로 학습한 것이다"라고 했다.훈련 세트: 시스템이 학습하는 데 사용하는 샘플훈련 사례(샘플): 각각의 훈련 데이터모델: 머신러닝 시스템에서 학습하고 예측을 만드는 부분 (예. 신경망, 랜덤 포레스트 등)업무적으로 복잡한 조건/규칙들이 다양한 형태로 결합하고 시시각각 변하면서 도저히 소프트웨어 코드로 로직을 구성하여 이들을 관통하는 일정한 패턴을 찾기 .. 2024. 5. 17.
[24년 6th] 파이썬 머신러닝 완벽 가이드 김철민저, 위키북스 는 이론 위주의 머신러닝 책이 아닌 다양한 실전 예제를 직접 구현해 보면서 머신러닝을 체득할 수 있도록 하였다. 실전에서 자주 사용되는 알고리즘과 반드시 알아야 할 핵심 개념 설명에 집중했으며, 코드 작성과 예제를 통해 핵심 개념을 이해할 수 있도록 하였다. 이 책은 머신러닝 입문자보다는 머신러닝에 조금이라도 경험이 있는 사람들을 대상으로 집필된 책이라 입문자에게는 난이도가 있는 편이다. 목차를 보면 빅데이터 분석기사 필기 준비 때 공부했던 다양한 이론을 실제 어떻게 분석하고 구현하는지 잘 나와있어 실무를 배우는데 큰 도움이 될 것으로 보인다. 700 페이지가 넘어가는 방대한 양에 다양한 내용을 담았으므로, 머신러닝을 배우고 싶은 이들에게 큰 도움이 될 듯하다. 현재 진행 중인 프로젝.. 2024. 5. 4.
ML / DL 이란? ML (Machine Learning, 머신러닝) 기계학습법, 많은 데이터를 컴퓨터에 입력하고 비슷한 것끼리 분류하도록 하는 기술 인공지능 연구 분야 중 하나로, 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하는 기술 1990년대 중반 이후에 인터넷의 등장으로 방대한 데이터를 수집할 수 있게 되면서 수많은 빅데이터를 분석해 인공지능 시스템 스스로 학습하는 형태로 진화 빅데이터 핵심 기술로 각광 새로운 데이터가 입력됐을 때 과거의 학습 경험을 토대로 이를 이해하고 분석함으로써 다가올 변화를 예측 가능 데이터가 포함한 내용의 특징을 포함하는 데는 한계 ▶ 딥러닝이 고안되면서 문제 해결 과거에는 데이터를 처리할 수 있는 컴퓨팅 성능의 한계가 있었으나, 최근 기술 수준이 빠르게 발전하면서 머신 러닝을 구현하기.. 2024. 3. 5.
728x90