TOP
class="layout-aside-left paging-number">
본문 바로가기
데이터분석 만능열쇠 [파이썬]/<파이썬 머신러닝>

[파이썬] 사이킷런에 내장된 예제 데이터 세트

by 기록자_Recordian 2024. 5. 30.
728x90
반응형
시작에 앞서
해당 내용은 '<파이썬 머신러닝 완벽 가이드> 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다.
 

네이버 도서

책으로 만나는 새로운 세상

search.shopping.naver.com


 이전 내용
 

[파이썬] 사이킷런 주요 모듈

시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는

puppy-foot-it.tistory.com


내장된 예제 데이터 세트

 

사이킷런에는 별도의 예제로 활용할 수 있는 간단하면서도 좋은 데이터 세트가 내장되어 있다.

이 데이터는 datasets 모듈에 있는 여러 API를 호출해 만들 수 있다.

사이킷런에 내장 되어 있는 데이터 세트는 분류나 회귀를 연습하기 위한 예제용도의 데이터 세트, 분류나 클러스터링을 위해 표본 데이터로 생성될 수 있는 데이터 세트로 나뉘어진다.

 

 분류나 회귀 연습용 예제 데이터

API명 용도 설명
datasets.load_boston( ) 회귀 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트
datasets.load_breast_cancer( ) 분류 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트
datasets.load_diabetes( ) 회귀 당뇨 데이터 세트peop
datasets.load_digits( ) 분류 0에서 9까지 숫자의 이미지 픽셀 데이터 세트
datasets.load_iris( ) 분류 붓꽃에 대한 피처를 가진 데이터 세트

 

fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아 홈 디렉터리 아래의 scikit_learn_data 라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터이기 때문에 최초 사용 시에 인터넷에 연결돼 있지 않으면 사용이 불가하다.

  • fetch_covtype( ): 회귀 분석용 토지 조사 자료
  • fetch_20newsgroups( ): 뉴스 그룹 텍스트 자료
  • fetch_olivetti_faces( ): 얼굴 이미지 자료
  • fetch_lfw_people( ): 얼굴 이미지 자료
  • fetch_lfw_fairs( ): 얼굴 이미지 자료
  • fetch_rcv1( ): 로이터 뉴스 말뭉치
  • fetch_mldata( ): ML 웹사이트에서 다운로드

 분류와 클러스터링을 위한 표본 데이터 생성기

API 명 설명
dataset.make_classifications( ) 분류를 위한 데이터 세트 생성.
특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성
datasets.make_blobs( ) 클러스터링을 위한 데이터 세트를 무작위로 생성.
군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 쉽게 만들어줌.

 

◆ 분류나 회그를 위한 연습용 예제 데이터

사이킷런에 내장된 이 데이터 세트는 일반적으로 딕셔너리 형태로 되어 있다.

키는 보통 data, target, target_name, feature_names, DESCR로 구성

  • data: 피처의 데이터 세트 (넘파이 배열 타입)
  • target: 분류 시 레이블 값, 회귀일 때는 숫자 결과값 데이터 세트 (넘파이 배열 타입)
  • target_names: 개별 레이블의 이름 (넘파이 배열 또는 파이선 리스트 타입)
  • feature_names: 피처의 이름  (넘파이 배열 또는 파이선 리스트 타입)
  • DESCR: 데이터 세트에 대한 설명과 각 피처의 설명 (스트링 타입)

▶ 피처의 데이터 값을 반환받기 위해서는 내장 데이터 세트 API 호출 후 그 Key 값을 지정받으면 된다.

 

load_iris( )의 API 반환 결과 확인

※ Bunch 클래스는 파이썬 딕셔너리 자료형과 유사

 

데이터 세트의 key 값 확인

 

 

데이터 키는 피처들의 데이터 값을 가리킨다.

피처 데이터 값을 추출하기 위해서는 데이터 세트.data(또는 데이터 세트['data']) 이용.

★ load_iris( )가 반환하는 객체의 키들이 가리키는 값

 


 

 

728x90
반응형