시작에 앞서
해당 내용은 '<파이썬 머신러닝 완벽 가이드> 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다.
이전 내용
내장된 예제 데이터 세트
사이킷런에는 별도의 예제로 활용할 수 있는 간단하면서도 좋은 데이터 세트가 내장되어 있다.
이 데이터는 datasets 모듈에 있는 여러 API를 호출해 만들 수 있다.
사이킷런에 내장 되어 있는 데이터 세트는 분류나 회귀를 연습하기 위한 예제용도의 데이터 세트, 분류나 클러스터링을 위해 표본 데이터로 생성될 수 있는 데이터 세트로 나뉘어진다.
◆ 분류나 회귀 연습용 예제 데이터
API명 | 용도 | 설명 |
datasets.load_boston( ) | 회귀 | 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트 |
datasets.load_breast_cancer( ) | 분류 | 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트 |
datasets.load_diabetes( ) | 회귀 | 당뇨 데이터 세트peop |
datasets.load_digits( ) | 분류 | 0에서 9까지 숫자의 이미지 픽셀 데이터 세트 |
datasets.load_iris( ) | 분류 | 붓꽃에 대한 피처를 가진 데이터 세트 |
◆ fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아 홈 디렉터리 아래의 scikit_learn_data 라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터이기 때문에 최초 사용 시에 인터넷에 연결돼 있지 않으면 사용이 불가하다.
- fetch_covtype( ): 회귀 분석용 토지 조사 자료
- fetch_20newsgroups( ): 뉴스 그룹 텍스트 자료
- fetch_olivetti_faces( ): 얼굴 이미지 자료
- fetch_lfw_people( ): 얼굴 이미지 자료
- fetch_lfw_fairs( ): 얼굴 이미지 자료
- fetch_rcv1( ): 로이터 뉴스 말뭉치
- fetch_mldata( ): ML 웹사이트에서 다운로드
◆ 분류와 클러스터링을 위한 표본 데이터 생성기
API 명 | 설명 |
dataset.make_classifications( ) | 분류를 위한 데이터 세트 생성. 특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성 |
datasets.make_blobs( ) | 클러스터링을 위한 데이터 세트를 무작위로 생성. 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 쉽게 만들어줌. |
◆ 분류나 회그를 위한 연습용 예제 데이터
사이킷런에 내장된 이 데이터 세트는 일반적으로 딕셔너리 형태로 되어 있다.
키는 보통 data, target, target_name, feature_names, DESCR로 구성
- data: 피처의 데이터 세트 (넘파이 배열 타입)
- target: 분류 시 레이블 값, 회귀일 때는 숫자 결과값 데이터 세트 (넘파이 배열 타입)
- target_names: 개별 레이블의 이름 (넘파이 배열 또는 파이선 리스트 타입)
- feature_names: 피처의 이름 (넘파이 배열 또는 파이선 리스트 타입)
- DESCR: 데이터 세트에 대한 설명과 각 피처의 설명 (스트링 타입)
▶ 피처의 데이터 값을 반환받기 위해서는 내장 데이터 세트 API 호출 후 그 Key 값을 지정받으면 된다.
※ Bunch 클래스는 파이썬 딕셔너리 자료형과 유사
◆ 데이터 세트의 key 값 확인
데이터 키는 피처들의 데이터 값을 가리킨다.
피처 데이터 값을 추출하기 위해서는 데이터 세트.data(또는 데이터 세트['data']) 이용.
★ load_iris( )가 반환하는 객체의 키들이 가리키는 값
'[파이썬 Projects] > <파이썬 머신러닝>' 카테고리의 다른 글
[머신러닝] 데이터 전처리 (1) | 2024.06.09 |
---|---|
[머신러닝] 사이킷런의 model_selection 모듈 (0) | 2024.06.07 |
[머신러닝] 사이킷런 주요 모듈 (0) | 2024.05.30 |
[머신러닝] 사이킷런으로 시작하는 ML (0) | 2024.05.30 |
[머신러닝] 주요 패키지 (0) | 2024.05.25 |