728x90 정규화3 [머신러닝] 캘리포니아 주택 가격 프로젝트-2 ◆ 프로젝트: 캘리포니아 주택 가격 데이터셋을 이용한 머신러닝 프로젝트이 데이터셋은 1990년 캘리포니아 인구 조사 데이터를 기반으로 하며, 진행할 주요 단계는 아래와 같다.데이터 준비데이터로부터 인사이트를 얻기 위해 탐색하고 시각화모델 선택하고 훈련모델 미세 튜닝솔루션 제시시스템 론칭, 모니터링, 유지보수이전 내용 [머신러닝] 캘리포니아 주택 가격 프로젝트◆ 프로젝트: 캘리포니아 주택 가격 데이터셋을 이용한 머신러닝 프로젝트이 데이터셋은 1990년 캘리포니아 인구 조사 데이터를 기반으로 하며, 진행할 주요 단계는 아래와 같다.데이터 준비데puppy-foot-it.tistory.com특성 스케일과 변환 데이터에 적용할 변환 한 가지는 특성 스케일링으로, 머신러닝 알고리즘은 입력된 숫자 특성들의 스케일이 .. 2024. 11. 8. [머신러닝] 데이터 전처리 시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 네이버 도서책으로 만나는 새로운 세상search.shopping.naver.com 데이터 전처리(Data Preprocessing) ML 알고리즘은 데이터에 기반하고 있어 어떤 데이터를 입력으로 가지느냐에 따라 결과도 크게 달라질 수 있기 때문에 데이터 전처리가 매우 중요하다. [데이터 전처리 기본 사항]결손값(Null, NaN)은 허용되지 않는다. : 결손값은 고정된 다른 값으로 변환되어야 한다.사이킷런의 머신러닝 알고리즘은 문자열 값을 입력값으로 허용하지 않는다.: 모든 문자열은 인코딩돼서 숫자 형으로 변환해야 한다.데이터 인코딩 레이블 인코.. 2024. 6. 9. 데이터 모델과 SQL - 정규화 SQLD 1과목 데이터 모델과 SQL 정규화관계와 조인의 이해모델이 표현하는 트랜잭션의 이해Null 속성의 이해본질식별자 vs 인조식별자 1. 정규화A. 정규화의 개념- 데이터의 일관성, 최소한의 중복, 최대한의 데이터 유연성을 위한 방법- 데이터를 분해하는 과정- 정해진 규칙을 따라 데이터를 이용하기 쉽게 만드는 일- 데이터의 중복 제거- 데이터 모델의 독립성 확보- 데이터 이상현상 (Anomaly)을 줄이기 위한 설계 기법- 엔터티를 상세화하는 과정이며 논리 데이터 모델링 수행시점에서 고려 * 이상현상삽입이상: 행(Row) 삽입 시 지정되지 않은 속성 값이 Null을 가지는 경우갱신이상: 데이터 갱신 시 일부분의 데이터만 갱신되어 일관성 유지가 안 되는 경우삭제이상: 행(Row) 삭제 시 원하지 않는.. 2023. 12. 30. 이전 1 다음 728x90