TOP
본문 바로가기
자격증/빅데이터분석기사

[빅분기 실기] 작업형 2유형 : 머신러닝

by 기록자_Recordian 2025. 5. 21.
728x90
반응형

이전 내용
 

[빅분기 실기] 작업형 1유형 : 판다스 주요 문법 3

이전 내용 [빅분기 실기] 작업형 1유형 : 판다스 주요 문법 2이전 내용 [빅분기 실기] 작업형 1유형 : 판다스 주요 문법 1이전 내용 [빅분기 실기] 빅분기 실기 접수이전 내용 [빅분기 필기] 응시자

puppy-foot-it.tistory.com


작업형 2유형 개요

 

작업형 2유형에서는 제공된 데이터 파일을 읽고 분석하여, 특정 조건을 만족하는 모델을 만들고 결과를 출력하는 과정을 수행한다.

 

[문제 구성]

단계 설명 예시
1단계 데이터 불러오기 CSV 파일을 pandas로 불러옴
2단계 데이터 전처리 결측치 제거, 이상치 처리, 원-핫 인코딩 등
3단계 모델 훈련 분류: RandomForestClassifier회귀: LinearRegression 등
4단계 예측 및 평가 예측 결과 출력, RMSE 또는 accuracy 계산
5단계 제출파일 생성 예측결과를 csv로 저장

 

[중요 키워드]

키워드 설명
pandas 데이터 불러오기, 전처리에 필수
scikit-learn 머신러닝 모델 훈련 및 평가 도구
train_test_split() 데이터를 학습용/검증용으로 분리
fit() / predict() 모델 학습 및 예측 메서드
accuracy_score, mean_squared_error 모델 평가 함수
LabelEncoder, OneHotEncoder 범주형 데이터 전처리 도구
Pipeline 전처리 + 모델링을 한 번에 처리 가능

 

작업형2에서는 문제를 정의하고,

판다스와 사이킷런 라이브러리를 활용해 데이터를 불러와 처리한 뒤,

모델을 학습시키고 평가하는 머신러닝의 기초 프로세스를 과제를 수행한다.

 

머신러닝과 관련된 전반적인 내용은 하단의 링크를 참고하면 된다.

 

[머신러닝] 머신러닝 기반 분석 모형 선정

머신러닝 기반 분석 모형 선정   지도 학습, 비지도 학습, 강화 학습, 준지도 학습, 전이 학습 1) 지도 학습: 정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법(

puppy-foot-it.tistory.com

(아마 필기를 합격했다면 기초적인 이론에 대해서는 이미 알고 있다고 생각된다.)


머신러닝 프로세스

 

머신러닝 프로세스는 아래와 같다.

 

작업형2 유형에서는 주로 분류와 회귀만 다루므로, 자세한 사항은 하단 링크를 확인

 

[머신러닝] 분류와 분류 관련 머신러닝 알고리즘

머신러닝 기반 분석 모형 선정  [머신러닝] 머신러닝 기반 분석 모형 선정머신러닝 기반 분석 모형 선정   지도 학습, 비지도 학습, 강화 학습, 준지도 학습, 전이 학습 1) 지도 학습: 정답인 레

puppy-foot-it.tistory.com

 

 

[머신러닝] 회귀(Regression)

머신러닝 기반 분석 모형 선정  [머신러닝] 머신러닝 기반 분석 모형 선정머신러닝 기반 분석 모형 선정   지도 학습, 비지도 학습, 강화 학습, 준지도 학습, 전이 학습 1) 지도 학습: 정답인 레

puppy-foot-it.tistory.com

 

 

[성능 평가 지표 - 분류]

 

[머신러닝] 성능 평가 지표 - 1 (정확도, 정밀도, 재현율, 오차 행렬)

시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 평가 머신러닝은 데이터 가

puppy-foot-it.tistory.com

 

[머신러닝] 성능 평가 지표 - 2 (정밀도, 재현율)

시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 이전 내용 [파이썬] 성능 평

puppy-foot-it.tistory.com

 

[머신러닝] 성능 평가 지표 - 3 (F1 스코어, ROC 곡선, AUC)

시작에 앞서해당 내용은 ' 권철민 지음. 위키북스' 를 토대로 작성되었습니다. 보다 자세한 내용은 해당 서적에 상세히 나와있으니 서적을 참고해 주시기 바랍니다. 이전 내용 [파이썬] 성능 평

puppy-foot-it.tistory.com

 

[성능 평가 지표 - 회귀]

평가지표 설명 사이킷런 (sklearn.metrics) import
또는 코드 예시 (내장 되어있지 않을 때)
결정계수
(R**2)
회귀식이 얼마나 잘 예측하는지 나타내는 지표 import r2_score
SSE 예측값과 실제값의 차이 제곱의 합 사이킷런 내장 X
sse = sum((yt - yp) ** 2 for yt, yp in zip(y_true, y_pred))
SST 실제 값과 평균값의 차이 제곱의 합 사이킷런 내장 X
y_mean = sum(y_true) / len(y_true)
sst = sum((yt - y_mean) ** 2 for yt in y_true)
SSR 예측값과 평균값의 차이 제곱의 합 사이킷런 내장 X
ssr = sum((yp - y_mean) ** 2 for yp in y_pred)
AE 예측한 결괏값의 오류 평균 사이킷런 내장 X
[abs(yt - yp) for yt, yp in zip(y_true, y_pred)]
MAE 실제 값과 예측값의 차이를 절댓값으로 계산하고 평균 import mean_absolute_error
MSE 실제 값과 예측값의 차이를 제곱해 평균 import  mean_square_error
RMSE 실제 값과 예측값의 차이를 제곱해 평균을 내고 제곱근 적용 (MSE의 제곱근) import  root_mean_square_error
MPE 예측값들이 평균적으로 미달하는지 초과하는지에 대한 백분율 사이킷런 내장 X
mpe = sum((yt - yp) / yt for yt, yp in zip(y_true, y_pred)) / len(y_true)
MAPE 예측값과 실제 값 사이의 오차를 백분율로 표현 import mean_absolute_percentage_error
MSLE 실제 값과 예측값의 로그를 취한 후 차이를 제곱해 평균
(작은 오차에 더 큰 가중치)
import  mean_squared_log_error
RMSLE 실제 값과 예측값의 로그를 취한 후 차이를 제곱해 평균한 값의 제곱근(MSLE의 제곱근) import  root_mean_sqaured_log_error

 


다음 내용

 

 

728x90
반응형