머신러닝 프로세스

1. Data Set 분할

-  학습데이터를 랜덤으로 학습/검증셋(trani/validation) 분할

-  테스트 셋(test)도 준비

-  학습데이터 : 70~90%

-  검증데이터 : 10~20%

-  테스트데이터 : 10~20%

-  학습데이터를 그룹으로 나누어 교차검증을 하는 방법도 추천

 

2.데이터 전처리

- 데이터의 표준/정규화

- 범주자료  one-hot-encoding

- 특성변수의 축약

- 표준화(평균 0 / 표준편차 1)

- 범주형 특성변수를 0과 1의 값으로 변환

- 고차원의 경우 PCA 방법등으로 차원 축소

3.모델 적용

- 과제해결에 적합한 머신러닝 알고리즘 적용

- 평가지표를 통한 모델평가

- 예측/분류/비지도 알고리즘에 데이터 탐색

- 학습된 모델에 검증데이터로 평가

- 정확도 및 과소/과대추정 여부 판단

- 파라미터 조정을 통한 최적 모델 결정

4. Hyper Parameter 탐색 및 결정

- 다양한 하이터 파라미터 적용

- 최적의 Hyper Parameter 및 모델 결정

- 최종 분류기에서 검증 셋은 사용하지 않는 것이 좋음

- 최종 모델을 테스트 셋에 대해 성능을 평가

- 테스트 셋에 대한 정확도를 현제 데이터로 학습한 알고리즘 성능 제시

'빅데이터 & 인공지능' 카테고리의 다른 글

DATA 전처리(Preprocessing)  (0) 2023.07.01
DATA SET 분할  (0) 2023.07.01
03.통계기법 이해  (0) 2023.06.30
로그변환  (0) 2023.06.29
[실기기출] ADP 17회 기출문제  (0) 2023.06.29