머신러닝 프로세스

1. Data Set 분할

- 학습데이터를 랜덤으로 학습/검증셋(trani/validation) 분할

- 테스트 셋(test)도 준비

- 학습데이터 : 70~90%

- 검증데이터 : 10~20%

- 테스트데이터 : 10~20%

- 학습데이터를 그룹으로 나누어 교차검증을 하는 방법도 추천

- 데이터의 표준/정규화

- 범주자료 one-hot-encoding

- 특성변수의 축약

- 표준화(평균 0 / 표준편차 1)

- 범주형 특성변수를 0과 1의 값으로 변환

- 고차원의 경우 PCA 방법등으로 차원 축소

- 과제해결에 적합한 머신러닝 알고리즘 적용

- 평가지표를 통한 모델평가

- 예측/분류/비지도 알고리즘에 데이터 탐색

- 학습된 모델에 검증데이터로 평가

- 정확도 및 과소/과대추정 여부 판단

- 파라미터 조정을 통한 최적 모델 결정

- 다양한 하이터 파라미터 적용

- 최적의 Hyper Parameter 및 모델 결정

- 최종 분류기에서 검증 셋은 사용하지 않는 것이 좋음

- 최종 모델을 테스트 셋에 대해 성능을 평가

- 테스트 셋에 대한 정확도를 현제 데이터로 학습한 알고리즘 성능 제시