1. Data Set 분할
- 학습데이터를 랜덤으로 학습/검증셋(trani/validation) 분할
- 테스트 셋(test)도 준비
- 학습데이터 : 70~90%
- 검증데이터 : 10~20%
- 테스트데이터 : 10~20%
- 학습데이터를 그룹으로 나누어 교차검증을 하는 방법도 추천
2.데이터 전처리
- 데이터의 표준/정규화
- 범주자료 one-hot-encoding
- 특성변수의 축약
- 표준화(평균 0 / 표준편차 1)
- 범주형 특성변수를 0과 1의 값으로 변환
- 고차원의 경우 PCA 방법등으로 차원 축소
3.모델 적용
- 과제해결에 적합한 머신러닝 알고리즘 적용
- 평가지표를 통한 모델평가
- 예측/분류/비지도 알고리즘에 데이터 탐색
- 학습된 모델에 검증데이터로 평가
- 정확도 및 과소/과대추정 여부 판단
- 파라미터 조정을 통한 최적 모델 결정
4. Hyper Parameter 탐색 및 결정
- 다양한 하이터 파라미터 적용
- 최적의 Hyper Parameter 및 모델 결정
- 최종 분류기에서 검증 셋은 사용하지 않는 것이 좋음
- 최종 모델을 테스트 셋에 대해 성능을 평가
- 테스트 셋에 대한 정확도를 현제 데이터로 학습한 알고리즘 성능 제시
'빅데이터 & 인공지능' 카테고리의 다른 글
DATA 전처리(Preprocessing) (0) | 2023.07.01 |
---|---|
DATA SET 분할 (0) | 2023.07.01 |
03.통계기법 이해 (0) | 2023.06.30 |
로그변환 (0) | 2023.06.29 |
[실기기출] ADP 17회 기출문제 (0) | 2023.06.29 |