DATA 전처리(Preprocessing)
특성변수의 단위가 다르거나 범주일 경우 거리계산에 오류가 발생함. 이를 조정하기 위한 과정 단위의 조정 : scaling
- 빅데이터 & 인공지능
- · 2023. 7. 1.
4. 나이브 베이즈(Naive Bayes) 나이브 베이즈는 베이즈 정리를 적용한 조건부 확률 기반의 분류 모델입니다. 여기서 조건부 확률은 A가 일어났을 때 B가 일어날 확률을 의미합니다. 예를 들어 ‘무료라는 단어가 들어 있을 때 해당 메일이 스팸일 확률’ 같은 겁니다. 이러한 특징으로 스팸 필터링을 위한 대표적인 모델로 꼽힙니다. 최근에는 딥러닝 같은 대안이 있어서 나이브 베이즈 모델을 쓰고자 하는 상황이 많지는 않습니다만, 그래도 스팸 메일 필터처럼 자연어 처리가 목적일 때는 여전히 나이브 베이즈 모델이 좋은 선택이 될 수 있습니다(딥러닝이 자연어 처리에 더 탁월한 모습을 보여주지만, 딥러닝보다 간단한 방법으로 자연어 처리를 원할 때). – 구분 : 지도 학습 – 문제 유형 : 분류 – 적합한 데이..
3. K-최근접 이웃(KNN) K-최근접 이웃은 거리 기반 모델입니다. 지금까지 다룬 알고리즘들과 달리 선형 관계를 전제로 하지 않습니다. 즉 각 데이터 간의 거리를 활용해서 새로운 데이터를 예측하는 모델입니다. 이때 가까이에 있는 데이터를 고려하여 예측값이 결정됩니다. K Nearest Neighbors라는 이름은 이를 잘 반영하고 있는데, K개의 가장 가까운 이웃 데이터에 의해 예측된다는 의미입니다. – 구분 : 지도 학습 – 문제 유형 : 회귀/분류 – 적합한 데이터 유형 : 아웃라이어가 적은 데이터 ▼ TOP 10 선정 이유 다중분류 문제에 가장 간편히 적용할 수 있는 알고리즘입니다. 물론 최신 알고리즘들도 다중분류 문제에 사용하나, 데이터가 크지 않고 예측이 까다롭지 않은 상황에서 KNN을 사용..
2. 로지스틱 회귀(Logistic Regression) 로지스틱 회귀 또한 선형 회귀처럼 기본 분석 모델입니다. 로지스틱 회귀 분석은 알고리즘의 근간을 선형 회귀 분석에 두고 있어서 선형 회귀 분석과 상당히 유사하지만 다루는 문제가 다릅니다. 선형 회귀 분석은 연속된 변수를 예측하는 반면, 로지스틱 회귀 분석은 Yes/No처럼 두 가지로 나뉘는 분류 문제를 다룹니다. – 구분 : 지도 학습 – 문제 유형 : 분류 – 적합한 데이터 유형 : 종속변수와 독립변수가 선형 관계에 있는 데이터 ▼ TOP 10 선정 이유 선형 회귀 분석과 마찬가지로, 너무나도 기본 알고리즘이라서 꼭 알고 있어야 합니다. 실제 이진분류가 필요한 상황이 많기 때문에 두 가지 범주를 구분하는 간단한 예측에 유용하며 딥러닝에서도 기본 ..
1. 선형 회귀(Linear Regression) 선형 회귀는 가장 기초적인 머신러닝 모델입니다. 여러 가지 데이터를 활용하여 연속형 변수인 목표 변수를 예측해 내는 것이 목적입니다. 예를 들어 몸무게, 나이, BMI, 성별 등을 데이터로 활용하여 키와 같은 연속형 변수를 예측하는 겁니다. 연속형 변수는 165.5cm, 172.3cm, 182.9cm와 같이 연속적으로 이어질 수 있는 변수를 의미합니다. 반면 남성/여성으로 구분되는 성별은 연속형 변수가 아닙니다. 선형 회귀 모델에서는 예측할 종속변수만 연속형 변수면 족합니다. 예측하는 데 사용되는 그외 변수들은 연속형일 필요는 없습니다. – 구분 : 지도 학습 – 문제 유형 : 회귀 – 적합한 데이터 유형 : 종속변수와 독립변수가 선형 관계에 있는 데이터..
특성변수의 단위가 다르거나 범주일 경우 거리계산에 오류가 발생함. 이를 조정하기 위한 과정 단위의 조정 : scaling
전체 데이터 중 학습을 시키기 위한 데이터는 70 ~ 80%(train data), 학습된 모델이 다른 데이터에도 맞는지 확인하기 위한 테스트 데이터는 20~30%가량 나눔 이유는 일반화를 검증 및 일반화에 적합한 모델을 확인하기 위함.