3. K-최근접 이웃(KNN)
K-최근접 이웃은 거리 기반 모델입니다. 지금까지 다룬 알고리즘들과 달리 선형 관계를 전제로 하지 않습니다.
즉 각 데이터 간의 거리를 활용해서 새로운 데이터를 예측하는 모델입니다.
이때 가까이에 있는 데이터를 고려하여 예측값이 결정됩니다.
K Nearest Neighbors라는 이름은 이를 잘 반영하고 있는데, K개의 가장 가까운 이웃 데이터에 의해 예측된다는 의미입니다.
– 구분 : 지도 학습
– 문제 유형 : 회귀/분류
– 적합한 데이터 유형 : 아웃라이어가 적은 데이터
▼ TOP 10 선정 이유
다중분류 문제에 가장 간편히 적용할 수 있는 알고리즘입니다. 물론 최신 알고리즘들도 다중분류 문제에 사용하나, 데이터가 크지 않고 예측이 까다롭지 않은 상황에서 KNN을 사용하면 신속하고 쉽게 예측 모델을 구현할 수 있습니다. 그래서 베이스라인 모델로도 사용합니다.
▼ 예시 그래프
▼ 장점
- 수식에 대한 설명이 필요 없을 만큼 직관적이고 간단합니다.
- 선형 모델과 다르게 별도의 가정이 없습니다 (예를 들어 선형 회귀는 독립변수와 종속변수의 선형 관계를 가정하고 있기 때문에, 이 가정이 들어맞지 않는 데이터에 취약하나, KNN은 이러한 가정이 없어서 더 자유롭습니다).
▼ 단점
- 데이터가 커질수록 상당히 느려질 수 있습니다.
- 아웃라이어에 취약합니다.
▼ 유용한 곳
- 주로 분류(Classification)에서 사용되며, 로지스틱 회귀(Logistic Regression)로 해결할 수 없는 3개 이상의 목표 변수들도 분류할 수 있습니다.
- 작은 데이터셋에 적합합니다.
'빅데이터 & 인공지능' 카테고리의 다른 글
[머신러닝알고리즘] 결정트리(Decision Tree) (0) | 2023.07.01 |
---|---|
[머신러닝알고리즘] 나이브 베이즈(Naive Bayes) (0) | 2023.07.01 |
[머신러닝알고리즘] 로지스틱 회귀분석 (0) | 2023.07.01 |
[머신러닝알고리즘] 선형회귀분석 (0) | 2023.07.01 |
DATA 전처리(Preprocessing) (0) | 2023.07.01 |