[머신러닝알고리즘] K-최근접 이웃(KNN)

3. K-최근접 이웃(KNN)

K-최근접 이웃은 거리 기반 모델입니다. 지금까지 다룬 알고리즘들과 달리 선형 관계를 전제로 하지 않습니다.

즉 각 데이터 간의 거리를 활용해서 새로운 데이터를 예측하는 모델입니다.

이때 가까이에 있는 데이터를 고려하여 예측값이 결정됩니다.

K Nearest Neighbors라는 이름은 이를 잘 반영하고 있는데, K개의 가장 가까운 이웃 데이터에 의해 예측된다는 의미입니다.

– 구분 : 지도 학습
– 문제 유형 : 회귀/분류
– 적합한 데이터 유형 : 아웃라이어가 적은 데이터

▼ TOP 10 선정 이유

다중분류 문제에 가장 간편히 적용할 수 있는 알고리즘입니다. 물론 최신 알고리즘들도 다중분류 문제에 사용하나, 데이터가 크지 않고 예측이 까다롭지 않은 상황에서 KNN을 사용하면 신속하고 쉽게 예측 모델을 구현할 수 있습니다. 그래서 베이스라인 모델로도 사용합니다.

▼ 예시 그래프

▼ 장점

수식에 대한 설명이 필요 없을 만큼 직관적이고 간단합니다.
선형 모델과 다르게 별도의 가정이 없습니다 (예를 들어 선형 회귀는 독립변수와 종속변수의 선형 관계를 가정하고 있기 때문에, 이 가정이 들어맞지 않는 데이터에 취약하나, KNN은 이러한 가정이 없어서 더 자유롭습니다).

▼ 단점

데이터가 커질수록 상당히 느려질 수 있습니다.
아웃라이어에 취약합니다.

▼ 유용한 곳

주로 분류(Classification)에서 사용되며, 로지스틱 회귀(Logistic Regression)로 해결할 수 없는 3개 이상의 목표 변수들도 분류할 수 있습니다.
작은 데이터셋에 적합합니다.

출처 : 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘

저작자표시 비영리 변경금지 (새창열림)

'빅데이터 & 인공지능' 카테고리의 다른 글

[머신러닝알고리즘] 결정트리(Decision Tree) (0)	2023.07.01
[머신러닝알고리즘] 나이브 베이즈(Naive Bayes) (0)	2023.07.01
[머신러닝알고리즘] 로지스틱 회귀분석 (0)	2023.07.01
[머신러닝알고리즘] 선형회귀분석 (0)	2023.07.01
DATA 전처리(Preprocessing) (0)	2023.07.01

3. K-최근접 이웃(KNN)

'빅데이터 & 인공지능' 카테고리의 다른 글

티스토리툴바