4. 나이브 베이즈(Naive Bayes)
나이브 베이즈는 베이즈 정리를 적용한 조건부 확률 기반의 분류 모델입니다.
여기서 조건부 확률은 A가 일어났을 때 B가 일어날 확률을 의미합니다. 예를 들어 ‘무료라는 단어가 들어 있을 때 해당 메일이 스팸일 확률’ 같은 겁니다.
이러한 특징으로 스팸 필터링을 위한 대표적인 모델로 꼽힙니다. 최근에는 딥러닝 같은 대안이 있어서 나이브 베이즈 모델을 쓰고자 하는 상황이 많지는 않습니다만, 그래도 스팸 메일 필터처럼 자연어 처리가 목적일 때는 여전히 나이브 베이즈 모델이 좋은 선택이 될 수 있습니다(딥러닝이 자연어 처리에 더 탁월한 모습을 보여주지만, 딥러닝보다 간단한 방법으로 자연어 처리를 원할 때).
– 구분 : 지도 학습
– 문제 유형 : 분류
– 적합한 데이터 유형 : 독립변수의 종류가 매우 많은 경우
▼ TOP 10 선정 이유
범용성이 높지는 않지만 독립변수들이 모두 독립적이라면 충분히 경쟁력이 있는 알고리즘입니다. 특히나 딥러닝을 제외하고 자연어 처리에 가장 적합한 알고리즘입니다. 일반적인 데이터보다는 특수 상황을 고려해 배워두길 바랍니다.
▼ 예시 그래프
▼ 장점
- 비교적 간단한 알고리즘에 속하며 속도 또한 빠릅니다.
- 작은 훈련셋으로도 잘 예측합니다.
▼ 단점
- 모든 독립변수가 각각 독립적임을 전제로 하는데 이는 장점이 되기도 하고 단점이 되기도 합니다. 실제로 독립변수들이 모두 독립적이라면 다른 알고리즘보다 우수할 수 있지만, 실제 데이터에서 그런 경우가 많지 않기 때문에 단점이기도 합니다.
▼ 유용한 곳
- 각 독립변수들이 모두 독립적이고 그 중요도가 비슷할 때 유용합니다.
- 자연어 처리(NLP)에서 간단하지만 좋은 성능을 보여줍니다.
- 범주 형태의 변수가 많을 때 적합하며, 숫자형 변수가 많은 때는 적합하지 않습니다.
'빅데이터 & 인공지능' 카테고리의 다른 글
[머신러닝알고리즘] 랜덤 포레스트(Random Forest) (0) | 2023.07.01 |
---|---|
[머신러닝알고리즘] 결정트리(Decision Tree) (0) | 2023.07.01 |
[머신러닝알고리즘] K-최근접 이웃(KNN) (0) | 2023.07.01 |
[머신러닝알고리즘] 로지스틱 회귀분석 (0) | 2023.07.01 |
[머신러닝알고리즘] 선형회귀분석 (0) | 2023.07.01 |