K-평균 군집화(K Means Clustering)
K-평균 군집화는 비지도 학습의 대표적인 알고리즘 중으로 목표 변수가 없는 상태에서 데이터를 비슷한 유형끼리 묶어내는 머신러닝 기법입니다.
K-최근접 이웃 알고리즘과 비슷하게 거리 기반으로 작동하며 적절한 K값을 사용자가 지정해야 합니다.
거리 기반으로 작동하기 때문에 데이터 위치가 가까운 데이터끼리 한 그룹으로 묶습니다.
이때 전체 그룹의 수는 사용자가 지정한 K개입니다.
– 구분 : 비지도 학습
▼ TOP 10 선정 이유
수많은 데이터를 가지고 있을 때, 데이터를 하나하나 직접 살펴보기에는 시간적인 한계가 따릅니다.
그렇다고 단순하게 통계적 정보만 살펴보는 것은 데이터를 너무 단순화하는 경향이 있습니다.
클러스터링은 이러한 상황에서 데이터를 적절한 수의 그룹으로 나누고 그 특징을 살펴볼 수 있는 장점을 제공합니다. 여러 클러스터링 기법 중에서도 K-평균 군집화는 가장 보편적이고 무난하게 사용됩니다.
▼ 예시 그래프
▼ 장점
- 구현이 비교적 간단합니다.
- 클러스터링 결과를 쉽게 해석할 수 있습니다.
▼ 단점
- 최적의 K값을 자동으로 찾지 못하고, 사용자가 직접 선택해야 합니다. 거리 기반 알고리즘이기 때문에, 변수의 스케일에 따라 다른 결과를 나타낼 수 있습니다.
▼ 유용한 곳
- 수많은 데이터를 가지고 있을 때, 데이터를 하나하나 직접 살펴보기에는 시간적인 한계가 따릅니다. 그렇다고 단순하게 통계적 정보만 살펴보는 것은 데이터를 너무 단순화하는 경향이 있습니다. 클러스터링은 이러한 상황에서 데이터를 적절한 수의 그룹으로 나누고 그 특징을 살펴볼 수 있는 장점을 제공합니다. 여러 클러스터링 기법 중에서도 K-평균 군집화는 가장 보편적이고 무난하게 사용됩니다.
'빅데이터 & 인공지능' 카테고리의 다른 글
빅분기2회 실기 기출 (0) | 2023.07.02 |
---|---|
[머신러닝알고리즘] 주성분분석(PCA) (0) | 2023.07.01 |
[머신러닝알고리즘] 라이트GBM(LightGBM) (0) | 2023.07.01 |
[머신러닝알고리즘] XG부스트(XGBoost) (0) | 2023.07.01 |
[머신러닝알고리즘] 랜덤 포레스트(Random Forest) (0) | 2023.07.01 |