[머신러닝알고리즘] 결정트리(Decision Tree)

결정 트리(Decision Tree)

결정 트리는 관측값과 목푯값을 연결시켜주는 예측 모델로서 나무 모양으로 데이터를 분류합니다.

수많은 트리 기반 모델의 기본 모델이 되는 중요 모델입니다. 트리 기반의 모델은 선형 모델과는 전혀 다른 특징을 가지는데, 선형 모델이 각 변수에 대한 기울기값들을 최적화하여 모델을 만들어나갔다면, 트리 모델에서는 각 변수의 특정 지점을 기준으로 데이터를 분류해가며 예측 모델을 만듭니다.

 

예를 들어 남자/여자로 나눠서 각 목푯값 평균치를 나눈다거나, 나이를 30세 이상/미만인 두 부류로 나눠서 평균치를 계산하는 방식으로 데이터를 무수하게 쪼개어나가고, 각 그룹에 대한 예측치를 만들어냅니다.

 

– 구분 :  지도 학습
– 문제 유형 : 회귀/분류
– 적합한 데이터 유형 : 일반적인 데이터

 

▼ TOP 10 선정 이유

 

예측력과 성능으로만 따지면 결정 트리 모델을 사용할 일은 없습니다. 시각화가 매우 뛰어나다는 유일한 장점이 있을 뿐입니다. 하지만 앞으로 배울 다른 트리 기반 모델을 설명하려면 결정 트리를 알아야 합니다. 트리 기반 모델은 딥러닝을 제외하고는 현재 가장 유용하고 많이 쓰이는 트렌드이기 때문에 트리 모델을 필수로 알아둬야 합니다.

 

 

▼ 예시 그래프

▼ 장점

  • 데이터에 대한 가정이 없는 모델입니다(Non-parametric Model). 예를 들어 선형 모델은 정규분포에 대한 가정이나 독립변수와 종속변수의 선형 관계 등을 가정으로 하는 모델인 반면, 결정 트리는 데이터에 대한 가정이 없으므로 어디에나 자유롭게 적용할 수 있습니다.
  • 아웃라이어에 영향을 거의 받지 않습니다.
  • 트리 그래프를 통해서 직관적으로 이해하고 설명할 수 있습니다. 즉 시각화에 굉장히 탁월합니다.

▼ 단점

  • 트리가 무한정 깊어지면 오버피팅 문제를 야기할 수 있습니다.
  • 앞으로 배울 발전된 트리 기반 모델들에 비하면 예측력이 상당히 떨어집니다.

▼ 유용한 곳

  • 종속변수가 연속형 데이터와 범주형 데이터 모두에 사용할 수 있습니다.
  • 모델링 결과를 시각화할 목적으로 가장 유용합니다.
  • 아웃라이어가 문제될 정도로 많을 때 선형 모델보다 좋은 대안이 될 수 있습니다.

출처 : 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘