[머신러닝알고리즘] XG부스트(XGBoost)

XG부스트(XGBoost)

랜덤 포레스트는 각 트리를 독립적으로 만드는 알고리즘입니다. 반면 부스팅은 순차적으로 트리를 만들어 이전 트리로부터 더 나은 트리를 만들어내는 알고리즘입니다. 부스팅 알고리즘은 트리 모델을 기반으로 한 최신 알고리즘 중 하나로, 랜덤 포레스트보다 훨씬 빠른 속도와 더 좋은 예측 능력을 보여줍니다.

 

이에 속하는 대표적인 알고리즘으로 XG부스트, 라이트GBM(LightGBM), 캣부스트(CatBoost) 등이 있습니다.

 

그중 XGBoost(eXtra Gradient Boost)가 가장 먼저 개발되기도 했고, 가장 널리 활용됩니다. XGBoost는 손실함수뿐만 아니라 모형 복잡도까지 고려합니다.

 

– 구분 : 지도 학습
– 문제 유형 : 회귀/분류
– 적합한 데이터 유형 : 일반적인 데이터

 

▼ TOP 10 선정 이유

캐글 컴피티션 우승자가 많이 사용하는 성능이 검증된 부스팅 모델입니다. XGBoost 이후로도 다양한 부스팅 모델이 소개되었지만, 가장 인기 있는 모델이기 때문에 구글 검색에서 수많은 참고 자료(활용 예시, 다양한 하이퍼파라미터 튜닝)를 쉽게 접할 수 있습니다.

 

 

▼ 예시 그래프

▼ 장점

  • 예측 속도가 상당히 빠르며, 예측력 또한 좋습니다.
  • 변수 종류가 많고 데이터가 클수록 상대적으로 뛰어난 성능을 보여줍니다.

▼ 단점

  • 복잡한 모델인 만큼, 해석에 어려움이 있습니다.
  • 더 나은 성능을 위한 하이퍼파라미터 튜닝이 까다롭습니다.

▼ 유용한 곳

캐글 컴피티션의 우승자가 많이 사용하는 성능이 검증된 부스팅 모델입니다. XGBoost 이후로도 다양한 부스팅 모델들이 소개되었지만, 가장 인기있는 모델이기 때문에 구글 검색에서 수많은 참고 자료(활용 예시, 다양한 하이퍼파라미터 튜닝)들을 쉽게 접할 수 있습니다.

 

출처 : 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘