머신러닝(Machine Learning) 성능지표

머신러닝(Machine Learning) 모델의 성능을 평가하기 위해 다양한 성능 지표(Performance Metrics)가 사용됩니다. 

 

이 성능 지표들은 모델의 예측 결과를 측정하고, 모델이 얼마나 잘 작동하는지, 개선이 필요한 부분이 어디인지 평가하는 데 중요한 역할을 합니다. 

 

주요 성능 지표들은 모델의 유형(분류, 회귀, 군집화 등)과 문제의 특성에 따라 다릅니다. 

여기서는 가장 일반적으로 사용되는 성능 지표들을 설명합니다.

1. 분류(Classification) 문제의 성능 지표

분류 문제는 데이터 포인트를 여러 클래스 중 하나로 분류하는 문제입니다. 다음은 분류 문제에서 자주 사용되는 성능 지표들입니다.

a. 정확도 (Accuracy)

 

- 정의: 전체 데이터 중에서 모델이 올바르게 예측한 샘플의 비율을 의미합니다.
- 공식


- 특징

정확도는 클래스 불균형이 심할 경우 오해를 일으킬 수 있습니다. 예를 들어, 긍정 클래스가 매우 드문 경우, 모든 샘플을 부정으로 예측해도 높은 정확도를 가질 수 있습니다.

b. 정밀도 (Precision)


- 정의: 모델이 양성으로 예측한 샘플 중 실제로 양성인 샘플의 비율을 의미합니다.
- 공식: 


- 특징: 정밀도는 양성 예측의 정확성을 평가하며, 잘못된 양성 예측(FP)을 줄이는 것이 중요한 경우에 유용합니다.

c. 재현율 (Recall)
- 정의: 실제 양성 샘플 중에서 모델이 올바르게 양성으로 예측한 샘플의 비율을 의미합니다.

- 공식: 


- 특징: 재현율은 실제 양성을 놓치지 않는 것이 중요한 경우에 유용합니다.

d. F1 스코어 (F1 Score)

 

- 정의: 정밀도와 재현율의 조화 평균을 의미하며, 두 성능 지표의 균형을 측정합니다.
- 공식: 


- 특징: 정밀도와 재현율 사이의 균형이 중요할 때 사용됩니다.

e. ROC-AUC (Receiver Operating Characteristic - Area Under Curve)


- 정의:

ROC 곡선은 모델의 민감도(재현율)와 1-특이도(가짜 양성 비율) 사이의 관계를 나타내며, AUC는 이 곡선 아래의 면적을 나타냅니다.

 

- 특징: AUC 값은 0.5에서 1 사이의 값을 가지며, 1에 가까울수록 모델이 더 좋은 성능을 보임을 의미합니다.

 


2. 회귀(Regression) 문제의 성능 지표

회귀 문제는 연속적인 값을 예측하는 문제입니다. 다음은 회귀 문제에서 자주 사용되는 성능 지표들입니다.

a. 평균 제곱 오차 (MSE, Mean Squared Error)
- 정의: 예측값과 실제값 사이의 차이의 제곱을 평균한 값을 의미합니다.
- 공식: 


- 특징: 값이 클수록 모델의 예측이 실제값과 크게 차이남을 의미합니다.

 


b. 평균 절대 오차 (MAE, Mean Absolute Error)
- 정의: 예측값과 실제값 사이의 절대 차이의 평균을 의미합니다.
- 공식: 


- 특징: MSE와 달리, 큰 오차에 덜 민감합니다.

c. R-제곱 (R², Coefficient of Determination)

 

- 정의: 모델이 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표로, 1에 가까울수록 더 나은 모델입니다.
- 공식: 


- 특징: 값이 1에 가까울수록 예측 모델이 실제 데이터를 잘 설명함을 의미합니다.

3. 군집화(Clustering) 문제의 성능 지표

군집화는 레이블이 없는 데이터를 그룹화하는 문제입니다. 다음은 군집화 문제에서 자주 사용되는 성능 지표들입니다.

a. 실루엣 계수 (Silhouette Score)
- 정의: 군집화의 품질을 측정하는 지표로, 각 데이터 포인트가 자신이 속한 클러스터 내에 얼마나 가까이 있고, 다른 클러스터와는 얼마나 멀리 있는지를 평가합니다.
- 특징: 값은 -1에서 1 사이로, 1에 가까울수록 좋은 군집화 품질을 의미합니다.

b. 다빈도 간격 (Davies-Bouldin Index)
- 정의: 클러스터 내의 데이터의 응집력과 클러스터 간의 분리를 측정하는 지표로, 클러스터의 산포와 클러스터 간 거리의 비율을 계산합니다.
- 특징: 값이 낮을수록 더 나은 군집화를 의미합니다.

성능 지표 선택의 중요성

 

모델의 성능을 평가할 때 올바른 성능 지표를 선택하는 것이 매우 중요합니다. 문제의 특성, 데이터의 불균형, 비즈니스 목표 등에 따라 적절한 지표를 선택해야 하며, 단일 지표에만 의존하지 않고 여러 지표를 함께 고려하는 것이 바람직합니다.