본문 바로가기

Machine Learning/Business Analytics 1

Classification Performance Evaluation

자료 출처

 

평가를 하는 이유는 최상의 모델을 선택하려면 각 모델의 성능을 평가해야 하기 때문이다.

 

흔히 전체 데이터셋을 학습, 검증, 테스트 3가지로 나눈다. 일반적으로 모델들의 하이퍼파라미터 튜닝을 할 때 검증셋의 성능이 좋도록 튜닝을 한 뒤, 최적의 세팅을 가진 모델들을 테스트셋에 대한 성능을 평가하여 최고의 모델을 가린다.

 

1. Confusion Matrix

혼동 행렬 또는 정오 행렬이라고도 부른다.

 

위와 같이 성별을 BFP의 수치만 가지고 분류하는 분류기의 예시를 살펴보자. 이를 confusion matrix로 표현하면 다음과 같다.

 

Confusion Matrix Predicted
F M
Actual F 4 1
M 2 3

 

일반적으로 우리가 예측해야 하는 범주를 positive로 설정한다. 예를 들면 불량품을 식별해야 하는 경우에는 불량을 positive class로 설정한다. 여기서는 임의로 여성을 positive class로 설정한다.

 

 

다음은 위의 혼동행렬을 범주를 1과 0으로 표현한 것이다.

 

정확도와 오분류율은 다음과 같이 계산한다.

 

하지만 정확도만 가지고는 모델의 성능을 제대로 판단할 수 없다. 다음의 예시를 보자.

Confusion Matrix Predicted
불량 정상
Actual 불량 0 10
정상 0 9990

 

제조업체에서 사용하는 어떤 분류기의 confusion matrix가 위와 같다고 할 때, 이 분류기의 정확도는 99.9%이다. 하지만 이 분류기는 불량품을 제대로 가려내지 못하고 있다.

 

 

그래서 BCR이나 F1 score를 사용하는 경우도 있다.

 

 

recall과 precision을 어떻게 계산하기 알아보기 전에 위에서 $n_{11}$ 등으로 표현한 것은 다음과 같이 표현한다.

Confusion Matrix Predicted
positive negetive
Actual positive True Positive False Negative
negative False Positive True Negative

 

용어가 헷갈릴 수 있는데 다음과 같이 이해하면 헷갈리지 않는다.

  • 실제와 예측이 같으면 앞에 True, 다르면 False
  • 뒤에 붙는 positive와 negative는 predict를 따른다. 

 

정리하면

  • Recall은 실제로 positive인데 positive라고 예측한 비율이다. $TP / (TP + FN)$
  • Precision은 positive라고 예측한 것 중에 실제로 positive인 비율이다. $TP / (TP + FP)$
  • F1 score는 recall과 precision의 기하평균으로 계산한다.

 

 

2. Cut-off for classification

위에서 소개한 성능 평가 방법들은 모두 cut-off에 영향을 받는다. 즉 cut-off에 dependent한 measure들이고 cut-off가 변함에 따라 값이 달라진다.

 

다음의 예시들은 처음에 20으로 설정했던 BFP의 값을 달리해가면서 성능을 평가한 것이다.

 

 

 

 

  • 분류 성능은 알고리즘의 컷오프에 따라 크게 달라진다.
  • 모델 선택 및 모델 비교를 위해 cut-off에 독립적인 성능 측정 방식이 권장된다.
  • 그래서 사용하는 것이 receiver operating characteristic (ROC) curve이다.

 

 

3. Area Under Receiver Operating Characteristic Curve (AUROC)

불량품 판별 문제 예시를 살펴보자

  • 전체 100개의 제품이 있다.
  • 20개 제품이 불량이다.
  • 레이블은 1(NG), 0(G)이다. 

 

ROC curve를 그리는 방법은 다음과 같다.

  • positive class로 예측하는 확률을 기준으로 데이터를 내림차순으로 정렬한다.
  • cut-off를 달리하면서 true positive ratio와 false positive ratio를 게산한다. 여기서는 총 100개의 샘플이 있기 때문에 cut-off의 조합은 101개 이다.
  • 계산된 (fpr, tpr)을 x축과 y축으로 하는 그래프를 그린다.

 

 

위와 같은 방법으로 101가지 경우를 모두 수행하면 다음과 같다.

 

이상적인 분류기는 FPR 값이 어떻든 간에 TPR이 항상 1인 분류기이고, 일반적으로 위와 같이 이상적인 분류기와 랜덤 분류기 사이에 존재한다.

 

사람은 위의 그래프를 보고 모델이 어느정도 성능을 보이는지 짐작할 수 있지만 컴퓨터는 그렇지 않기 때문에 다음과 같은 방법으로 수치로 표현한다.

 

 

AUROC의 범위는 [0.5, 1]이다.