본문 바로가기

Machine Learning/Business Analytics 1

Logistic Regression : Interpretation

자료 출처

 

Meaning of coefficient

선형 회귀의 경우 coefficient에 대한 해석이 용이하다. 예를 들면 $x_1$이 1 증가하면 예측 값은 $\hat {\beta_1}$ 만큼 증가하기 때문에 변수의 영향력이 어느정도인지 직관적으로 이해할 수 있다.

 

반면에 로지스틱 회귀는 odds의 로그값이 변화하기 때문에 직관적이지가 않다.

 

Odds ratio

다른 변수의 값은 고정되어 있고 $x_1$만 1만큼 증가했다고 가정해보자. 이 때 odds ratio는 다음과 같다.

$x_1$이 1만큼 증가하였을 때 odds는 $e^{ \hat {\beta_1} }$이라는 factor에 의해 증가하거나 감소한다.

  • coefficient가 양수일 때 : positive class와 coefficient는 양의 상관 관계를 갖는다.
  • coefficient가 음수일 때 : positive class와 coefficient는 음의 상관 관계를 갖는다.

 

신용 카드 연체 예시를 살펴보자.

  • 2개의 변수 Income(수입)과 Balance(갚아야 할 잔액)만 가지고 왼쪽은 scatter plot, 오른쪽은 box plot을 수행한 것이다.
  • 왼쪽 그림을 보면 balance 축에 수직으로 선을 긋는다면 class를 적절하게 분류할 수 있을 것이다. 반면에 Income 축에 수직으로 긋는다면 분류하기가 어렵다.
  • 이를 의미하는 것이 box plot으로 balance 관점에서는 class별로 차이가 유의미하지만 Income 관점에서는 그렇지 않다는 것을 보여준다.

 

balance 변수만 가지고 로지스틱 회귀를 수행하였을 때

balance의 coefficient가 양수이다. 즉 balance가 증가하면 연체할 확률이 증가한다고 해석할 수 있다.

확률을 직접 계산해보면 다음과 같이 계산할 수 있다.

선형 회귀와는 다르게 balance는 2배 증가하였지만, 연체할 확률은 100배 가까이 증가한 것을 확인할 수 있다.

 

이번엔 여러 변수로 로지스틱 회귀를 수행하였을 때를 살펴보자.

  • income은 p-value 값이 높기 때문에 유의미한 변수로 볼 수 없다.
  • student는 학생이면 Yes, 아니면 No인 bool형 변수인데 coefficient가 음수임을 알 수 있다. 따라서 고객이 학생일 경우에는 연체할 확률이 낮아진다고 해석할 수 있다.

 

Multinomial Logistic Regression

기본 로지스틱 회귀는 이진 분류를 위해 개발되었지만, 멀티 클래스 분류에도 사용할 수 있다.

 

기준 클래스를 설정하고 이 클래스에 대한 상대 로그 확률에 대한 회귀 방정식을 계산한다.

 

예를 들어 3개의 클래스가 있는 경우, 기준 클래스를 3으로 잡고 다음과 같이 2가지 회귀 모델에 대한 coefficients를 추정한다.

  • class 3에 대한 class 1의 로지스틱 회귀

  • class 3에 대한 class 2의 로지스틱 회귀

이는 다음과 같이 정리할 수 있다.

각 클래스 별 예측 확률이기 때문에 이를 모두 더하면 항상 1을 만족한다.

위의 두 식으로부터 $p(y=1)$과 $p(y=2)$를 계산하여 대입하면 다음과 같이 정리할 수 있다.

구해진 $p(y=3)$을 통해 나머지 $p(y=1)$과 $p(y=2)$도 계산할 수 있다.

 

다항 로지스틱 회귀에서는 계수 해석을 할 때 1 vs 3일 때와 1 vs 2일 때가 다를 수 있다.

위의 예시처럼 빨간 박스가 쳐진 변수는 1과 3을 분류할 때는 유의미한 변수가 아니지만 2와 3을 분류할 때는 유의미한 변수이다.