본문 바로가기

Machine Learning/Business Analytics 1

Multiple Linear Regression

 

목표

양적 종속 변수 Y와 예측 변수 세트 X 사이의 선형 관계를 맞춘다.

 

  • 즉 coefficients 베타들을 찾는 것
  • ε는 noise를 의미

Regression의 타입

 

  • simple은 예측 변수 X가 1개인 것이고, multiple은 2개 이상인 것이다.
  • linear와 non-linear의 차이는 Y와 X의 관계가 선형인지 비선형인지에 따라 다르다.
  • 우리는 여기서 Multiple Linear Regression만 다룸

 

coefficients 추정

Ordinary least Square (OLS) 

  • 최소자승법이라고 부른다.
  • 회귀모델을 통해 실제 목표값과 추정값의 차이 제곱을 최소화한다.

OLS의 Matrix solution

예측 계산을 행렬로 표현하면 다음과 같다.

그리고 A = (1, 2)라는 vector가 있을 때 요소별 제곱의 합을 구하는 방법은 A의 전치 행렬과 A를 행렬곱을 수행하면 됨을 이해하고 다음 수식을 보자.

 

  • n은 샘플수, d는 예측 변수의 개수, 1은 상수항을 의미
  • $min E(X)$는 위에서 시그마로 표현한 OLS를 행렬로 표현한 것 뿐이다.
  • 이 수식의 뜻하는 바는 항상 유니크하고 자명한 솔루션이 존재한다는 뜻이다.

 

계수를 찾을 때는 다음과 같은 조건들이 만족되어야 한다.

  • 노이즈는 정규 분포를 따라야 한다.
  • Y값의 변동성이 특정한 변수의 변화에 영향을 받지 말아야 한다.

위와 같이 노이즈가 정규분포가 아닌 감마분포인 경우 잔차에 대한 정규성 검증을 해보면 다음과 같다.

  • 잔차들이 신뢰구간 (-1.96, 1.96)에서 빨간 색 선을 따를 때 정규분포를 따른다고 볼 수 있다.
  • 위의 경우 -1 부근에서 정규성을 따르지 않고 있다.

 

Y값에 따른 잔차를 plot 했을 때는 (d)의 경우처럼 일정해야 한다.

 

Sum-of-Squares 분해

$\bar{y}$ : 평균

SSE는 Regression에 의해 설명이 불가능한 것이고 SSR은 설명이 가능한 것이다. 즉, $R^2$가 커질 수록 좋은 것이다.

  • $0 \le R^2 \le 1$
  • $R^2 = 1$ : 구해진 equation에 모든 데이터 포인트가 통과한다는 뜻
  • $R^2 = 0$ : 타겟 변수와 예측 변수 사이에 선형 관계가 없다는 뜻. -> 주의해야 할 것이 선형 관계가 없다는 뜻이지 아무런 관계가 없다는 뜻은 아니다.

또한 내 모델의 $R^2$ 값이 높다고 해서 내가 모델링을 잘한 것이 아니라 단순히 주어진 데이터의 선형 관계가 높다는 뜻이다. 왜냐하면 모든 사람들이 주어진 데이터로 같은 $R^2$ 값을 가질 것이기 때문이다.

 

$R^2$의 단점이 예측 변수가 많아질 수록 단조 증가한다는 단점이 있는데 이를 보완하기 위해 Adjusted $R^2$를 사용하기도 한다.

 

 

Example

Toyota corolla의 판매 가격 예측이다.

 

  • Fuel_Type을 보면 object 형식인데 수치형을 바꿔줘야 한다.
  • Fuel_Type간의 선형적인 관계가 없기 때문에 one hot encoding이 적절하다.

 

예를 들어 각각의 D:1, P:2, C:3으로 인코딩을 한다면, $\left\vert D-P \right\vert = 1$, $\left\vert P-C \right\vert = 1$, $\left\vert C-D \right\vert = 2$가 되어 대소 관계가 생기게 된다.

 

또한 다중공선성 방지를 위해 하나의 변수를 drop한다. 이렇게 하지 않으면 $C = 1 - P - D$라는 선형식이 산출된다.

 

  • 계수를 구한 뒤에는 먼저 p-value를 보고 이 값이 매우 낮은 변수에 대하여 target과의 관계를 이해한다.
  • 예를 들어 Age가 1만큼 증가하면 price는 123만큼 감소한다는 뜻이다. 

 

자료 출처

'Machine Learning > Business Analytics 1' 카테고리의 다른 글

Logistic Regression : Interpretation  (0) 2023.12.20
Logistic Regression : Learning  (0) 2023.12.19
Logistic Regression : Formulation  (0) 2023.12.19
Evaluating Regression Models  (0) 2023.12.08
Decision Tree  (0) 2023.12.04