Multiple Linear Regression

목표

양적 종속 변수 Y와 예측 변수 세트 X 사이의 선형 관계를 맞춘다.

즉 coefficients 베타들을 찾는 것
ε는 noise를 의미

Regression의 타입

simple은 예측 변수 X가 1개인 것이고, multiple은 2개 이상인 것이다.
linear와 non-linear의 차이는 Y와 X의 관계가 선형인지 비선형인지에 따라 다르다.
우리는 여기서 Multiple Linear Regression만 다룸

coefficients 추정

Ordinary least Square (OLS)

최소자승법이라고 부른다.
회귀모델을 통해 실제 목표값과 추정값의 차이 제곱을 최소화한다.

OLS의 Matrix solution

예측 계산을 행렬로 표현하면 다음과 같다.

그리고 A = (1, 2)라는 vector가 있을 때 요소별 제곱의 합을 구하는 방법은 A의 전치 행렬과 A를 행렬곱을 수행하면 됨을 이해하고 다음 수식을 보자.

n은 샘플수, d는 예측 변수의 개수, 1은 상수항을 의미
$min E(X)$는 위에서 시그마로 표현한 OLS를 행렬로 표현한 것 뿐이다.
이 수식의 뜻하는 바는 항상 유니크하고 자명한 솔루션이 존재한다는 뜻이다.

계수를 찾을 때는 다음과 같은 조건들이 만족되어야 한다.

노이즈는 정규 분포를 따라야 한다.
Y값의 변동성이 특정한 변수의 변화에 영향을 받지 말아야 한다.

위와 같이 노이즈가 정규분포가 아닌 감마분포인 경우 잔차에 대한 정규성 검증을 해보면 다음과 같다.

잔차들이 신뢰구간 (-1.96, 1.96)에서 빨간 색 선을 따를 때 정규분포를 따른다고 볼 수 있다.
위의 경우 -1 부근에서 정규성을 따르지 않고 있다.

Y값에 따른 잔차를 plot 했을 때는 (d)의 경우처럼 일정해야 한다.

Sum-of-Squares 분해

$\bar{y}$ : 평균

SSE는 Regression에 의해 설명이 불가능한 것이고 SSR은 설명이 가능한 것이다. 즉, $R^2$가 커질 수록 좋은 것이다.

$0 \le R^2 \le 1$
$R^2 = 1$ : 구해진 equation에 모든 데이터 포인트가 통과한다는 뜻
$R^2 = 0$ : 타겟 변수와 예측 변수 사이에 선형 관계가 없다는 뜻. -> 주의해야 할 것이 선형 관계가 없다는 뜻이지 아무런 관계가 없다는 뜻은 아니다.

또한 내 모델의 $R^2$ 값이 높다고 해서 내가 모델링을 잘한 것이 아니라 단순히 주어진 데이터의 선형 관계가 높다는 뜻이다. 왜냐하면 모든 사람들이 주어진 데이터로 같은 $R^2$ 값을 가질 것이기 때문이다.

$R^2$의 단점이 예측 변수가 많아질 수록 단조 증가한다는 단점이 있는데 이를 보완하기 위해 Adjusted $R^2$를 사용하기도 한다.

Example

Toyota corolla의 판매 가격 예측이다.

Fuel_Type을 보면 object 형식인데 수치형을 바꿔줘야 한다.
Fuel_Type간의 선형적인 관계가 없기 때문에 one hot encoding이 적절하다.

예를 들어 각각의 D:1, P:2, C:3으로 인코딩을 한다면, $\left\vert D-P \right\vert = 1$, $\left\vert P-C \right\vert = 1$, $\left\vert C-D \right\vert = 2$가 되어 대소 관계가 생기게 된다.

또한 다중공선성 방지를 위해 하나의 변수를 drop한다. 이렇게 하지 않으면 $C = 1 - P - D$라는 선형식이 산출된다.

계수를 구한 뒤에는 먼저 p-value를 보고 이 값이 매우 낮은 변수에 대하여 target과의 관계를 이해한다.
예를 들어 Age가 1만큼 증가하면 price는 123만큼 감소한다는 뜻이다.

자료 출처

저작자표시 (새창열림)

'Machine Learning > Business Analytics 1' 카테고리의 다른 글

Logistic Regression : Interpretation (0)	2023.12.20
Logistic Regression : Learning (0)	2023.12.19
Logistic Regression : Formulation (0)	2023.12.19
Evaluating Regression Models (0)	2023.12.08
Decision Tree (0)	2023.12.04

Gongsam

Multiple Linear Regression

목표

Regression의 타입

coefficients 추정

Ordinary least Square (OLS)

OLS의 Matrix solution

Sum-of-Squares 분해

Example

'Machine Learning > Business Analytics 1' 카테고리의 다른 글

티스토리툴바

Multiple Linear Regression

목표

Regression의 타입

coefficients 추정

Ordinary least Square (OLS)

OLS의 Matrix solution

Sum-of-Squares 분해

Example

'Machine Learning > Business Analytics 1' 카테고리의 다른 글

'Machine Learning/Business Analytics 1' Related Articles

티스토리툴바