목표
양적 종속 변수 Y와 예측 변수 세트 X 사이의 선형 관계를 맞춘다.
- 즉 coefficients 베타들을 찾는 것
- ε는 noise를 의미
Regression의 타입
- simple은 예측 변수 X가 1개인 것이고, multiple은 2개 이상인 것이다.
- linear와 non-linear의 차이는 Y와 X의 관계가 선형인지 비선형인지에 따라 다르다.
- 우리는 여기서 Multiple Linear Regression만 다룸
coefficients 추정
Ordinary least Square (OLS)
- 최소자승법이라고 부른다.
- 회귀모델을 통해 실제 목표값과 추정값의 차이 제곱을 최소화한다.
OLS의 Matrix solution
예측 계산을 행렬로 표현하면 다음과 같다.
그리고 A = (1, 2)라는 vector가 있을 때 요소별 제곱의 합을 구하는 방법은 A의 전치 행렬과 A를 행렬곱을 수행하면 됨을 이해하고 다음 수식을 보자.
- n은 샘플수, d는 예측 변수의 개수, 1은 상수항을 의미
- $min E(X)$는 위에서 시그마로 표현한 OLS를 행렬로 표현한 것 뿐이다.
- 이 수식의 뜻하는 바는 항상 유니크하고 자명한 솔루션이 존재한다는 뜻이다.
계수를 찾을 때는 다음과 같은 조건들이 만족되어야 한다.
- 노이즈는 정규 분포를 따라야 한다.
- Y값의 변동성이 특정한 변수의 변화에 영향을 받지 말아야 한다.
위와 같이 노이즈가 정규분포가 아닌 감마분포인 경우 잔차에 대한 정규성 검증을 해보면 다음과 같다.
- 잔차들이 신뢰구간 (-1.96, 1.96)에서 빨간 색 선을 따를 때 정규분포를 따른다고 볼 수 있다.
- 위의 경우 -1 부근에서 정규성을 따르지 않고 있다.
Y값에 따른 잔차를 plot 했을 때는 (d)의 경우처럼 일정해야 한다.
Sum-of-Squares 분해
$\bar{y}$ : 평균
SSE는 Regression에 의해 설명이 불가능한 것이고 SSR은 설명이 가능한 것이다. 즉, $R^2$가 커질 수록 좋은 것이다.
- $0 \le R^2 \le 1$
- $R^2 = 1$ : 구해진 equation에 모든 데이터 포인트가 통과한다는 뜻
- $R^2 = 0$ : 타겟 변수와 예측 변수 사이에 선형 관계가 없다는 뜻. -> 주의해야 할 것이 선형 관계가 없다는 뜻이지 아무런 관계가 없다는 뜻은 아니다.
또한 내 모델의 $R^2$ 값이 높다고 해서 내가 모델링을 잘한 것이 아니라 단순히 주어진 데이터의 선형 관계가 높다는 뜻이다. 왜냐하면 모든 사람들이 주어진 데이터로 같은 $R^2$ 값을 가질 것이기 때문이다.
$R^2$의 단점이 예측 변수가 많아질 수록 단조 증가한다는 단점이 있는데 이를 보완하기 위해 Adjusted $R^2$를 사용하기도 한다.
Example
Toyota corolla의 판매 가격 예측이다.
- Fuel_Type을 보면 object 형식인데 수치형을 바꿔줘야 한다.
- Fuel_Type간의 선형적인 관계가 없기 때문에 one hot encoding이 적절하다.
예를 들어 각각의 D:1, P:2, C:3으로 인코딩을 한다면, $\left\vert D-P \right\vert = 1$, $\left\vert P-C \right\vert = 1$, $\left\vert C-D \right\vert = 2$가 되어 대소 관계가 생기게 된다.
또한 다중공선성 방지를 위해 하나의 변수를 drop한다. 이렇게 하지 않으면 $C = 1 - P - D$라는 선형식이 산출된다.
- 계수를 구한 뒤에는 먼저 p-value를 보고 이 값이 매우 낮은 변수에 대하여 target과의 관계를 이해한다.
- 예를 들어 Age가 1만큼 증가하면 price는 123만큼 감소한다는 뜻이다.
'Machine Learning > Business Analytics 1' 카테고리의 다른 글
Logistic Regression : Interpretation (0) | 2023.12.20 |
---|---|
Logistic Regression : Learning (0) | 2023.12.19 |
Logistic Regression : Formulation (0) | 2023.12.19 |
Evaluating Regression Models (0) | 2023.12.08 |
Decision Tree (0) | 2023.12.04 |