본문 바로가기

Machine Learning

(19)
Logistic Regression : Learning 자료 출처 Estimating the coefficients 두 개의 서로 다른 로지스틱 모델이 있다고 가정해보자. 각 모델은 아래와 같이 동일한 데이터 세트에 대해 예측한다. 어떤 모델이 더 좋은가? 모델 A가 정답 레이블에 대해 더 높은 확률을 예측하기 때문에 더 좋은 모델이라고 할 수 있다. Likelihood function 개별 객체에 대한 우도(likelihood)는 올바른 클래스로 분류될 것으로 예상되는 확률이다. Glass 1의 우도 : 0.908 Glass 2의 우도 : 0.799 객체가 독립적으로 생성된 것으로 가정하는 경우 전체 데이터 세트의 우도는 모든 객체의 우도의 곱이다. A, B가 독립일 경우 P(A|B) = P(A)P(B) 우도 같은 경우 [0, 1] 범위의 값을 가지기 때문..
Logistic Regression : Formulation 자료 출처 1. Linear Regression을 분류에 적용할 때 문제점 회귀식은 생성된 값에 제한이 없다. 위 그림의 왼쪽 선형 회귀 그래프를 보면 결과값이 0 미만 혹은 1 초과 값도 생성될 수 있어서 문제가 발생한다. 그러나 이진 분류에서는 오직 0과 1 두 가지 결괏값만 가능하다. 따라서 위의 선형 회귀 식을 분류에 적용하려고 하면 독립변수와 종속변수의 범위가 일치하지 않는 문제가 생긴다. 이러한 문제를 해결하면서 회귀 모델의 장점을 계승하는 분류 모델을 만들어야 한다. 회귀 모델의 장점이란 중요한 변수를 찾는 능력과 설명력을 의미한다. 2. Logistic Regression 목표 : 0/1 결과와 관련된 예측 변수의 함수를 찾는다. Y를 결과 변수로 사용하는 대신(선형 회귀 분석처럼) "lo..
4-5 : Ensemble Learning - Adaptive Boosting (AdaBoost) 자료 출처 Boosting : AdaBoost Idea strong model vs weak model random guessing보다 약간 더 좋은 성능을 가진 weak model을 정확한 strong model로 향상(boosting) 시킬 수 있다. boosting 과정을 간단히 살펴 보자면 다음과 같다. 학습 데이터 준비 weak model 생성 이전 weak model 어려워한 케이스들에 대해 학습 데이터의 샘플들의 가중치를 재조정 가중치가 재조정된 학습 데이터로 다음 weak model 생성 반복 여러 번 반복으로 만들어진 weak model들을 결합하여 하나의 strong model을 만듬 정리해보자면 각 라운드마다 새로운 모델을 훈련하여 순차적(sequential)으로 모델을 훈련한다. 각..
4-4 : Ensemble Learning - Random Forest 자료 출처 Random Forest 반드시 base learner를 decision tree로 하는 특별한 bagging 2가지 방법으로 앙상블의 다양성을 증가시킨다. bagging 무작위로 선택된 예측 변수들 : p개의 예측 변수가 있다면 (p > m)을 만족하는 m개의 변수만 선택 왼쪽은 bootstrap으로 생성된 i번 째 데이터셋이고 $x_1$ ~ $x_{25}$까지 25개의 변수를 갖고 있다. 오른쪽은 recursive partitioning을 표현한 것인데. 매 split point마다 random하게 선택된 변수들만 가지고 partitioning을 수행한다. 그러다보니 당연하게도 모든 변수를 다 사용했을 때 보다 information gain이 낮아질 수 있다. 그럼에도 왜 좋은지 의문이 들..
4-3 : Ensemble Learning - Bagging 자료 출처 Sampling without Replacement 앙상블의 key는 다양성인데 data의 다양성과 model의 다양성 2가지가 있다. Bagging은 전자를 목적으로 한다. k-fold data split 데이터를 k개의 fold로 나눈뒤 k개의 개별적인 모델을 각각 (k-1)개의 fold로 학습시킨다. 이론적으로는 개별 모델들이 독립적이라면 앙상블의 에러는 개별 모델들 보다 k배 만큼 작을 것이다. 하지만 어떤 $f_i$ 모델과 $f_j$ 모델을 고르더라도 무조건 (k-2) 개의 fold는 공통이다. 따라서 독립적이라고 보기 어렵다. 최종 output은 다음과 같다. k-fold 방식으로 학습하는 방법론은 잘 쓰이지 않는 사장된 방법론 이라고 한다. Bootstrap Aggregating ..
4-2 : Ensemble Learning - Bias-Variance Decomposition 자료 출처 서로 다른 모델들은 다른 클래스 바운더리나 fitted functions을 제공한다. 어떠한 single best model도 다른 알고리즘들에 비해서 우월하다는 결론을 내릴 수 없기 때문에 다양한 모델들이 기저가 된다. 이론 배경 데이터가 additive error를 가진 모델에서 나온다고 가정해보자 $F^*(x)$는 우리가 학습하려고 하는 target function이다. error들은 각각 독립적이고 동일한 분포에서 발생되었다. $F^*(x)$을 추정하기 위해 서로 다른 데이터셋들로 부터 만든 함수를 $\hat{F}_N(x)$이라 한다. $\hat{F}_N(x)$들을 average한 것이 $\bar{F}(x)$라 한다. 특정한 데이터 포인트에서 MSE 에러가 어떻게 발생하는지 알아보자 2..
Evaluating Regression Models 1. Average Error 실제값과 예측값의 차이를 평균내어 비교 부호 효과로 인해 부적절한 결론을 잘못 도출함 모든 샘플에서 $\pm 3$ 이상의 차이가 나지만 Average Error는 0.1로 작은 값을 나타냄 실전에서 사용 안함 2. Mean Absolute Error (MAE) 실제값과 예측값 간의 차이의 절대값을 평균내어 계산 3. Mean Absolute Percentage Error (MAPE) MAE는 예측된 y와 실제 y 사이의 절대적인 차이 정도만 제공할 수 있지만 둘 사이의 상대적인 차이는 제공할 수 없다. 아래와 같은 경우 MAE를 가지고는 두 경우를 적절하게 비교하기 어렵다. 절대적 차이보다 상대적 차이가 더 중요한 영역에서 일반적으로 채택됨(예: 제조 공정의 품질 관리) 4..
Multiple Linear Regression 목표 양적 종속 변수 Y와 예측 변수 세트 X 사이의 선형 관계를 맞춘다. 즉 coefficients 베타들을 찾는 것 ε는 noise를 의미 Regression의 타입 simple은 예측 변수 X가 1개인 것이고, multiple은 2개 이상인 것이다. linear와 non-linear의 차이는 Y와 X의 관계가 선형인지 비선형인지에 따라 다르다. 우리는 여기서 Multiple Linear Regression만 다룸 coefficients 추정 Ordinary least Square (OLS) 최소자승법이라고 부른다. 회귀모델을 통해 실제 목표값과 추정값의 차이 제곱을 최소화한다. OLS의 Matrix solution 예측 계산을 행렬로 표현하면 다음과 같다. 그리고 A = (1, 2)라는 vector..