본문 바로가기

Machine Learning/Business Analytics 1

(9)
Dimensionality Reduction - Supervised Variable Selection Exhaustive Search 전역 탐색 가능한 경우를 모두 탐색하는 것이다. 변수가 $n$개가 있다면 변수의 조합 개수는 $2^n - 1$이다. 당연히 변수의 개수가 많을 수록 사용할 수 없는 방법론이다. 위 그래프를 보면 1초에 10000개의 모델을 평가할 수 있는 계산 속도를 가지고 있어도 변수의 개수가 40개만 되더라도 1년이 걸린다. 변수를 평가할 때는 Akaike Information Criteria(AIC), Bayesian Information Criteria(BIC), Adjusted R-squared 등을 사용한다. Adjusted R-squared의 수식은 다음과 같다. $1 - {{(1-R^2)\cdot(n-1)} \over {n-k-1}}$ $R^2$: 일반적인 R-squared..
Dimensionality Reduction - Overview 자료 출처 차원 축소는 전처리 방법 중 하나이다. Variable이 $x_1 ... x_d$로 $d$차원의 데이터셋 $X$가 있을 때, 이를 $x_1 ... x_{d'}$인 $d'$차원으로 데이터셋을 diet시키는 것이다. 차원 축소의 목적은 일반적으로 학습 데이터셋의 차원을 축소시켜 모델 학습의 효율성은 올리면서 성능은 유지 혹은 증가시키는 것이다. 차원의 저주 Variable 개수가 증가할 때 똑같은 설명력을 유지하기 위해서 혹은 정보량을 유지하기 위해서 필요한 객체의 수는 기하급수적으로 증가한다. 위 그림 처럼 두 객체 사이의 거리가 1이라는 정보를 표현하기 위해서는 1차원일 때는 객체가 2개가 필요하지만, 차원이 증가할 수록 필요한 객체의 수는 기하급수적으로 증가한다. 또한 항상 그런 것은 아니지..
Classification Performance Evaluation 자료 출처 평가를 하는 이유는 최상의 모델을 선택하려면 각 모델의 성능을 평가해야 하기 때문이다. 흔히 전체 데이터셋을 학습, 검증, 테스트 3가지로 나눈다. 일반적으로 모델들의 하이퍼파라미터 튜닝을 할 때 검증셋의 성능이 좋도록 튜닝을 한 뒤, 최적의 세팅을 가진 모델들을 테스트셋에 대한 성능을 평가하여 최고의 모델을 가린다. 1. Confusion Matrix 혼동 행렬 또는 정오 행렬이라고도 부른다. 위와 같이 성별을 BFP의 수치만 가지고 분류하는 분류기의 예시를 살펴보자. 이를 confusion matrix로 표현하면 다음과 같다. Confusion Matrix Predicted F M Actual F 4 1 M 2 3 일반적으로 우리가 예측해야 하는 범주를 positive로 설정한다. 예를 들..
Logistic Regression : Interpretation 자료 출처 Meaning of coefficient 선형 회귀의 경우 coefficient에 대한 해석이 용이하다. 예를 들면 $x_1$이 1 증가하면 예측 값은 $\hat {\beta_1}$ 만큼 증가하기 때문에 변수의 영향력이 어느정도인지 직관적으로 이해할 수 있다. 반면에 로지스틱 회귀는 odds의 로그값이 변화하기 때문에 직관적이지가 않다. Odds ratio 다른 변수의 값은 고정되어 있고 $x_1$만 1만큼 증가했다고 가정해보자. 이 때 odds ratio는 다음과 같다. $x_1$이 1만큼 증가하였을 때 odds는 $e^{ \hat {\beta_1} }$이라는 factor에 의해 증가하거나 감소한다. coefficient가 양수일 때 : positive class와 coefficient는 양..
Logistic Regression : Learning 자료 출처 Estimating the coefficients 두 개의 서로 다른 로지스틱 모델이 있다고 가정해보자. 각 모델은 아래와 같이 동일한 데이터 세트에 대해 예측한다. 어떤 모델이 더 좋은가? 모델 A가 정답 레이블에 대해 더 높은 확률을 예측하기 때문에 더 좋은 모델이라고 할 수 있다. Likelihood function 개별 객체에 대한 우도(likelihood)는 올바른 클래스로 분류될 것으로 예상되는 확률이다. Glass 1의 우도 : 0.908 Glass 2의 우도 : 0.799 객체가 독립적으로 생성된 것으로 가정하는 경우 전체 데이터 세트의 우도는 모든 객체의 우도의 곱이다. A, B가 독립일 경우 P(A|B) = P(A)P(B) 우도 같은 경우 [0, 1] 범위의 값을 가지기 때문..
Logistic Regression : Formulation 자료 출처 1. Linear Regression을 분류에 적용할 때 문제점 회귀식은 생성된 값에 제한이 없다. 위 그림의 왼쪽 선형 회귀 그래프를 보면 결과값이 0 미만 혹은 1 초과 값도 생성될 수 있어서 문제가 발생한다. 그러나 이진 분류에서는 오직 0과 1 두 가지 결괏값만 가능하다. 따라서 위의 선형 회귀 식을 분류에 적용하려고 하면 독립변수와 종속변수의 범위가 일치하지 않는 문제가 생긴다. 이러한 문제를 해결하면서 회귀 모델의 장점을 계승하는 분류 모델을 만들어야 한다. 회귀 모델의 장점이란 중요한 변수를 찾는 능력과 설명력을 의미한다. 2. Logistic Regression 목표 : 0/1 결과와 관련된 예측 변수의 함수를 찾는다. Y를 결과 변수로 사용하는 대신(선형 회귀 분석처럼) "lo..
Evaluating Regression Models 1. Average Error 실제값과 예측값의 차이를 평균내어 비교 부호 효과로 인해 부적절한 결론을 잘못 도출함 모든 샘플에서 $\pm 3$ 이상의 차이가 나지만 Average Error는 0.1로 작은 값을 나타냄 실전에서 사용 안함 2. Mean Absolute Error (MAE) 실제값과 예측값 간의 차이의 절대값을 평균내어 계산 3. Mean Absolute Percentage Error (MAPE) MAE는 예측된 y와 실제 y 사이의 절대적인 차이 정도만 제공할 수 있지만 둘 사이의 상대적인 차이는 제공할 수 없다. 아래와 같은 경우 MAE를 가지고는 두 경우를 적절하게 비교하기 어렵다. 절대적 차이보다 상대적 차이가 더 중요한 영역에서 일반적으로 채택됨(예: 제조 공정의 품질 관리) 4..
Multiple Linear Regression 목표 양적 종속 변수 Y와 예측 변수 세트 X 사이의 선형 관계를 맞춘다. 즉 coefficients 베타들을 찾는 것 ε는 noise를 의미 Regression의 타입 simple은 예측 변수 X가 1개인 것이고, multiple은 2개 이상인 것이다. linear와 non-linear의 차이는 Y와 X의 관계가 선형인지 비선형인지에 따라 다르다. 우리는 여기서 Multiple Linear Regression만 다룸 coefficients 추정 Ordinary least Square (OLS) 최소자승법이라고 부른다. 회귀모델을 통해 실제 목표값과 추정값의 차이 제곱을 최소화한다. OLS의 Matrix solution 예측 계산을 행렬로 표현하면 다음과 같다. 그리고 A = (1, 2)라는 vector..