본문 바로가기

전체 글

(124)
4-6 : Ensemble Learning - Gradient Boosting Machine (GBM) 자료 출처 Gradient Boosting은 Gradient Descent 알고리즘과 Boosting이 결합된 알고리즘이다. Adaboost의 경우 forward stage-wise 방법으로 additive model을 만들고, 각 단계에서는 이전의 weak learner를 보완하는 새로운 weak learner를 제시하는 형태로 학습이 진행되었고, 잘 학습되지 않았던 shortcomings에 대해서는 다음 데이터셋에서 shortcomings의 weight을 조정하는 방법으로 모델을 학습시켰다. 반면에 Gradient Boosting에서는 shortcomings들이 gradient에 반영이 된다. 손실함수의 복잡도 측면에서 regression이 GBM 알고리즘을 직관적으로 이해하기 쉽기 때문에 regre..
Classification Performance Evaluation 자료 출처 평가를 하는 이유는 최상의 모델을 선택하려면 각 모델의 성능을 평가해야 하기 때문이다. 흔히 전체 데이터셋을 학습, 검증, 테스트 3가지로 나눈다. 일반적으로 모델들의 하이퍼파라미터 튜닝을 할 때 검증셋의 성능이 좋도록 튜닝을 한 뒤, 최적의 세팅을 가진 모델들을 테스트셋에 대한 성능을 평가하여 최고의 모델을 가린다. 1. Confusion Matrix 혼동 행렬 또는 정오 행렬이라고도 부른다. 위와 같이 성별을 BFP의 수치만 가지고 분류하는 분류기의 예시를 살펴보자. 이를 confusion matrix로 표현하면 다음과 같다. Confusion Matrix Predicted F M Actual F 4 1 M 2 3 일반적으로 우리가 예측해야 하는 범주를 positive로 설정한다. 예를 들..
Logistic Regression : Interpretation 자료 출처 Meaning of coefficient 선형 회귀의 경우 coefficient에 대한 해석이 용이하다. 예를 들면 $x_1$이 1 증가하면 예측 값은 $\hat {\beta_1}$ 만큼 증가하기 때문에 변수의 영향력이 어느정도인지 직관적으로 이해할 수 있다. 반면에 로지스틱 회귀는 odds의 로그값이 변화하기 때문에 직관적이지가 않다. Odds ratio 다른 변수의 값은 고정되어 있고 $x_1$만 1만큼 증가했다고 가정해보자. 이 때 odds ratio는 다음과 같다. $x_1$이 1만큼 증가하였을 때 odds는 $e^{ \hat {\beta_1} }$이라는 factor에 의해 증가하거나 감소한다. coefficient가 양수일 때 : positive class와 coefficient는 양..
Logistic Regression : Learning 자료 출처 Estimating the coefficients 두 개의 서로 다른 로지스틱 모델이 있다고 가정해보자. 각 모델은 아래와 같이 동일한 데이터 세트에 대해 예측한다. 어떤 모델이 더 좋은가? 모델 A가 정답 레이블에 대해 더 높은 확률을 예측하기 때문에 더 좋은 모델이라고 할 수 있다. Likelihood function 개별 객체에 대한 우도(likelihood)는 올바른 클래스로 분류될 것으로 예상되는 확률이다. Glass 1의 우도 : 0.908 Glass 2의 우도 : 0.799 객체가 독립적으로 생성된 것으로 가정하는 경우 전체 데이터 세트의 우도는 모든 객체의 우도의 곱이다. A, B가 독립일 경우 P(A|B) = P(A)P(B) 우도 같은 경우 [0, 1] 범위의 값을 가지기 때문..
Logistic Regression : Formulation 자료 출처 1. Linear Regression을 분류에 적용할 때 문제점 회귀식은 생성된 값에 제한이 없다. 위 그림의 왼쪽 선형 회귀 그래프를 보면 결과값이 0 미만 혹은 1 초과 값도 생성될 수 있어서 문제가 발생한다. 그러나 이진 분류에서는 오직 0과 1 두 가지 결괏값만 가능하다. 따라서 위의 선형 회귀 식을 분류에 적용하려고 하면 독립변수와 종속변수의 범위가 일치하지 않는 문제가 생긴다. 이러한 문제를 해결하면서 회귀 모델의 장점을 계승하는 분류 모델을 만들어야 한다. 회귀 모델의 장점이란 중요한 변수를 찾는 능력과 설명력을 의미한다. 2. Logistic Regression 목표 : 0/1 결과와 관련된 예측 변수의 함수를 찾는다. Y를 결과 변수로 사용하는 대신(선형 회귀 분석처럼) "lo..
03 파이토치 기초 (4) 데이터세트와 데이터로더, 모델 저장 및 불러오기 데이터세트와 데이터로더 데이터세트는 데이터의 집합을 의미하며, 입력값과 결괏값에 대한 정보를 제공하거나 일련의 데이터 묶음을 제공한다. 데이터세트의 구조는 일반적으로 데이터베이스의 테이블과 같은 형태로 구성되어 있다. 데이터의 구조나 패턴은 매우 다양하기 때문에 학습해야 하는 데이터가 파일 경로로 제공되거나 전처리 단계가 필요한 경우도 있다. 이처럼 데이터를 변형하고 매핑하는 코드를 학습 과정에 직접 반영하면 모듈화, 재사용성, 가독성을 떨어뜨리는 주요 원인이 된다. 이러한 현상을 방지하고 코드를 구조적으로 설계할 수 있도록 데이터세트와 데이터로더를 사용한다. 데이터세트 데이터세트 클래스의 기본형은 다음과 같다. class Dataset: def __init__(self, data, *args **kwa..
4-5 : Ensemble Learning - Adaptive Boosting (AdaBoost) 자료 출처 Boosting : AdaBoost Idea strong model vs weak model random guessing보다 약간 더 좋은 성능을 가진 weak model을 정확한 strong model로 향상(boosting) 시킬 수 있다. boosting 과정을 간단히 살펴 보자면 다음과 같다. 학습 데이터 준비 weak model 생성 이전 weak model 어려워한 케이스들에 대해 학습 데이터의 샘플들의 가중치를 재조정 가중치가 재조정된 학습 데이터로 다음 weak model 생성 반복 여러 번 반복으로 만들어진 weak model들을 결합하여 하나의 strong model을 만듬 정리해보자면 각 라운드마다 새로운 모델을 훈련하여 순차적(sequential)으로 모델을 훈련한다. 각..
4-4 : Ensemble Learning - Random Forest 자료 출처 Random Forest 반드시 base learner를 decision tree로 하는 특별한 bagging 2가지 방법으로 앙상블의 다양성을 증가시킨다. bagging 무작위로 선택된 예측 변수들 : p개의 예측 변수가 있다면 (p > m)을 만족하는 m개의 변수만 선택 왼쪽은 bootstrap으로 생성된 i번 째 데이터셋이고 $x_1$ ~ $x_{25}$까지 25개의 변수를 갖고 있다. 오른쪽은 recursive partitioning을 표현한 것인데. 매 split point마다 random하게 선택된 변수들만 가지고 partitioning을 수행한다. 그러다보니 당연하게도 모든 변수를 다 사용했을 때 보다 information gain이 낮아질 수 있다. 그럼에도 왜 좋은지 의문이 들..