본문 바로가기

IT27

Lasso 간단한 설명과 ridge, lasso 비교 선형 모델(Linear model)의 예측력(accuracy) 혹은 설명력(interpretability)을 높이기 위해 여러 정규화(regularization) 방법들을 사용할 수 있다. 대표적인 shrinkage 방법에는 ridge regression과 lasso가 있으며 이번에는 Lasso를 설명하고자 한다. 기본 선형 모델 기본적인 선형모델은 다음과 같다. $Y = \beta_0 + \beta_1X_1 + \dots + \beta_pX_p + \epsilon$ 이 선형 모델의 오차를 최소화하는 계수를 찾기 위한 최소 제곱 법(Least squares)은 다음과 같다. $RSS = \sum_{i=1}^n(y_i-\beta_0-\sum^p_{j=1}\beta_jx_{ij})^2$ The Lasso L.. 2020. 10. 26.
Ridge regression(능형 회귀) 간단한 설명과 장점 선형 모델(Linear model)의 예측력(accuracy) 혹은 설명력(interpretability)을 높이기 위해 여러 정규화(regularization) 방법들을 사용한다. 대표적인 shrinkage 방법에는 ridge regression과 lasso가 있으며 이번에는 ridge regression을 설명하고자 한다. 기본 선형 모델 기본적인 선형모델은 다음과 같다. $Y = \beta_0 + \beta_1X_1 + \dots + \beta_pX_p + \epsilon$ 이 선형 모델의 오차를 최소화하는 계수를 찾기 위한 최소 제곱 법(Least squares)은 다음과 같다. $RSS = \sum_{i=1}^n(y_i-\beta_0-\sum^p_{j=1}\beta_jx_{ij})^2$ Ridg.. 2020. 10. 26.
K-Fold Cross Validation(교차검증) 쉽게 이해하기 K-Fold Cross Validation (교차검증)은 데이터 내에서 반복적으로 샘플을 사용하는 resampling 방법 중 하나이다. 그렇다면 교차검증을 사용하는 이유 및 방법을 알아보자. Cross Validation 사용하는 이유 머신러닝을 하기 위해 데이터를 Training set, Validation set, Test set으로 나누어 사용하는데 이 중 Training set으로 모델을 만든 뒤 Validation set으로 해당 모델의 성능을 평가하게 된다. 이때 샘플 수가 충분치 못한 경우 우연히 데이터를 어떻게 나누었는지에 따라 성능 차이가 많이 날 수 있다. 왼쪽 그림을 살펴 보면 랜덤으로 데이터를 한번 나눈 뒤 validation의 MSE(Mean Squared Error, 오차)를 .. 2020. 10. 19.
Training, Validation and Test sets 차이 및 정확한 용도 (훈련, 검정, 테스트 데이터 차이) 머신러닝 혹은 딥러닝 모델링을 하고자 할 때 우리는 데이터 셋을 나누어 사용한다. 이때 어떤 비율로 나누어 사용하면 좋을지, 각 데이터 셋의 역할은 무엇인지 하나씩 알아보자. 참고로, 개발자로 커리어를 이어나가고 싶다면 수시공고에 지속적으로 지원하는 것이 도움이 된다. 여태 망설였다면 공고를 한번이라도 가볍게 읽어보자. 개발자 채용정보 알아보기>> Training set, Validation set, Test sets 비율 정해진 룰은 없지만 데이터를 충분히 크게 모을 수 있는 요즘에는 다음과 같은 비율을 일반적으로 사용한다. Training set : Validation set : Test sets = 60 : 20 : 20 Training set의 목적 Training set(훈련 데이터)은 모델을 .. 2020. 10. 19.