분류 전체보기64 Ridge regression(능형 회귀) 간단한 설명과 장점 선형 모델(Linear model)의 예측력(accuracy) 혹은 설명력(interpretability)을 높이기 위해 여러 정규화(regularization) 방법들을 사용한다. 대표적인 shrinkage 방법에는 ridge regression과 lasso가 있으며 이번에는 ridge regression을 설명하고자 한다. 기본 선형 모델 기본적인 선형모델은 다음과 같다. $Y = \beta_0 + \beta_1X_1 + \dots + \beta_pX_p + \epsilon$ 이 선형 모델의 오차를 최소화하는 계수를 찾기 위한 최소 제곱 법(Least squares)은 다음과 같다. $RSS = \sum_{i=1}^n(y_i-\beta_0-\sum^p_{j=1}\beta_jx_{ij})^2$ Ridg.. 2020. 10. 26. K-Fold Cross Validation(교차검증) 쉽게 이해하기 K-Fold Cross Validation (교차검증)은 데이터 내에서 반복적으로 샘플을 사용하는 resampling 방법 중 하나이다. 그렇다면 교차검증을 사용하는 이유 및 방법을 알아보자. Cross Validation 사용하는 이유 머신러닝을 하기 위해 데이터를 Training set, Validation set, Test set으로 나누어 사용하는데 이 중 Training set으로 모델을 만든 뒤 Validation set으로 해당 모델의 성능을 평가하게 된다. 이때 샘플 수가 충분치 못한 경우 우연히 데이터를 어떻게 나누었는지에 따라 성능 차이가 많이 날 수 있다. 왼쪽 그림을 살펴 보면 랜덤으로 데이터를 한번 나눈 뒤 validation의 MSE(Mean Squared Error, 오차)를 .. 2020. 10. 19. Training, Validation and Test sets 차이 및 정확한 용도 (훈련, 검정, 테스트 데이터 차이) 머신러닝 혹은 딥러닝 모델링을 하고자 할 때 우리는 데이터 셋을 나누어 사용한다. 이때 어떤 비율로 나누어 사용하면 좋을지, 각 데이터 셋의 역할은 무엇인지 하나씩 알아보자. 참고로, 개발자로 커리어를 이어나가고 싶다면 수시공고에 지속적으로 지원하는 것이 도움이 된다. 여태 망설였다면 공고를 한번이라도 가볍게 읽어보자. 개발자 채용정보 알아보기>> Training set, Validation set, Test sets 비율 정해진 룰은 없지만 데이터를 충분히 크게 모을 수 있는 요즘에는 다음과 같은 비율을 일반적으로 사용한다. Training set : Validation set : Test sets = 60 : 20 : 20 Training set의 목적 Training set(훈련 데이터)은 모델을 .. 2020. 10. 19. 부부싸움 화해하는 과학적인 방법 - 존 가트맨 박사 부부싸움은 왜 일어날까? 남편이 회식을 하고 늦게 와서? 아내가 잔소리가 많아서? 존 가트맨 박사(Dr.John Gottman)는 47년간 3000쌍이 넘는 부부관계를 분석해온 전문가로, 이혼의 가장 큰 원인이 "대화하는 방식"에 있다고 말한다. 가트맨 박사는 이혼의 원인을 찾기 위해 성격, 가치관, 재산 등 여러 요인들을 분석했지만 결국 부부간 특정한 "대화 패턴"이 나타나는지 여부가 이혼과 가장 큰 연관성이 있다는 것을 발견하였다. 대화가 과연 얼마나 중요할까 싶지만 이 특정 "대화 패턴"은 무려 94%의 확률로 이혼을 예측해준다. 대화 패턴 이 이혼의 지표가 되는 "대화 패턴"은 다음 4가지로 이루어져 있다. 바로 비난, 방어, 경멸, 담쌓기이다. 예를 들어보면 다음과 같다. "또 핸드폰만 보는 거.. 2020. 10. 6. 이전 1 ··· 9 10 11 12 13 14 15 16 다음