Loading [MathJax]/jax/output/CommonHTML/jax.js
본문 바로가기

분류 전체보기64

클러스터링 성능 평가 (Cluster Evaluation) Clustering은 비지도 학습으로, feature 정보들만 있는 데이터를 사용하여 최대한 비슷한 데이터들을 묶어 군집(Cluster)을 만드는 것을 목표로 한다. 반면, 지도 학습에서는 정답인 Y label이 있는 데이터를 사용하며 정답을 맞히는 것을 목표로 한다. 지도 학습은 정답 label을 사용하여 모델의 성능을 평가할 수 있으나, 비지도 학습은 군집화가 잘 된 정도를 평가해야 하기 때문에 비교적 평가가 쉽지 않다. Cluster validation measure(군집 유효성 지표) Cluster를 평가하기 위해 다음 지표들을 사용할 수 있다. Compactness: Cluster 내 데이터들이 잘 뭉쳐있는 정도를 의미한다. Separation: Cluster와 cluster간 잘 분리되어 있는.. 2020. 11. 20.
Hierarchical clustering(계층적 군집화) 예시로 쉽게 이해하기 Clustering은 비지도 학습이다. 지도 학습에서는 정답인 Y label이 있는 데이터를 사용하여 정답을 맞히는 것을 목표로 하나, 비지도 학습에서는 feature 정보들만 있는 데이터를 사용하여 최대한 비슷한 데이터들을 묶어 군집(Cluster)을 만드는 것이 목표이다. Hierarchical clustering(계층적 군집화) Bottom up 방식으로 가장 가까운 점들을 먼저 묶고, 그다음으로 가장 가까운 점을 묶는 방법을 사용하여 모두 묶을 때까지 반복하여 군집화를 완성한다. 모든 데이터를 묶어 군집화를 완성한 뒤, 본인이 원하는 cluster의 수로 나누고자 하는 지점까지 군집을 풀면 된다. Dendrogram 데이터간 묶인 순서와 거리를 시각화한 것이 dendrogram이다. 단, dend.. 2020. 11. 19.
K-Means Clustering(K-평균 군집화) 예시로 쉽게 이해하기 Clustering은 비지도 학습이다. 지도 학습에서는 정답인 Y label이 있는 데이터를 사용하여 정답을 맞추는 것을 목표로 하나, 비지도 학습에서는 feature 정보들만 있는 데이터를 사용하여 최대한 비슷한 데이터들을 묶어 군집(Cluster)을 만드는 것이 목표이다. K-means Clustering(K-평균 군집화) 클러스터링(Clustering)을 설명하는데 있어 가장 기본적인 알고리즘이 K-means Clustering으로 이를 수행하는 방법은 다음과 같이 아주 쉽다. 본인이 생각하는 적정한 군집의 수 K(예제에서는 K=3)를 설정한다. Step 1: 각 데이터에 랜덤 하게 class를 부여한다. Iteration 1, Step 2a: 각 class마다 점들 평균인 centroid를 구한다.. 2020. 11. 19.
SVM 쉽게 이해하기 - (2) Support Vector Machine(서포트벡터머신) Deep learning이 non linear 한 문제를 푸는 데 있어 성능이 아주 좋지만, 심플하면서 간혹 성능이 더 좋은 경우를 찾기 위해 기본적인 머신러닝 기법을 사용하는 경우가 있다. 머신러닝 기법 중 대표적인 것 중 하나가 SVM이다. SVM은 Linear하지 않은 문제에 대해 boundary를 정의하는 방법을 의미한다. ​ Support Vector Classifier의 한계 Support Vector Classifier로 non linear 한 문제를 풀고자 하면 x2와 같이 ‘기존 변수를 제곱한 새로운 변수’등 변환된 변수를 추가하여 linear 한 문제인 것처럼 classify 할 수 있다. 하지만 이러한 변수를 일일이 만들고, 어떤 변수가 좋은지 선정하는 것 자체가 또 하나의 문제.. 2020. 11. 10.