본문 바로가기

IT/ML20

은닉 마르코프 모델 예시로 쉽게 이해, HMM(Hidden Markov Model) 마르코프 체인 (Markov Chain) N개의 상태(State)가 있고 각 상태에서 다른 상태로 이동할 때의 전이 확률(transition probability)이 함께 정의되어 있는 그래프를 마르코프 체인 그래프이다. 마르코프 체인의 특성은, 이전 상태로부터 영향을 받지 않고 현재의 상태에서만 다음 상태로 넘어갈 때의 확률에 영향을 준다는 것이다. 즉 이전에 얼마나 복잡한 상태를 거쳐 현재 상태를 왔는지는 다음 상태로 넘어가는 데 있어 영향을 주지 않는다. 또한 현재 상태에서 다음 상태로 갈 수 있는 여러 확률들의 합은 1로 정의된다. 마르코프 체인은 아래와 같이 전이 확률에 대해 행렬(matrix)로 표현할 수 있다. 예시에서 상태 1은 비, 상태 2는 구름, 상태 3은 맑음으로 나타낸 경우, ‘맑.. 2020. 12. 12.
EM 알고리즘 예시로 쉽게 이해하기 (Expectation maximization, EM algorithm) 기댓값 최대화 알고리즘(expectation-maximization algorithm, EM algorithm)은 모수에 관한 추정 값으로 로그 가능도(log likelihood)의 기댓값을 계산하는 기댓값 (E) 단계와 이 기댓값을 최대화하는 모수 추정값들을 구하는 최대화 (M) 단계를 번갈아가면서 적용한다. 이 두 단계(2-step)를 번갈아 가며 최적화 값을 찾아가는 알고리즘으로 이해하면 된다. 참고로, 가능도 함수(Likelihood function) 는 다음 포스팅에서 언급되어 있으니 확인이 가능하다. 로지스틱 회귀 분석 예시로 쉽게 이해하기 제품이 양품과 불량품이라는 두 가지 경우의 수를 가진 것처럼 로지스틱 회귀 분석은 종속변수가 이 분형일 때 사용된다. 이 종속변수는 하나 이상의 독립변수와.. 2020. 11. 30.
클러스터링 성능 평가 (Cluster Evaluation) Clustering은 비지도 학습으로, feature 정보들만 있는 데이터를 사용하여 최대한 비슷한 데이터들을 묶어 군집(Cluster)을 만드는 것을 목표로 한다. 반면, 지도 학습에서는 정답인 Y label이 있는 데이터를 사용하며 정답을 맞히는 것을 목표로 한다. 지도 학습은 정답 label을 사용하여 모델의 성능을 평가할 수 있으나, 비지도 학습은 군집화가 잘 된 정도를 평가해야 하기 때문에 비교적 평가가 쉽지 않다. Cluster validation measure(군집 유효성 지표) Cluster를 평가하기 위해 다음 지표들을 사용할 수 있다. Compactness: Cluster 내 데이터들이 잘 뭉쳐있는 정도를 의미한다. Separation: Cluster와 cluster간 잘 분리되어 있는.. 2020. 11. 20.
Hierarchical clustering(계층적 군집화) 예시로 쉽게 이해하기 Clustering은 비지도 학습이다. 지도 학습에서는 정답인 Y label이 있는 데이터를 사용하여 정답을 맞히는 것을 목표로 하나, 비지도 학습에서는 feature 정보들만 있는 데이터를 사용하여 최대한 비슷한 데이터들을 묶어 군집(Cluster)을 만드는 것이 목표이다. Hierarchical clustering(계층적 군집화) Bottom up 방식으로 가장 가까운 점들을 먼저 묶고, 그다음으로 가장 가까운 점을 묶는 방법을 사용하여 모두 묶을 때까지 반복하여 군집화를 완성한다. 모든 데이터를 묶어 군집화를 완성한 뒤, 본인이 원하는 cluster의 수로 나누고자 하는 지점까지 군집을 풀면 된다. Dendrogram 데이터간 묶인 순서와 거리를 시각화한 것이 dendrogram이다. 단, dend.. 2020. 11. 19.