컴퓨터공학/데이터과학기초

[데이터과학기초] 군집 분석 (Clustering)

NIMHO 2023. 1. 9. 15:09
728x90

복습하기 위해 학부 수업 내용을 필기한 내용입니다.
이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다.
그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다.

군집화 : Clustering

데이터를 서로 비슷하거나, 서로 가까운 것들끼리 묶어서 나누는 것

 

비지도 학습 : 정답(라벨)이 없음. 유사도와 거리로 판단

- 유사도(similarity) : 두 데이터가 얼마나 가까운가를 나타내는 척도

- 거리(distance ): 두 데이터 사이의 거리

- s = 1 – d, s = similarity, d = distance

 

유클리드 거리 : Euclidean Distance

- 두 점 사이의 거리를 계산하는 가장 일반적인 방법

- 유클리드 공간에서 두 점 사이의 거리

 

맨해튼 거리 : Manhattan Distance

- 택시 거리라고도 함 : 맨해튼에서 택시 타고 가는 거리

- 두 점 사이의 데카르트(Cartesian) 좌표계에서의 거리차의 절댓값의 총합

 

코사인 유사도 : Cosine Similarity

- 내적공간에서 두 벡터의 방향이 이루는 각의 코사인 값 : [0, 1] 

- s = (P ∙ Q) / (||P|| x ||Q||)

- 코사인 거리: Cosine Distance (d = 1 - s)

 

자카드 유사도 : Jaccard Similarity

- 두 집합 사이의 유사도를 측정하는 대표적인 방법

- 페이스북에서 친구 추천할 때, 넷플릭스에서 영화 추천할 때

- 전체 집합의 크기와 교집합의 크기로 유사도 측정

- s(A, B) = |A∩B| / |A∪B|

- 자카드 거리 : Jaccard Distance (d = 1 − s)

728x90

계층적 군집화 : Hierarchical Clustering

군집 간의 거리를 이용하여 계층적으로 군집을 분석하는 방법

- 병합적 방법 : agglomerative, bottom-up approach

- 분할적 방법 : divisive(partitioning), top-down approach

 

덴드로그램 : Dendrogram

- 군집의 계층적 구조를 그림으로 보여주는 방법

 

군집 간의 거리를 측정하는 방법 : Linkage Method

최단 연결법 : Single Linkage

- 두 군집에 속하는 데이터 중에서 가장 가까운 데이터 간의 거리로 연결

 

최장 연결법 : Complete Linkage

- 두 군집에 속하는 데이터 중에서 가장 먼 데이터 간의 거리로 연결

 

평균 연결법 : Average Linkage

- 두 군집에 속하는 모든 데이터 간의 거리의 평균 거리로 연결

 

중심 연결법 : Centroid Linkage

- 두 군집에서의 중심점(centroid)을 찾아서 두 중심점의 거리로 연결

 

Ward의 연결법 : Ward Linkage

- 두 군집을 합쳤을 때의 분산이 최소화되는 군집을 합치는 방법 

728x90