복습하기 위해 학부 수업 내용을 필기한 내용입니다.
이해를 제대로 하지 못하고 정리한 경우 틀린 내용이 있을 수 있습니다.
그러한 부분에 대해서는 알려주시면 정말 감사하겠습니다.
군집화 : Clustering
데이터를 서로 비슷하거나, 서로 가까운 것들끼리 묶어서 나누는 것
비지도 학습 : 정답(라벨)이 없음. 유사도와 거리로 판단
- 유사도(similarity) : 두 데이터가 얼마나 가까운가를 나타내는 척도
- 거리(distance ): 두 데이터 사이의 거리
- s = 1 – d, s = similarity, d = distance
유클리드 거리 : Euclidean Distance
- 두 점 사이의 거리를 계산하는 가장 일반적인 방법
- 유클리드 공간에서 두 점 사이의 거리
맨해튼 거리 : Manhattan Distance
- 택시 거리라고도 함 : 맨해튼에서 택시 타고 가는 거리
- 두 점 사이의 데카르트(Cartesian) 좌표계에서의 거리차의 절댓값의 총합
코사인 유사도 : Cosine Similarity
- 내적공간에서 두 벡터의 방향이 이루는 각의 코사인 값 : [0, 1]
- s = (P ∙ Q) / (||P|| x ||Q||)
- 코사인 거리: Cosine Distance (d = 1 - s)
자카드 유사도 : Jaccard Similarity
- 두 집합 사이의 유사도를 측정하는 대표적인 방법
- 페이스북에서 친구 추천할 때, 넷플릭스에서 영화 추천할 때
- 전체 집합의 크기와 교집합의 크기로 유사도 측정
- s(A, B) = |A∩B| / |A∪B|
- 자카드 거리 : Jaccard Distance (d = 1 − s)
계층적 군집화 : Hierarchical Clustering
군집 간의 거리를 이용하여 계층적으로 군집을 분석하는 방법
- 병합적 방법 : agglomerative, bottom-up approach
- 분할적 방법 : divisive(partitioning), top-down approach
덴드로그램 : Dendrogram
- 군집의 계층적 구조를 그림으로 보여주는 방법
군집 간의 거리를 측정하는 방법 : Linkage Method
최단 연결법 : Single Linkage
- 두 군집에 속하는 데이터 중에서 가장 가까운 데이터 간의 거리로 연결
최장 연결법 : Complete Linkage
- 두 군집에 속하는 데이터 중에서 가장 먼 데이터 간의 거리로 연결
평균 연결법 : Average Linkage
- 두 군집에 속하는 모든 데이터 간의 거리의 평균 거리로 연결
중심 연결법 : Centroid Linkage
- 두 군집에서의 중심점(centroid)을 찾아서 두 중심점의 거리로 연결
Ward의 연결법 : Ward Linkage
- 두 군집을 합쳤을 때의 분산이 최소화되는 군집을 합치는 방법
'컴퓨터공학 > 데이터과학기초' 카테고리의 다른 글
[데이터과학기초] 텍스트 분석 (0) | 2023.01.10 |
---|---|
[데이터과학기초] 인공신경망 (0) | 2023.01.10 |
[데이터과학기초] 로지스틱 회귀와 분류 (0) | 2023.01.02 |
[데이터과학기초] 선형 회귀와 예측 (0) | 2022.12.30 |
[데이터과학기초] 탐색적 데이터 분석 (1) | 2022.12.29 |