자동으로 데이터를 군집으로 나누거나 유사한 것끼리 그룹 짓는 자율 학습의 한 종류
K평균 알고리즘(군집화)
장점 : ▶통계 용어 없이 설명할 수 있게 군집식별에 대한 간단한 원리 사용
▶매우 유연하며 간단한 수정으로 결점을 극복하게 적용할 수 있다.
▶효율적이고 데이터를 유용한 군집으로 나눈다.
단점 : ▶최근 군집화 알로리즘보다 덜 세련되다. (IHierarchical)
▶무작위 초기화 때문에 최적의 군집을 찾지 못할 수도 있다
▶데이터에서 얼마나 군집이 생성될 수 있을지 합리적인 추측이 필요
뉴클리드 distance를 많이 이용
for i in range(n)
sum=sum+(((x-y)**2)**0.5
요약
● 군집화는 비지도 학습을 사용하는 기술이다.
- 목적 변수가 없어서 무엇을 찾아야 하는지 알지 못하는 경우에 사용
● 유사한 데이터끼리 하나의 군집을 형성하고 또 다른 군집에는 서로 다른 데이터들이 모이도록한다.
차이점을 측정하기 위해 유사도 측정을 사용
● K-평균은 폭넓게 사용되는 군집화 알고리즘 중 하나이며, K는 사용자가 명시한 생성될 군집의 개수이다.
● 양분하는 K-평균은 K-평균보다 더 좋은 군집을 생성한다.
● 그 밖의 군집화 알고리즘으로 계층적 군집화(hierarchical clustering)이라는 것도 널리 사용된다.
'Machine Learning' 카테고리의 다른 글
AI 개발의 스포트라이트 ‘MLOps’ (0) | 2021.04.27 |
---|---|
Docker 환경 구성 (huggingface) docker build 명령어 (0) | 2020.08.26 |
연관 규칙을 사용한 장바구니 분석 (0) | 2019.09.26 |
Strategy Pattern (0) | 2019.09.26 |