본문 바로가기

Machine Learning

군집화 이해

 자동으로 데이터를 군집으로 나누거나 유사한 것끼리 그룹 짓는 자율 학습의 한 종류

 

K평균 알고리즘(군집화)

 

장점 : 통계 용어 없이 설명할 수 있게 군집식별에 대한 간단한 원리 사용

     

        ▶매우 유연하며 간단한 수정으로 결점을 극복하게 적용할 수 있다.

     

        ▶효율적이고 데이터를 유용한 군집으로 나눈다.

 

단점 :  ▶최근 군집화 알로리즘보다 덜 세련되다.  (IHierarchical) 

 

          ▶무작위 초기화 때문에 최적의 군집을 찾지 못할 수도 있다

 

          ▶데이터에서 얼마나 군집이 생성될 수 있을지 합리적인 추측이 필요

 

뉴클리드 distance를 많이 이용

 

for i in range(n)

    sum=sum+(((x-y)**2)**0.5

 

 

요약 

 

● 군집화는 비지도 학습을 사용하는 기술이다.

   - 목적 변수가 없어서 무엇을 찾아야 하는지 알지 못하는 경우에 사용

● 유사한 데이터끼리 하나의 군집을 형성하고 또 다른 군집에는 서로 다른 데이터들이 모이도록한다.

    차이점을 측정하기 위해 유사도 측정을 사용

● K-평균은 폭넓게 사용되는 군집화 알고리즘 중 하나이며, K는 사용자가 명시한 생성될 군집의 개수이다.

 

● 양분하는 K-평균은 K-평균보다 더 좋은 군집을 생성한다.

● 그 밖의 군집화 알고리즘으로 계층적 군집화(hierarchical clustering)이라는 것도 널리 사용된다.