K-Means: Revisão

Alan Justino da Silva

alan.justino@boolabs.com.br

@alanjds

k-means

  • Classificação
  • Não-Supervisionada
  • por Particionamento

É bom

  • Simples
  • Flexível
  • Relativamente rápido
  • Mesmo com dados obscuros
  • Fácil de entender e implementar

...Mas

  • Precisa informar quantos "K" clusters
  • Precisão (accuracy) depende da posição inicial dos "K" centróides
  • Velocidade diminui quando números K ou N (amostras) aumentam muito

Desafios

Determinando o "K"

  1. Rodar várias vezes
  2. Medir o "erro" 
  3. Tomar decisão

Método "cotovelo"

Qual o "K" Correto?

Qual o "K" Correto?

Determinando o "K"

Mais de 40 métodos e índices, com 9 principais

Entre eles: SilhouetteDendogram, gap

Método "Silhouette"

Determinando o "K"

Mais de 40 métodos e índices, com 9 principais

Método "Silhouette"

Entre eles: SilhouetteDendogram, gap

Determinando o "K"

Mais de 40 métodos e índices, com 9 principais

Entre eles: Silhouette, Dendogram, gap

Método "Dendogram"

Determinando o "K"

Mais de 40 métodos e índices, com 9 principais

Método "gap"

Entre eles: Silhouette, Dendogram, gap

Determinando o "K"

Mais de 40 métodos e índices, com 9 principais

Método "gap"

Entre eles: Silhouette, Dendogram, gap

Desafios

Inicializando "K" Centróides

Método tradicional: Elemento aleatório

2)

1)

3)

5)

4)

6)

Inicializando "K" Centróides

Método otimizado: Elementos distantes (k-means++)

(slides do autor original - iniciar no slide 19)

Desafios

Aumentando a escala

Perguntas

alan.justino@boolabs.com.br

@alanjds

?

Made with Slides.com