K-Means: Revisão

k-means
- Classificação
- Não-Supervisionada
- por Particionamento


É bom
- Simples
- Flexível
- Relativamente rápido
- Mesmo com dados obscuros
- Fácil de entender e implementar
...Mas
- Precisa informar quantos "K" clusters
- Precisão (accuracy) depende da posição inicial dos "K" centróides
- Velocidade diminui quando números K ou N (amostras) aumentam muito

Desafios
- Determinando o "K"
- Inicializando os "K" centróides
- Aumentando a escala
Determinando o "K"

- Rodar várias vezes
- Medir o "erro"
- Tomar decisão
Método "cotovelo"
Qual o "K" Correto?

Qual o "K" Correto?

Determinando o "K"
Mais de 40 métodos e índices, com 9 principais
Entre eles: Silhouette, Dendogram, gap

Método "Silhouette"
Determinando o "K"
Mais de 40 métodos e índices, com 9 principais

Método "Silhouette"
Entre eles: Silhouette, Dendogram, gap
Determinando o "K"
Mais de 40 métodos e índices, com 9 principais
Entre eles: Silhouette, Dendogram, gap

Método "Dendogram"

Determinando o "K"
Mais de 40 métodos e índices, com 9 principais
Método "gap"
Entre eles: Silhouette, Dendogram, gap


Determinando o "K"
Mais de 40 métodos e índices, com 9 principais
Método "gap"
Entre eles: Silhouette, Dendogram, gap


Desafios
- Determinando o "K"
- Inicializando os "K" centróides
- Aumentando a escala
Inicializando "K" Centróides
Método tradicional: Elemento aleatório


2)
1)
3)
5)
4)
6)
Inicializando "K" Centróides

(slides do autor original - iniciar no slide 19)
Desafios
- Determinando o "K"
- Inicializando os "K" centróides
- Aumentando a escala
Aumentando a escala
- Otimizações na inicialização
- k-means||
- Otimizações nas iterações
- mini-batch (exemplo, sklearn-comparison)
- Paralelismo
- k-means||
- MapReduce
- BSP (Bulk Synchronous Parallel)
Perguntas
alan.justino@boolabs.com.br
@alanjds
?
K-Means
By alanjds
K-Means
Revisão do classificador K-Means
- 1,124