Etapa Avaliativa

Agenda

1

Quem sou eu

2

Classificação vs Regressão

3

KNN

Quem sou eu

Vivian Yamassaki

  • Mestra em Sistemas de Informação pela USP
     
  • Data Scientist Specialist na Creditas
     
  • Co-organizadora da MIA (Mulheres em Inteligência Artificial)

2

Analista de Business Intelligence

2017

4

Data Scientist Specialist

2019 - até hoje

3

Data Scientist

2018

5

Instrutora em aulas e projetos voluntários

1

Graduação e mestrado em Sistemas de Informação

2017

Linha do tempo

Classificação

vs

Regressão

O universo de Machine Learning

Diagrama retirado do Machine Learning For Everyone

O universo de Machine Learning

Diagrama retirado do Machine Learning For Everyone

Exemplos

  • Se um e-mail é spam ou não
  • Se é mau pagador ou não é

Classificação

Regressão

  • Predição de valor de um imóvel
  • Predição de renda de cliente

Predizer uma classe/categoria

Predizer um número contínuo

Exemplo

Idade Renda Valor pré-aprovado
18 1.000 2.000
25 2.500 3.500
50 4.500 4.500
42 10.000 20.000
33 6.000 8.000

Exemplo Regressão

Idade Renda
18 1.000
25 2.500
50 4.500
42 10.000
33 6.000
Valor pré-aprovado
2.000
3.500
4.500
20.000
8.000

Valor pré-aprovado vs renda mensal

Exemplo Classificação

Idade Renda
18 1.000
25 2.500
50 4.500
42 10.000
33 6.000
Valor acima de 4k
0
0
1
1
1

Variáveis vs target de classificação

  • Um dos modelos mais simples que existem!
  • Não existe, de fato, um treinamento

KNN - K Nearest Neighbors

Como assim não existe treinamento?

 

Seu aprendizado é, na realidade, apenas o armazenamento dos dados de treinamento!

A predição é feita comparando o novo dado com os k dados de treino mais próximos.

 

Então, o dado novo é classificado com a classe mais comum entre seus “vizinhos”.

 

KNN

 

 

É definida por uma métrica de distância. A mais comum é a distância Euclidiana:

X1 = (x11,x12, ...,x1n)

X2 = (x21,x22, ...,x2n)

 



 

Essa distância é calculada entre o dado novo e todos os dados do conjunto de treinamento.

KNN

Como sei quais os “vizinhos”?

KNN

Selecionar os k “vizinhos”: aqueles em que a distância foi menor!


 

k=1 : Pertence a classe de quadrados

k=3 : Pertence a classe de triângulos

k=7 : Pertence a classe de quadrados

 

KNN

Mas se pode mudar de classe dependendo de k, como definir k?

 

Testando vários valores para k!

 

Usamos o conjunto de teste para avaliar o erro do modelo. O valor de k que der o menor erro é selecionado!

 

  • Simples de entender e explicar
  • Poucos parâmetros (k e medida de distância)

Vantagens

Desvantagens

  • Muito lento para predições quando o conjunto de dados é muito grande
  • Sensível aos outliers

KNN na prática!

Obrigada!

Perguntas?

Apresentação DNC

By Vivian Mayumi Yamassaki

Apresentação DNC

  • 9