Etapa Avaliativa
Agenda
1
Quem sou eu
2
Classificação vs Regressão
3
KNN
Quem sou eu
Vivian Yamassaki
-
Mestra em Sistemas de Informação pela USP
-
Data Scientist Specialist na Creditas
- Co-organizadora da MIA (Mulheres em Inteligência Artificial)
2
Analista de Business Intelligence
2017
4
Data Scientist Specialist
2019 - até hoje
3
Data Scientist
2018
5
Instrutora em aulas e projetos voluntários
1
Graduação e mestrado em Sistemas de Informação
2017
Linha do tempo
Classificação
vs
Regressão
O universo de Machine Learning
Diagrama retirado do Machine Learning For Everyone
O universo de Machine Learning
Diagrama retirado do Machine Learning For Everyone
Exemplos
- Se um e-mail é spam ou não
- Se é mau pagador ou não é
Classificação
Regressão
- Predição de valor de um imóvel
- Predição de renda de cliente
Predizer uma classe/categoria
Predizer um número contínuo
Exemplo
Idade | Renda | Valor pré-aprovado |
---|---|---|
18 | 1.000 | 2.000 |
25 | 2.500 | 3.500 |
50 | 4.500 | 4.500 |
42 | 10.000 | 20.000 |
33 | 6.000 | 8.000 |
Exemplo Regressão
Idade | Renda |
---|---|
18 | 1.000 |
25 | 2.500 |
50 | 4.500 |
42 | 10.000 |
33 | 6.000 |
Valor pré-aprovado |
---|
2.000 |
3.500 |
4.500 |
20.000 |
8.000 |
Valor pré-aprovado vs renda mensal
Exemplo Classificação
Idade | Renda |
---|---|
18 | 1.000 |
25 | 2.500 |
50 | 4.500 |
42 | 10.000 |
33 | 6.000 |
Valor acima de 4k |
---|
0 |
0 |
1 |
1 |
1 |
Variáveis vs target de classificação
- Um dos modelos mais simples que existem!
- Não existe, de fato, um treinamento
KNN - K Nearest Neighbors
Como assim não existe treinamento?
Seu aprendizado é, na realidade, apenas o armazenamento dos dados de treinamento!
A predição é feita comparando o novo dado com os k dados de treino mais próximos.
Então, o dado novo é classificado com a classe mais comum entre seus “vizinhos”.
KNN
É definida por uma métrica de distância. A mais comum é a distância Euclidiana:
X1 = (x11,x12, ...,x1n)
X2 = (x21,x22, ...,x2n)
Essa distância é calculada entre o dado novo e todos os dados do conjunto de treinamento.
KNN
Como sei quais os “vizinhos”?
KNN
Selecionar os k “vizinhos”: aqueles em que a distância foi menor!
k=1 : Pertence a classe de quadrados
k=3 : Pertence a classe de triângulos
k=7 : Pertence a classe de quadrados
KNN
Mas se pode mudar de classe dependendo de k, como definir k?
Testando vários valores para k!
Usamos o conjunto de teste para avaliar o erro do modelo. O valor de k que der o menor erro é selecionado!
- Simples de entender e explicar
- Poucos parâmetros (k e medida de distância)
Vantagens
Desvantagens
- Muito lento para predições quando o conjunto de dados é muito grande
- Sensível aos outliers
KNN na prática!
Obrigada!
Perguntas?
Apresentação DNC
By Vivian Mayumi Yamassaki
Apresentação DNC
- 13