Analista de Business Intelligence
2017
Data Scientist Specialist
2019 - até hoje
Data Scientist
2018
Instrutora em aulas e projetos voluntários
Graduação e mestrado em Sistemas de Informação
2017
Linha do tempo
Diagrama retirado do Machine Learning For Everyone
Diagrama retirado do Machine Learning For Everyone
Predizer uma classe/categoria
Predizer um número contínuo
Idade | Renda | Valor pré-aprovado |
---|---|---|
18 | 1.000 | 2.000 |
25 | 2.500 | 3.500 |
50 | 4.500 | 4.500 |
42 | 10.000 | 20.000 |
33 | 6.000 | 8.000 |
Idade | Renda |
---|---|
18 | 1.000 |
25 | 2.500 |
50 | 4.500 |
42 | 10.000 |
33 | 6.000 |
Valor pré-aprovado |
---|
2.000 |
3.500 |
4.500 |
20.000 |
8.000 |
Valor pré-aprovado vs renda mensal
Idade | Renda |
---|---|
18 | 1.000 |
25 | 2.500 |
50 | 4.500 |
42 | 10.000 |
33 | 6.000 |
Valor acima de 4k |
---|
0 |
0 |
1 |
1 |
1 |
Variáveis vs target de classificação
Como assim não existe treinamento?
Seu aprendizado é, na realidade, apenas o armazenamento dos dados de treinamento!
A predição é feita comparando o novo dado com os k dados de treino mais próximos.
Então, o dado novo é classificado com a classe mais comum entre seus “vizinhos”.
É definida por uma métrica de distância. A mais comum é a distância Euclidiana:
X1 = (x11,x12, ...,x1n)
X2 = (x21,x22, ...,x2n)
Essa distância é calculada entre o dado novo e todos os dados do conjunto de treinamento.
Como sei quais os “vizinhos”?
Selecionar os k “vizinhos”: aqueles em que a distância foi menor!
k=1 : Pertence a classe de quadrados
k=3 : Pertence a classe de triângulos
k=7 : Pertence a classe de quadrados
Mas se pode mudar de classe dependendo de k, como definir k?
Testando vários valores para k!
Usamos o conjunto de teste para avaliar o erro do modelo. O valor de k que der o menor erro é selecionado!