Analista de Business Intelligence
2017
Data Scientist Specialist
2019 - até hoje
Data Scientist
2018
Instrutora em aulas e projetos voluntários
Graduação e mestrado em Sistemas de Informação
2017
Linha do tempo
Diagrama retirado do Machine Learning For Everyone
Diagrama retirado do Machine Learning For Everyone
Predizer uma classe/categoria
Predizer um número contínuo
| Idade | Renda | Valor pré-aprovado |
|---|---|---|
| 18 | 1.000 | 2.000 |
| 25 | 2.500 | 3.500 |
| 50 | 4.500 | 4.500 |
| 42 | 10.000 | 20.000 |
| 33 | 6.000 | 8.000 |
| Idade | Renda |
|---|---|
| 18 | 1.000 |
| 25 | 2.500 |
| 50 | 4.500 |
| 42 | 10.000 |
| 33 | 6.000 |
| Valor pré-aprovado |
|---|
| 2.000 |
| 3.500 |
| 4.500 |
| 20.000 |
| 8.000 |
Valor pré-aprovado vs renda mensal
| Idade | Renda |
|---|---|
| 18 | 1.000 |
| 25 | 2.500 |
| 50 | 4.500 |
| 42 | 10.000 |
| 33 | 6.000 |
| Valor acima de 4k |
|---|
| 0 |
| 0 |
| 1 |
| 1 |
| 1 |
Variáveis vs target de classificação
Como assim não existe treinamento?
Seu aprendizado é, na realidade, apenas o armazenamento dos dados de treinamento!
A predição é feita comparando o novo dado com os k dados de treino mais próximos.
Então, o dado novo é classificado com a classe mais comum entre seus “vizinhos”.
É definida por uma métrica de distância. A mais comum é a distância Euclidiana:
X1 = (x11,x12, ...,x1n)
X2 = (x21,x22, ...,x2n)
Essa distância é calculada entre o dado novo e todos os dados do conjunto de treinamento.
Como sei quais os “vizinhos”?
Selecionar os k “vizinhos”: aqueles em que a distância foi menor!
k=1 : Pertence a classe de quadrados
k=3 : Pertence a classe de triângulos
k=7 : Pertence a classe de quadrados
Mas se pode mudar de classe dependendo de k, como definir k?
Testando vários valores para k!
Usamos o conjunto de teste para avaliar o erro do modelo. O valor de k que der o menor erro é selecionado!