PREDITOR
DE
ABANDONO
Feliphe Schiarolli
AGENDA
Base de dados
O que já foi feito
BASE DE DADOS
BASE DE DADOS
Faltam informações relevantes para a previsão do abandono nas bases entregues:
sre
cd_municipio
município
cd_escola
escola
nivel
série
turma
divisao
id_aluno
nm_aluno
ra
id_programa_pedagogico
id_programa_pedagogico_item
disciplina
ano
nu_indice
dc_motivo_encerramento_matricula
dt_nascimento
fl_bolsa_familia
dc_tipo_ensino
quilombola
qt_aula_prevista
dt_matricula
dt_encerramento
dc_turno
cd_inep
nm_pai
nm_mae
tp_estado_civil
tp_sexo
cor
qt_falta
vl_nota
INFORMAÇÕES SOCIOECONÔMICAS
INFRAESTRUTURA
ESCOLAR
CONDIÇÕES DE ACESSO
BASE DE DADOS
Buscamos fontes externas para obter informações que se mostram relevantes segundo o GESTA.
Censo escolar: Mesmo código INEP de 12 dígitos da base da secretaria estadual.
SAEB: o código INEP dessa base é de 8 dígitos e a pesquisa é bianual.
Obtivemos variáveis sobre a infraestrutura da escola, condições de acesso, algumas informações do aluno, etc
Não conseguimos as informações socioeconômicas dos alunos.
Déficit de aprendizagem: temos as notas nos trimestres
Flexibilidade: temos informações sobre a oferta de turmas matutinas, vespertinas e noturnas
Fatores de motivação
Qualidade da educação: temos as notas dos ex-alunos daquela escola no ENEM, razão professor/aluno, formação dos professores, infraestrutura da escola;
BASE DE DADOS
Resultado da união de todos os dados:
Necessidade especial: conseguimos dados relacionados a vários tipos de deficiência física e mental.
Violência: conseguimos informações sobre casos de violência reportados pelo diretor a cada dois anos, apenas para escolas públicas
Fatores de contexto
Acesso limitado: conseguimos dados relacionados ao local/zona da escola, local/zona de residência do aluno, modais de transporte escolar.
Mercado de trabalho: conseguimos dados para mercado de trabalho formal a nível de município.
Pobreza: temos um indicador se o aluno é beneficiário do Bolsa Família
BASE DE DADOS
Resultado da união de todos os dados:
Fluxo de eliminação do Instituto Jones:
LIMPEZA DA BASE
1
2
3
4
Linhas
Duplicações por idaluno por disciplina
Duplicações por nome do aluno e data de nascimento
Duplicações por código inep
Como faremos?
O QUE JÁ FOI FEITO...
Base de alunos do primeiro ano do Ensino Médio do ES;
Dados dos anos de 2016 e 2017;
Variáveis utilizadas:
- Sexo
- Idade
- Nota média da Escola
- Turno
- Nota média da turma - Port. e Mat.
- Proporção de faltas em diversas disciplinas
- Indicadora de nota zero
- Indicadora de proporção de falta equivalente a 1 em alguma disciplina
Modelo de Regressão Logísitica
Abandonou o curso
Deixou de frequentar
Abandono:
Desistente de matrícula
Abandono
Aprovado
Reclassificado
Não abandono:
Reclassificado por aval.
Reprovado
Matr. Suplementar
Matriculado
Definições utilizadas
Resultados Encontrados
Previsto
Abandono
Não Abandono
6.515
36.912
Abandono
Não Abandono
2.379 (5,48)%
4.136 (9,52%)
543 (1,25%)
36.369 (83,75%)
2.922
40.505
Observado
18,6% das pessoas que abandonaram não foram previstas pelo modelo;
Resultados Encontrados
Previsto
Abandono
Não Abandono
6.515
36.912
Abandono
Não Abandono
2.379 (5,48)%
4.136 (9,52%)
543 (1,25%)
36.369 (83,75%)
2.922
40.505
Observado
De todos os abandonos previstos 36,5% de fato aconteceu
Resultados Encontrados
Previsto
Abandono
Não Abandono
6.515
36.912
Abandono
Não Abandono
2.379 (5,48)%
4.136 (9,52%)
543 (1,25%)
36.369 (83,75%)
2.922
40.505
Observado
93,27% dos alunos não abandonaram a escola;
Resultados Encontrados
Previsto
Abandono
Não Abandono
6.515
36.912
Abandono
Não Abandono
2.379 (5,48)%
4.136 (9,52%)
543 (1,25%)
36.369 (83,75%)
2.922
40.505
Observado
6,73% dos alunos abandonaram a escola.
Como avaliar a performance?
Se fossem previstas que 100% dos alunos não abandonariam, o modelo teria falhado em prever que 6,73% abandonaria, mas 93,27% estaria certo. Essa métrica é adequada?
Acreditamos que o ideal seja focar os esforços no grupo de alunos que de fato abandona o sistema escolar.
Qual será o foco?
Resultados Encontrados
Considere duas situações extras:
Moeda: utilizo uma moeda para prever abandono
Aleatório: utilizo a distribuição dos dados observados para fazer um chute
Matriz de Confusão
Modelo
Moeda
Aleatório
Precisão: dos abandonos previstos quantos acertei?
Recall: dos abandonos observados quantos acertei?
Considere três métricas de avaliação:
F1: combinação das duas medidas anteriores
Matriz de Confusão
Precisão
Modelo
Moeda
Aleatório
Recall
F1
0,37
0,81
0,50
0,07
0,50
0,12
0,07
0,07
0,07
Precisão: dos abandonos previstos quantos acertei?
Recall: dos abandonos observados quantos acertei?
Considere três métricas de avaliação:
F1: combinação das duas medidas anteriores
Matriz de Confusão
Precisão
Modelo
Moeda
Aleatório
Recall
F1
0,37
0,81
0,50
0,07
0,50
0,12
0,07
0,07
0,07
O desempenho do modelo parece razoável quando comparada as outras situações apresentadas.
Acreditamos que utilizar essa informação não é o ideal.
Exemplo: um aluno que faltou o primeiro trimestre será previsto como um possível abandono quando esse aluno possivelmente já teria evadido.
Matriz de Confusão
Entretanto, foram utilizadas notas e faltas do ano corrente (1º trimestre).
Obrigado
Copy of deck
By Raíra Marotta
Copy of deck
- 247