PREDITOR

DE

ABANDONO

Feliphe Schiarolli

AGENDA

Base de dados

O que já foi feito

BASE DE DADOS

BASE DE DADOS

Faltam informações relevantes para a previsão do abandono nas bases entregues:

Exemplo 2018:

sre
cd_municipio
município
cd_escola
escola
nivel
série
turma
divisao
id_aluno
nm_aluno

ra
id_programa_pedagogico
id_programa_pedagogico_item
disciplina
ano
nu_indice
dc_motivo_encerramento_matricula
dt_nascimento
fl_bolsa_familia
dc_tipo_ensino
quilombola
qt_aula_prevista 

dt_matricula
dt_encerramento
dc_turno
cd_inep
nm_pai
nm_mae
tp_estado_civil
tp_sexo
cor
qt_falta
vl_nota

INFORMAÇÕES SOCIOECONÔMICAS

INFRAESTRUTURA

ESCOLAR

CONDIÇÕES DE ACESSO

BASE DE DADOS

Buscamos fontes externas para obter informações que se mostram relevantes segundo o GESTA.

Censo escolar: Mesmo código INEP de 12 dígitos da base da secretaria estadual.

SAEB: o código INEP dessa base é de 8 dígitos e a pesquisa é bianual.

Obtivemos variáveis sobre a infraestrutura da escola, condições de acesso, algumas informações do aluno, etc

Não conseguimos as informações socioeconômicas dos alunos.

Déficit de aprendizagem: temos as notas nos trimestres

Flexibilidade: temos informações sobre a oferta de turmas matutinas, vespertinas e noturnas

Fatores de motivação

Qualidade da educação: temos as notas dos ex-alunos daquela escola no ENEM, razão professor/aluno, formação dos professores, infraestrutura da escola;

BASE DE DADOS

Resultado da união de todos os dados:

Necessidade especial:  conseguimos dados relacionados a vários tipos de deficiência física e mental.

Violência: conseguimos informações sobre casos de violência reportados pelo diretor a cada dois anos, apenas para escolas públicas

Fatores de contexto

Acesso limitado: conseguimos dados relacionados ao local/zona da escola, local/zona de residência do aluno, modais de transporte escolar.

Mercado de trabalho: conseguimos dados para mercado de trabalho formal a nível de município.

Pobreza: temos um indicador se o aluno é beneficiário do Bolsa Família

BASE DE DADOS

Resultado da união de todos os dados:

Fluxo de eliminação do Instituto Jones:

LIMPEZA DA BASE

1

2

3

4

Linhas

Duplicações por idaluno por disciplina

Duplicações por nome do aluno e data de nascimento

Duplicações por código inep

Como faremos?

O QUE JÁ FOI FEITO...

Base de alunos do primeiro ano do Ensino Médio do ES;

Dados dos anos de 2016 e 2017;

Variáveis utilizadas:

  • Sexo
  • Idade
  • Nota média da Escola
  • Turno
  • Nota média da turma - Port. e Mat.
  • Proporção de faltas em diversas disciplinas
  • Indicadora de nota zero
  • Indicadora de proporção de falta equivalente a 1 em alguma disciplina

Modelo de Regressão Logísitica

Abandonou o curso

Deixou de frequentar

Abandono:

Desistente de matrícula

Abandono

Aprovado

Reclassificado

Não abandono:

Reclassificado por aval.

Reprovado

Matr. Suplementar

Matriculado

Definições utilizadas

Resultados Encontrados

Previsto

Abandono

Não Abandono

6.515

36.912

Abandono

Não Abandono

2.379 (5,48)%

4.136 (9,52%)

543 (1,25%)

36.369 (83,75%)

2.922

40.505

Observado

18,6% das pessoas que abandonaram não foram previstas pelo modelo;

Resultados Encontrados

Previsto - ES

Abandono

Não Abandono

8.491

21.498

Abandono

Não Abandono

1.025 (3,42)%

7.466 (24,9%)

388 (1,29%)

21.110 (70,39%)

1.413

28.576

Observado -ES

72,5% dos abandonos observados foram corretamente previstos pelo modelo;

Resultados Encontrados

Previsto - PI

Abandono

Não Abandono

10.523

16.791

Abandono

Não Abandono

2.623 (9,60)%

7.900 (28,92%)

893 (3,27%)

15898 (58,20%)

3.516

23.798

Observado - PI

73,8% das previsões foram acertadas pelo modelo;

Resultados Encontrados

Previsto - ES

Abandono

Não Abandono

8.491

21.498

Abandono

Não Abandono

1.025 (3,42)%

7.466 (24,9%)

388 (1,29%)

21.110 (70,39%)

1.413

28.576

Observado -ES


Entretanto, apenas 12,1% dos abandonos previstos de fato aconteceram;

Resultados Encontrados

Previsto

Abandono

Não Abandono

6.515

36.912

Abandono

Não Abandono

2.379 (5,48)%

4.136 (9,52%)

543 (1,25%)

36.369 (83,75%)

2.922

40.505

Observado

De todos os abandonos previstos 36,5% de fato aconteceu

Resultados Encontrados

Previsto

Abandono

Não Abandono

6.515

36.912

Abandono

Não Abandono

2.379 (5,48)%

4.136 (9,52%)

543 (1,25%)

36.369 (83,75%)

2.922

40.505

Observado

93,27% dos alunos não abandonaram a escola;

Resultados Encontrados

Previsto

Abandono

Não Abandono

6.515

36.912

Abandono

Não Abandono

2.379 (5,48)%

4.136 (9,52%)

543 (1,25%)

36.369 (83,75%)

2.922

40.505

Observado

6,73% dos alunos abandonaram a escola.

Como avaliar a performance?

Se fossem previstas que 100% dos alunos não abandonariam, o modelo teria falhado em prever que 6,73% abandonaria, mas 93,27% estaria certo. Essa métrica é adequada?

Acreditamos que o ideal seja focar os esforços no grupo de alunos que de fato abandona o sistema escolar.

Qual será o foco?

Resultados Encontrados

Considere duas situações extras:

Moeda: utilizo uma moeda para prever abandono

Aleatório: utilizo a distribuição dos dados observados para fazer um chute

Matriz de Confusão

Modelo

Moeda

Aleatório

Precisão: dos abandonos previstos quantos acertei?

Recall: dos abandonos observados quantos acertei?

Considere três métricas de avaliação:

F1: combinação das duas medidas anteriores

Matriz de Confusão

Precisão

Modelo

Moeda

Aleatório

Recall

F1

0,37

0,81

0,50

0,07

0,50

0,12

0,07

0,07

0,07

Precisão: dos abandonos previstos quantos acertei?

Recall: dos abandonos observados quantos acertei?

Considere três métricas de avaliação:

F1: combinação das duas medidas anteriores

Matriz de Confusão

Precisão

Modelo

Moeda

Aleatório

Recall

F1

0,37

0,81

0,50

0,07

0,50

0,12

0,07

0,07

0,07

O desempenho do modelo parece razoável quando comparada as outras situações apresentadas.

Acreditamos que utilizar essa informação não é o ideal.

Exemplo: um aluno que faltou o primeiro trimestre será previsto como um possível abandono quando esse aluno possivelmente já teria evadido.

Matriz de Confusão

Entretanto, foram utilizadas notas e faltas do ano corrente (1º trimestre). 

Obrigado

Copy of Copy of deck

By Raíra Marotta

Copy of Copy of deck

  • 259