Análise Exploratória de Dados

Letícia Portella

@leportella

@leleportella

leportella.com

Exploratória?

A análise exploratória de dados não pode ser a história toda, mas nada serve como a pedra fundamental - como um primeiro passo

John Tukey

  • Detecação de erros
  • Checagem de hipóteses
  • Determinação de relação entre variáveis
  • Determinação de relações grosseiras entre variáveis de entrada e de saída
  • Seleção preliminar de modelos e variáveis
  • Determinar a necessidade de novas variáveis

O que eu preciso?

Utilizando os módulos

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import date

Começando pelo começo...

Começando pelo começo...

import pandas as pd

ano2016 = pd.read_csv('./orcamento_estado_2016.csv')

De CSV para DataFrame!

ano2016 = pd.read_csv('./orcamento_estado_2016.csv')
ano2015 = pd.read_csv('./orcamento_estado_2015.csv')
ano2014 = pd.read_csv('./orcamento_estado_2014.csv')

ano2016.head()

... mas 3 variáveis foram geradas!

ano2016 = pd.read_csv('./orcamento_estado_2016.csv')
ano2015 = pd.read_csv('./orcamento_estado_2015.csv')
ano2014 = pd.read_csv('./orcamento_estado_2014.csv')

... sem problemas!

orcamento = pd.concat([ano2016, ano2015, ano2014])

Hora de arrumar a casa!

As datas devem ser... datas!


meses = []

for item, linha  in orcamento.iterrows():
    ano = linha['ano']
    mes = linha['mes']
    data = date(ano, mes, 1)
    meses.append(data)


orcamento['data'] = pd.Series(meses).values

orcamento.head()

Séries temporais!

orcamento = orcamento.sort_values(by='data')

Colunas desnecessárias devem ser removidas

orcamento.drop(['ano', 'mes'], inplace=True, axis=1)

Lembre-se do seu coleguinha ao criar variáveis!

orcamento = orcamento.rename(
    columns={
        'vl_inicial': 'valor_inicial',
        'vl_empenhado': 'valor_empenhado',
        'vl_atualizado': 'valor_atualizado',
        'vl_liquidado': 'valor_liquidado',
        'vl_pago': 'valor_pago',
    }
)

E por que tudo isso?

Análises Gráficas

Porque olhar para os dados?

N = 11
Média em  X = 9,0

Variância em x = 11,0
Média em Y = 7,5

Variância em Y = 4,125
Desvio Padrão = 1,236

Correlação = 0,816
Equação da Reta = 3 + 0,5x

Quarteto de Anscombe

N = 11
Média em  X = 9,0

Variância em x = 11,0
Média em Y = 7,5

Variância em Y = 4,125
Desvio Padrão = 1,236

Correlação = 0,816
Equação da

Reta = 3 + 0,5x

Olhe para seu dado!

fig = plt.figure(figsize=(15, 5), dpi=100)
plt.plot(orcamento['data'], orcamento['valor_liquidado'], 'r')

plt.title('Valor Liquidado - Orçamento do Governo de Alagoas - 2014 a 2016')
plt.ylabel('Gastos em Reais')

Pense rápido!

 

 

Quanto vale isso?

645806565.3220588

Pense rápido!

 

 

Quanto vale isso?

645,80 mi

Você sempre pode achar alguma "limpeza"que precisa ser feita no meio do processo!

Tratando os milhões

colunas = ['valor_inicial', 'valor_empenhado',
           'valor_atualizado', 'valor_liquidado',
           'valor_pago']

for coluna in colunas:
    valor_em_milhoes = []
    for item, linha in orcamento.iterrows():
        valor_linha = linha[coluna]
        valor_em_milhoes.append(valor_linha/10**6)
    nome_variavel = '{}_milhoes'.format(coluna)
    variavel = pd.Series(valor_em_milhoes)
    orcamento[nome_variavel] = variavel.values
    

Tipos de Análises

Univariadas

Gráficas

Univariadas

Não-Gráficas

Multi-variadas

Gráficas

Multi-variadas

Não-Gráficas

Univariadas Não-gráficas

Tendência Central: Média, Mediana, Moda

 

Tendência de distribuição: variância, desvio padrão e range interquartil

 

Assimetria e curtose

Univariadas Não-gráficas

liquidado_media = orcamento['valor_liquidado_milhoes'].mean()
liquidado_mediana = orcamento['valor_liquidado_milhoes'].median()

liquidado_variancia = orcamento['valor_liquidado_milhoes'].var()
liquidado_desvio_padrao = orcamento['valor_liquidado_milhoes'].std()

Univariadas Gráficas

Multivariadas

E muito mais!

Análise por Contexto

Mapas de Calor (Heatmaps)

Mapas de Localização

Parece simples?

Próximos passos...

Modelagem e Algoritmos

Qual pergunta você deseja responder?

Questão ou Problema

Aquisição dos dados

Preparação dos dados

Analisar e explorar o dado

Modelar, prever e responder as perguntas

Visualizar, apresentar e reportar os resultados

Letícia Portella

@leportella

 @leleportella

leportella.com

Análise Exploratória de Dados

By Leticia Portella

Análise Exploratória de Dados

  • 1,649