Dojo

Análise de Dados

com Estatística

Ou Dojô é o local onde se treinam artes marciais japonesas. Muito mais do que uma simples área, o dojô deve ser respeitado como se fosse a casa dos praticantes. Por isso, é comum ver o praticante fazendo uma reverência antes de adentrar, tal como se faz nos lares japoneses.

Dojo

Agenda

  1. Problema!
  2. Objetivos Análises
  3. Tipos de Variáveis 
  4. EDA
  5. Mão na massa!
  6. Processo de Análise

Exploring Data Analysis! ou AED em pt-br

Curiosidades

De onde vem a estatística? E a estatística moderna?

O Fundamento matemático da estatística foi desenvolvida nos séculos XVII e XIX com base no trabalho de Thomas Bayes, Pierre-Simon Laplace e Carl Gauss.

A estatística moderna surgiu no final dos anos 1800, com Francis Galton e Karl Pearson. R. A.

  • Ao contrário da natureza puramente teórica da probabilidade, a estatística é uma teoria aplicada, relacionada à análise e modelagem de dados
  • A estatística moderna, apresentando ideias-chave de design experimental e estimação de máxima verossimilhança

Curiosidades

Quando surgiu o termo BI?

Mr. Richard Miller Devens, in his book Cyclopædia of Commercial and Business Anecdotes, first published in 1865. He used it to describe how Sir Henry Furnese, a successful banker 
https://www.toptal.com/project-managers/it/history-of-business-intelligence

Nos EUA Frederick Taylor, na última década de 1800, introduziu o primeiro sistema formalizado de análise de negócios nos Estados Unidos. Seu sistema de gestão científica começou com estudos de tempo que analisavam as técnicas de produção e os movimentos corporais dos trabalhadores para encontrar maiores eficiências na produção industrial. Taylor acabou se tornando um consultor de Henry Ford

Curiosidades

Quem foi o autor da EDA?

 Em 1962, John W./Tukey sugeriu uma reforma na estatística em seu inovador estudo "O Futuro da Análise de Dados". Ele propôs uma nova disciplina científica chamada análise de dados.

O campo da análise de dados exploratórios nasceu com o clássico livro de Tukey, Exploratory Data Analysis, de 1977.

Tukey firmou laços com comunidades de engenharia e ciências da computação (ele criou os termos bit, abreviação de binary digit, e software), e suas crenças originais são surpreendentemente duráveis e fazem parte dos fundamentos da ciência de dados.

Ele é conhecido como pai da ciência de dados.

Não é o futuro que puxa o presente. É o passado que empurra!

@fernandoconrrado

1. Problema

DW Sentinela

  • Qual a tendencia de vendas do produtos?
  • Quais fatores impactam no faturamento?

estamos treinando para o quê?

2. Objetivos Análises

  • Descritiva
  • Diagnostica
  • Preditiva
  • Prescritiva
  • Cognitiva

O total faturado no ultimo mês foi de R$ 32K

O total faturado de R$ 32K teve uma elevação de 3% devido a venda do novo produto XPTO

O total faturado no próximo mês pode alcançar de R$ 38K

Para aumentar o faturamento invista no novo produto XPTO

O departamento de mkt já investiu R$ 2k de publicidade esse mês no produto XPTO

3. Tipos de Variáveis

  • Contínua
  • Discreta
  • Categórica
  • Binária
  • Ordinais
  • Qualitativa:
  • Quantitativa:
  • Rank
  • Proporção

4. Exploring Data Analysis - EDA

  1. Estimativas de localização
  2. Estimativas de variabilidade
  3. Distribuição*
  4. Dados Binários e Categóricos
  5. Correlação
  6. Duas ou mais variáveis

4.1 Estimativas de localização

  • Média
  • Mediana
  • Média aparada
  • sensível aos outliers
  • valor central - e quando é par?
  • excluindo valores extremos

Medidas de tendência central

4.2 Estimativas de variabilidade

  1. Desvio padrão
  2. Amplitude
  3. Percentil

Medidas de dispersão

Sempre teremos o STEM conosco. Algumas coisas sairão dos olhos do público e desaparecerão, mas sempre haverá ciência, engenharia e tecnologia. E sempre, sempre haverá matemática.

Katherine Johnson, 1918-2020

4.3 Distribuição

  1. Boxplot
  2. Tabela de frequência
  3. Histograma
  4. Densidade
  5. Distribuição Normal

4.3.5 Distribuição Normal

A distribuição normal (Distribuição de Laplace-Gauss) é uma distribuição muito utilizada em efeitos físicos e sociais, assim como dada uma variável de distribuição desconhecida, a primeira análise é realizada como se ela obedecesse à distribuição normal.

4.3.5 Distribuição Normal

Em relação ao desvio padrão.

4.3.5 Distribuição Normal

Densidade da distribuição.

4.3.5 Distribuição Normal

Em relação ao viés.

4.4 Dados Binários e Categóricos

  • Moda
  • Gráficos barra, pizza, hierarquia ou treemap, etc...
  • Valor esperado:
    • é a soma dos valores vezes sua probabilidade de ocorrência. Usado para resumir os níveis de uma variável fator.

valor mais frequente.

4.5 Correlação

  • Coeficiente de correlação
  • Matriz de correlação
  • Gráfico de dispersão

positiva ou negativa

4.5 Correlação

Interpretando o valor de ρ

  • 0.9 a 1 positivo ou negativo indica uma correlação muito forte.
  • 0.7 a 0.9 positivo ou negativo indica uma correlação forte.
  • 0.5 a 0.7 positivo ou negativo indica uma correlação moderada.
  • 0.3 a 0.5 positivo ou negativo indica uma correlação fraca.
  • 0 a 0.3 positivo ou negativo indica uma correlação desprezível.

4.6 Duas ou mais variáveis

  • Mapa de calor
  • Gráfico de contorno
  • Tabela de contingencia
  • Variável categórica x numérica

pivot-table ou crosstable

4. Resumo

  • Estimativa de localização e variabilidade (médias e variância e dispersão) - análise univariada, examina uma variável por vez
  • Correlação - análise bivariada - examina duas variáveis
  • análise multivariada - examina mais de duas variáveis

A EDA é o primeiro, e o mais importante, passo em qualquer projeto baseado em dados.

Peter Bruce & Andrew Bruce

Dojo Análise de Dados

By Henrique Vignando

Dojo Análise de Dados

  • 46