Dojo
Análise de Dados
com Estatística

Ou Dojô é o local onde se treinam artes marciais japonesas. Muito mais do que uma simples área, o dojô deve ser respeitado como se fosse a casa dos praticantes. Por isso, é comum ver o praticante fazendo uma reverência antes de adentrar, tal como se faz nos lares japoneses.
Dojo

Agenda
- Problema!
- Objetivos Análises
- Tipos de Variáveis
- EDA
- Mão na massa!
- Processo de Análise
Exploring Data Analysis! ou AED em pt-br
Curiosidades
De onde vem a estatística? E a estatística moderna?
O Fundamento matemático da estatística foi desenvolvida nos séculos XVII e XIX com base no trabalho de Thomas Bayes, Pierre-Simon Laplace e Carl Gauss.
A estatística moderna surgiu no final dos anos 1800, com Francis Galton e Karl Pearson. R. A.
- Ao contrário da natureza puramente teórica da probabilidade, a estatística é uma teoria aplicada, relacionada à análise e modelagem de dados
- A estatística moderna, apresentando ideias-chave de design experimental e estimação de máxima verossimilhança
Curiosidades
Quando surgiu o termo BI?
Mr. Richard Miller Devens, in his book Cyclopædia of Commercial and Business Anecdotes, first published in 1865. He used it to describe how Sir Henry Furnese, a successful banker
https://www.toptal.com/project-managers/it/history-of-business-intelligence
Nos EUA Frederick Taylor, na última década de 1800, introduziu o primeiro sistema formalizado de análise de negócios nos Estados Unidos. Seu sistema de gestão científica começou com estudos de tempo que analisavam as técnicas de produção e os movimentos corporais dos trabalhadores para encontrar maiores eficiências na produção industrial. Taylor acabou se tornando um consultor de Henry Ford
Curiosidades
Quem foi o autor da EDA?
Em 1962, John W./Tukey sugeriu uma reforma na estatística em seu inovador estudo "O Futuro da Análise de Dados". Ele propôs uma nova disciplina científica chamada análise de dados.
O campo da análise de dados exploratórios nasceu com o clássico livro de Tukey, Exploratory Data Analysis, de 1977.
Tukey firmou laços com comunidades de engenharia e ciências da computação (ele criou os termos bit, abreviação de binary digit, e software), e suas crenças originais são surpreendentemente duráveis e fazem parte dos fundamentos da ciência de dados.
Ele é conhecido como pai da ciência de dados.
Não é o futuro que puxa o presente. É o passado que empurra!
@fernandoconrrado
1. Problema
DW Sentinela
- Qual a tendencia de vendas do produtos?
- Quais fatores impactam no faturamento?
estamos treinando para o quê?
2. Objetivos Análises
- Descritiva
- Diagnostica
- Preditiva
- Prescritiva
- Cognitiva
O total faturado no ultimo mês foi de R$ 32K
O total faturado de R$ 32K teve uma elevação de 3% devido a venda do novo produto XPTO
O total faturado no próximo mês pode alcançar de R$ 38K
Para aumentar o faturamento invista no novo produto XPTO
O departamento de mkt já investiu R$ 2k de publicidade esse mês no produto XPTO
3. Tipos de Variáveis
- Contínua
- Discreta
- Categórica
- Binária
- Ordinais
- Qualitativa:
- Quantitativa:
- Rank
- Proporção
4. Exploring Data Analysis - EDA
- Estimativas de localização
- Estimativas de variabilidade
- Distribuição*
- Dados Binários e Categóricos
- Correlação
- Duas ou mais variáveis
4.1 Estimativas de localização
- Média
- Mediana
- Média aparada
- sensível aos outliers
- valor central - e quando é par?
- excluindo valores extremos
Medidas de tendência central
4.2 Estimativas de variabilidade
- Desvio padrão
- Amplitude
- Percentil


Medidas de dispersão
Sempre teremos o STEM conosco. Algumas coisas sairão dos olhos do público e desaparecerão, mas sempre haverá ciência, engenharia e tecnologia. E sempre, sempre haverá matemática.
Katherine Johnson, 1918-2020
4.3 Distribuição
- Boxplot
- Tabela de frequência
- Histograma
- Densidade
- Distribuição Normal
4.3.5 Distribuição Normal
A distribuição normal (Distribuição de Laplace-Gauss) é uma distribuição muito utilizada em efeitos físicos e sociais, assim como dada uma variável de distribuição desconhecida, a primeira análise é realizada como se ela obedecesse à distribuição normal.
4.3.5 Distribuição Normal

Em relação ao desvio padrão.
4.3.5 Distribuição Normal

Densidade da distribuição.
4.3.5 Distribuição Normal

Em relação ao viés.
4.4 Dados Binários e Categóricos
- Moda
- Gráficos barra, pizza, hierarquia ou treemap, etc...
- Valor esperado:
- é a soma dos valores vezes sua probabilidade de ocorrência. Usado para resumir os níveis de uma variável fator.
valor mais frequente.
4.5 Correlação
- Coeficiente de correlação
- Matriz de correlação
- Gráfico de dispersão
positiva ou negativa

4.5 Correlação
Interpretando o valor de ρ
- 0.9 a 1 positivo ou negativo indica uma correlação muito forte.
- 0.7 a 0.9 positivo ou negativo indica uma correlação forte.
- 0.5 a 0.7 positivo ou negativo indica uma correlação moderada.
- 0.3 a 0.5 positivo ou negativo indica uma correlação fraca.
- 0 a 0.3 positivo ou negativo indica uma correlação desprezível.

4.6 Duas ou mais variáveis
- Mapa de calor
- Gráfico de contorno
- Tabela de contingencia
- Variável categórica x numérica
pivot-table ou crosstable
4. Resumo
- Estimativa de localização e variabilidade (médias e variância e dispersão) - análise univariada, examina uma variável por vez
- Correlação - análise bivariada - examina duas variáveis
- análise multivariada - examina mais de duas variáveis
A EDA é o primeiro, e o mais importante, passo em qualquer projeto baseado em dados.
Peter Bruce & Andrew Bruce

Dojo Análise de Dados
By Henrique Vignando
Dojo Análise de Dados
- 46