Raíra Marotta
Estatística
Curso Big Data e Data Science
Aula 7 - Introdução a Inferência Estatística
Introdução
Modelos estatísticos: modelos probabilístico cuja finalidade é a modelagem do sistemas de interesse em termos de suas características.
Introdução
Associação linear
Instrumentos exploratórios para padrões de associação:
- Gráfico de dispersão
- Coeficiente de correlação linear
## No R:
p_load(HistData)
data("GaltonFamilies")
# gráfico de dispersão
galton_pai_filho <- GaltonFamilies%>%
filter(gender == "male")%>%
select(father, childHeight)
ggplot(data = galton_pai_filho) +
aes(x = father, y = childHeight) +
geom_point(color = "#0c4c8a") +
theme_minimal()
# coeficiente de correlação
cor(base$tempo,base$volume)
[1] 0.3923835
Correlação linear
Correlação espúria
Correlação espúria: existência de relação estatística entre duas ou mais variáveis, mas sem significado teórico.
correlação = 99,3%
Modelos de Regressão
Modelo de regressão linear
Simples
(1 regressora)
Múltiplo
(2 ou + regressoras)
- Regressão linear simples: uma maneira formal de expressar as características fundamentais da associação linear entre duas variáveis
-
-
-
-
Modelos de Regressão
## No R
modelo <- lm(childHeight ~ father, data = galton_pai_filho)
summary(modelo)
Call:
lm(formula = galton_pai_filho$childHeight ~ galton_pai_filho$father)
Residuals:
Min 1Q Median 3Q Max
-9.3959 -1.5122 0.0413 1.6217 9.3808
Coefficients:
Estimate Std. Error t value
(Intercept) 38.36258 3.30837 11.596
galton_pai_filho$father 0.44652 0.04783 9.337
Pr(>|t|)
(Intercept) <2e-16 ***
galton_pai_filho$father <2e-16 ***
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.416 on 479 degrees of freedom
Multiple R-squared: 0.154, Adjusted R-squared: 0.1522
F-statistic: 87.17 on 1 and 479 DF, p-value: < 2.2e-16
plot(galton_pai_filho$father,galton_pai_filho$child, pch = 20, xlab = " Altura do pai",
ylab = "Altura do filho")
abline(modelo, col = 2, lwd = 2)
Resultados e decisões
Consumo industrial de energia elétrica - Mato Grosso (jan/10 - Dez/14)
- modelos de séries temporais para predizer o consumo no período de 24 meses
- Período de previsão: janeiro/2015 até dezembro/2016
Que cuidados devemos ter?
Nossa decisão depende apenas do resultado do modelo?
Será que nossa experiência não deve ser considerada?
Fonte: Agência Nacional de Energia Elétrica - ANEEL.
Resultados e decisões
Consumo industrial de energia elétrica - Mato Grosso (jan/10 - Dez/14)
1. Resultado da previsão a partir do modelo estatístico adequado
Resultados e decisões
2. Resultado da previsão a partir do modelo estatístico adequado comparado ao dado realizado
Consumo industrial de energia elétrica - Mato Grosso (jan/10 - Dez/14)
Resultados e decisões
Análise Espaço-Temporal da Distribuição dos Casos de Dengue na Cidade do Rio de Janeiro
- 70 semanas epidemiológicas: começando em jan/2001
Fonte: Dissertação do mestrado em estatística do IM/UFRJ de Gustavo Ferreira.
Resultados e decisões
Análise Espaço-Temporal da Distribuição dos Casos de Dengue na Cidade do Rio de Janeiro
Fonte: Dissertação do mestrado em estatística do IM/UFRJ de Gustavo Ferreira.
Infnet - Aula 8
By Raíra Marotta
Infnet - Aula 8
Modelagem e decisões
- 317