Data Science & Big Data
Rafael Erbisti
Aula 2 - Estatística Descritiva
## No R
x.antes = c(2.18, 2.05, 1.05, 1.95, 0.28, 2.63, 1.50, 0.45, 0.70, 1.30, 1.25, 0.18, 3.30,
1.40, 0.90, 0.58, 2.50, 2.25, 1.53, 1.43, 3.48, 1.80, 1.50, 2.55, 1.30, 2.65)
x.depois = c(0.43, 0.08, 0.18, 0.78, 0.03, 0.23, 0.20, 0.00, 0.05, 0.30, 0.33, 0.00, 0.90,
0.24, 0.15, 0.10, 0.33, 0.33, 0.53, 0.43, 0.65, 0.20, 0.25, 0.15, 0.05, 0.25)
# Gráfico
par(mfrow=c(1,2), mar=c(4,4,1,0.5))
hist(x.antes,prob=1,xlab="índice de placa bacteriana",main="Histograma: antes",
xlim=c(0,4),nclass=4,col="gray50")
hist(x.depois,prob=1,xlab="índice de placa bacteriana",main="Histograma: depois",
xlim=c(0,4),nclass=4,col="gray50")
Qual é o tipo das seguintes variáveis?
Quais gráficos utilizar se as variáveis forem...
2. QUANTITATIVAS?
barras, pizza (setor)
histograma, linhas, dispersão
Fonte: Censo demográfico - IBGE, 2000.
Fonte: Pnad - IBGE.
1. Gráfico de barras
Arquivo: "Pesquisa2008.csv".
table(pesq$Escolaridade) # retorna a tabela de frequência da variável "Escolaridade"
# do dataframe "pesq"
barplot(table(pesq$Escolaridade),ylim=c(0,20),xlab="Escolaridade",ylab="Frequência",
main="Alunos por escolaridade")
2. Gráfico de pizza
pie(table(pesq$Sexo),main="Alunos por sexo")
3. Histograma
hist(pesq$Peso,main="Distribuição dos alunos por peso (Kg)",xlab="peso (kg)",ylab="Frequência")
4. Gráfico de dispersão
plot(pesq$Peso,pesq$Altura,xlab="peso(kg)",ylab="altura (m)",pch=20,
main="Peso (Kg) vs. altura (m)")
5. Gráfico de linhas
ano = c(2008,2009,2010,2011,2012,2013,2014,2015,2016,2017)
roubos = c(45,32,16,19,15,31,19,32,31,43)
cel.data = data.frame(ano,roubos)
cel.data
plot(cel.data$ano,cel.data$roubos,type="l",xlab="Ano",ylab="nº roubos de celular",
main="Roubos de celular no centro do Rio \n outubro de cada ano")
Medidas de posição
Medidas de dispersão
Separatrizes
Média
Mediana
Moda
Variância
Desvio-padrão
Amplitude
Coeficiente de Variação
Quartil
Percentil
Média aritmética simples: é a soma das observações dividida pelo número de observações.
# No R:
x = c(21,20,25,22,24,25,21,21,23,21,22,24,90)
x.barra = mean(x)
x.barra
[1] 27.61538
Média aritmética ponderada: é a soma ponderada das observações dividida pelo número de observações.
## No R:
x = c(21,20,25,22,24,23,90)
f = c(4,1,2,2,2,1,1)
x.barra = weighted.mean(x,f)
x.barra
[1] 27.61538
Mediana: é o "meio" de uma lista ordenada de números.
## No R:
x = c(21,20,25,22,24,25,21,21,23,21,22,24,90)
x.til = median(x)
x.til
[1] 22
A média é afetada por valores extremos (altos ou baixos).
Fonte: Pnad/2017 - IBGE.
Distribuição da renda domiciliar per capita por cor - Brasil 2017
Moda: valor mais frequente nos dados.
## No R:
library(DescTools)
x = c(21,20,25,22,24,25,21,21,23,21,22,24,90)
mod = Mode(x)
mod
[1] 21
O resumo de um conjunto de dados por uma única medida representativa de posição central esconde a informação sobre a variabilidade.
Grupo A: 3, 4, 5, 6, 7
Grupo B: 1, 3, 5, 7, 9
Grupo C: 5, 5, 5, 5, 5
Grupo D: 2, 5, 5, 7, 6
Grupo E: 4, 5, 5, 6, 5
Notas de grupos de alunos
Podemos dizer que os grupos têm o mesmo desempenho?
Idade de alunos de 3 turmas
Podemos dizer que as turmas são semelhantes em termos de idade?
Amplitude: é distância entre o mínimo e o máximo.
Limitações:
## No R:
x = c(21,20,25,22,24,25,21,21,23,21,22,24,90)
amplitude = max(x)-min(x) # ou a função range(x)
amplitude
[1] 70
Variância: considera os tamanhos dos desvios de cada observação em relação à média.
Limitações:
## No R:
x = c(21,20,25,22,24,25,21,21,23,21,22,24,90)
v = var(x) # variância amostral
v
[1] 354.0897
Observação: é possível definir a variância usando o divisor (n-1) no lugar de (n); essa é a diferença entre os conceitos de variância amostral e variância populacional.
Desvio-padrão: é a raiz quadrada da variância.
## No R:
x = c(21,20,25,22,24,25,21,21,23,21,22,24,90)
v = sd(x) # desvio-padrão amostral
v
[1] 18.81727
Coeficiente de variação: medida de dispersão relativa (adimensional) da variação de um conjunto de dados.
## No R:
x = c(21,20,25,22,24,25,21,21,23,21,22,24,90)
cv = sd(x)/mean(x)*100
cv
[1] 68.14054
Principais SEPARATRIZES:
1. Quartis
2. Decis
3. Percentis
Sejam os dados ordenados
## No R:
x = c(21,20,25,22,24,25,21,21,23,21,22,24,90)
q = quantile(x,probs=c(0.05,0.1,0.5,0.75))
q
5% 10% 50% 75%
20.6 21.0 22.0 24.0
Fonte: Pnad/2017 - IBGE.
Distribuição da renda domiciliar per capita - Brasil 2017
Box-plot: construído a partir dos quartis.
## No R:
library(datasets)
library(help="datasets")
data("airquality")
help("airquality")
airquality
boxplot(airquality$Temp~airquality$Month,ylab="temperatura (ºF)",xlab="meses",
names=c("Maio","Junho","Julho","Agosto","Setembro"),pch=20,col=rainbow(5),
main="Temperatura em NY em 1973")
Distribuição da renda no trabalho principal por sexo - Brasil 2017
Fonte: Pnad/2017 - IBGE.