Estatística
Data Science & Big Data
Rafael Erbisti
Aula 1 - Introdução
Objetivos do curso
- Aprender a explorar grandes conjuntos de dados de forma objetiva
- Entender o papel da Estatística na tomada de decisão
- Aprender a visualizar informações
O que fazer?
-
Você está no Centro do Rio
-
São 17h de um dia qualquer do mês de Fevereiro
-
Você está andando ao lado da Central do Brasil
-
Seu celular está no bolso e começa a tocar...
VOCÊ ATENDE O CELULAR?
O que fazer?
- Aumento de 87% no número de roubos de celular entre 2016 e 2018
2009 | 2010 | 2011 | 2012 | 2013 | 2014 | 2015 | 2016 | 2017 | 2018 |
---|---|---|---|---|---|---|---|---|---|
26 | 39 | 16 | 15 | 15 | 23 | 27 | 39 | 8 | 73 |
E AGORA, VOCÊ ATENDE O CELULAR?
Roubos de celular em parte da região do Centro - fevereiro de cada ano
Fonte: Instituto de Segurança Pública - RJ.
- Aumento de 180% no número de roubos nos últimos 10 anos
O que é estatística?
- É uma ciência que se dedica à coleta, análise e interpretação de dados
- Pode ser pensada como a ciência de aprendizagem de dados
O que é estatística?
A Estatística pode ser "dividida" em 3 áreas:
- Amostragem e planejamento de experimentos: processo de obtenção dos dados;
- Estatística Descritiva: organização, apresentação e sintetização dos dados;
- Estatística Inferencial: conjunto de métodos para a tomada de decisão nas situações onde existam incertezas e variações.
Dados
- Onde encontrá-los?
- Como podem auxiliar a tomada de decisão ?
- Como obtê-los?
Algumas fontes de dados
- IBGE
- DATASUS
- Banco Central
- Google Dataset Search
- Kaggle
- IPEA
- Banco Mundial
- Nações Unidas
Banco de dados
Formato geral de uma base de dados (Pnad contínua 2017)
Banco de dados
Dicionário das variáveis da Pnad Contínua 2017
Estatística em diferentes áreas: Política
Fonte: Business Insider
Resultado das eleições presidenciais dos E.U.A em 2016
Fonte: Jornal O Globo
Estatística em diferentes áreas: Saúde
Fonte: Cruz Notícias
Estatísticas do Jogo Bélgica x Japão da Copa de 2018
Estatística em diferentes áreas: Esportes
Estatística em diferentes áreas: Streaming
Introdução ao R
- O que é o R?
É uma linguagem e ambiente para programação estatística.
O R fornece uma ampla variedade de técnicas de análise de dados (gráficos, modelagem, testes estatísticos etc.).
R é software livre.
Introdução ao R
Interface do RStudio
Introdução ao R
## Comandos no R
install.packages("nome do pacote") # instala o pacote
library(nome do pacote) # carrega o pacote já instalado
search() # lista os pacotes que já foram carregados
- As funções disponíveis ficam guardadas em uma biblioteca localizada no diretório onde foi instalado o R
- Existem milhares de outros pacotes que podem ser encontrados no CRAN
- O pacote base constitui o núcleo do R e contém as funções básicas (outros pacotes já vêm carregados com o R)
Introdução ao R
## Armazenado informação e operações
y <- 5 + 10
x = 5 + 10
z = y/x
w = y*x
y
x
z
w
ls() # lista os objetos criados
## Vetores
vet.1 = c(1,2,3,4,5,6,7,8,9,10)
vet.2 = seq(from=1,to=10,by=1)
vet.3 = seq(1,10,l=10)
vet.1
vet.2
vet.3
seq(1,10,-1)
rep(1,10)
rep(c(1,4),5)
- Exemplos
Introdução ao R
## Selecionando elementos em vetores
id = c(44,22,89,45,50,44,15,44)
id[1] # seleciona o primeiro elemento do vetor
id[id==44] # seleciona os elementos do vetor iguais a 44
id[id!=44] # seleciona os elementos do vetor diferentes de 44
id[c(1,2,3)] # seleciona os três primeiro elementos do vetor
## Matrizes
xx = seq(1,9,1)
xx
mat = matrix(xx,ncol=3,nrow=3)
mat
mat[2,3] # seleciona o elemento que está na linha 2 e coluna 3
yy = seq(100,108,1)
yy
cbind(xx,yy) # cria matrizes por coluna
rbind(xx,yy) # cria matrizes por linha
- Exemplos
Introdução ao R
## Data frame
idade = c(25,29,35,22,28,27)
status = c("solteiro","solteiro","separado","solteiro","casado","solteiro")
num.filhos = c(0,0,2,1,1,0)
escol = c("superior", "superior","médio","médio","fundamental","médio")
base = data.frame(idade,status,num.filhos,escol)
base
## Tipos de dados
class(base)
class(idade)
class(status)
class(num.filhos)
class(escol)
escol.1 = factor(escol)
escol.1
class(escol.1)
escol.2 = ordered(escol,levels=c("fundamental","médio","superior"))
escol.2
class(escol.2)
- Exemplos
Introdução ao R
## Dados lógicos
d = 50
u = d>60
u
## Lendo bases de dados
read.table('nome do arquivo') # para arquivos .txt
read.csv('nome do arquivo') # para arquivos .csv
read.dbf('nome do arquivo') # para arquivos DBASE
read.mtp('nome do arquivo') # para arquivos "Minitab Portable Worksheet"
read.spss('nome do arquivo') # para dados do SPSS
read.dta('nome do arquivo') # para dados do STATA
## Help do R
help(“função”) # assistente de ajuda da função
- Exemplos
Introdução ao R
## Lendo a base
# opção 1
pesq = read.csv2(".../Pesquisa2008.csv",header=TRUE)
pesq
# opção 2
setwd("diretório")
pesq = read.csv2("Pesquisa2008.csv",header=TRUE)
pesq
- Exemplo: Ler a base de dados Pesquisa2008.csv e verificar o tipo de dado de cada variável.
## Verificando o tipo de dado
names(pesq)
class(pesq)
class(pesq$Aluno)
class(pesq$Sexo)
class(pesq$Altura)
class(pesq$Peso)
class(pesq$Idade)
class(pesq$Escolaridade)
Curso-Wida - Aula 1
By rafaerbisti
Curso-Wida - Aula 1
Introdução
- 360