Data Science & Big Data
Rafael Erbisti
Aula 1 - Introdução
Você está no Centro do Rio
São 17h de um dia qualquer do mês de Fevereiro
Você está andando ao lado da Central do Brasil
Seu celular está no bolso e começa a tocar...
VOCÊ ATENDE O CELULAR?
2009 | 2010 | 2011 | 2012 | 2013 | 2014 | 2015 | 2016 | 2017 | 2018 |
---|---|---|---|---|---|---|---|---|---|
26 | 39 | 16 | 15 | 15 | 23 | 27 | 39 | 8 | 73 |
E AGORA, VOCÊ ATENDE O CELULAR?
Roubos de celular em parte da região do Centro - fevereiro de cada ano
Fonte: Instituto de Segurança Pública - RJ.
A Estatística pode ser "dividida" em 3 áreas:
Formato geral de uma base de dados (Pnad contínua 2017)
Dicionário das variáveis da Pnad Contínua 2017
Fonte: Business Insider
Resultado das eleições presidenciais dos E.U.A em 2016
Fonte: Jornal O Globo
Fonte: Cruz Notícias
Estatísticas do Jogo Bélgica x Japão da Copa de 2018
É uma linguagem e ambiente para programação estatística.
O R fornece uma ampla variedade de técnicas de análise de dados (gráficos, modelagem, testes estatísticos etc.).
R é software livre.
Interface do RStudio
## Comandos no R
install.packages("nome do pacote") # instala o pacote
library(nome do pacote) # carrega o pacote já instalado
search() # lista os pacotes que já foram carregados
## Armazenado informação e operações
y <- 5 + 10
x = 5 + 10
z = y/x
w = y*x
y
x
z
w
ls() # lista os objetos criados
## Vetores
vet.1 = c(1,2,3,4,5,6,7,8,9,10)
vet.2 = seq(from=1,to=10,by=1)
vet.3 = seq(1,10,l=10)
vet.1
vet.2
vet.3
seq(1,10,-1)
rep(1,10)
rep(c(1,4),5)
## Selecionando elementos em vetores
id = c(44,22,89,45,50,44,15,44)
id[1] # seleciona o primeiro elemento do vetor
id[id==44] # seleciona os elementos do vetor iguais a 44
id[id!=44] # seleciona os elementos do vetor diferentes de 44
id[c(1,2,3)] # seleciona os três primeiro elementos do vetor
## Matrizes
xx = seq(1,9,1)
xx
mat = matrix(xx,ncol=3,nrow=3)
mat
mat[2,3] # seleciona o elemento que está na linha 2 e coluna 3
yy = seq(100,108,1)
yy
cbind(xx,yy) # cria matrizes por coluna
rbind(xx,yy) # cria matrizes por linha
## Data frame
idade = c(25,29,35,22,28,27)
status = c("solteiro","solteiro","separado","solteiro","casado","solteiro")
num.filhos = c(0,0,2,1,1,0)
escol = c("superior", "superior","médio","médio","fundamental","médio")
base = data.frame(idade,status,num.filhos,escol)
base
## Tipos de dados
class(base)
class(idade)
class(status)
class(num.filhos)
class(escol)
escol.1 = factor(escol)
escol.1
class(escol.1)
escol.2 = ordered(escol,levels=c("fundamental","médio","superior"))
escol.2
class(escol.2)
## Dados lógicos
d = 50
u = d>60
u
## Lendo bases de dados
read.table('nome do arquivo') # para arquivos .txt
read.csv('nome do arquivo') # para arquivos .csv
read.dbf('nome do arquivo') # para arquivos DBASE
read.mtp('nome do arquivo') # para arquivos "Minitab Portable Worksheet"
read.spss('nome do arquivo') # para dados do SPSS
read.dta('nome do arquivo') # para dados do STATA
## Help do R
help(“função”) # assistente de ajuda da função
## Lendo a base
# opção 1
pesq = read.csv2(".../Pesquisa2008.csv",header=TRUE)
pesq
# opção 2
setwd("diretório")
pesq = read.csv2("Pesquisa2008.csv",header=TRUE)
pesq
## Verificando o tipo de dado
names(pesq)
class(pesq)
class(pesq$Aluno)
class(pesq$Sexo)
class(pesq$Altura)
class(pesq$Peso)
class(pesq$Idade)
class(pesq$Escolaridade)