Estatística

Data Science & Big Data 

Rafael Erbisti

Aula 1 - Introdução

 Objetivos do curso

  • Aprender a explorar grandes conjuntos de dados de forma objetiva
  • Entender o papel da Estatística na tomada de decisão
  • Aprender a visualizar informações

 O que fazer?

  • Você está no Centro do Rio

  • São 17h de um dia qualquer do mês de Fevereiro

  • Você está andando ao lado da Central do Brasil

  • Seu celular está no bolso e começa a tocar...

VOCÊ ATENDE O CELULAR?

 O que fazer?

  • Aumento de 87% no número de roubos de celular entre 2016 e 2018
2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
26 39 16 15 15 23 27 39 8 73

E AGORA, VOCÊ ATENDE O CELULAR?

Roubos de celular em parte da região do Centro - fevereiro de cada ano

Fonte: Instituto de Segurança Pública - RJ.

  • Aumento de 180% no número de roubos nos últimos 10 anos

 O que é estatística?

  • É uma ciência que se dedica à coleta, análise e interpretação de dados
  • Pode ser pensada como a ciência de aprendizagem de dados

 O que é estatística?

A Estatística pode ser "dividida" em 3 áreas:

  • Amostragem e planejamento de experimentos: processo de obtenção dos dados;
  • Estatística Descritiva: organização, apresentação e sintetização dos dados;
  • Estatística Inferencial: conjunto de métodos para a tomada de decisão nas situações onde existam incertezas e variações.

 Dados

  • Onde encontrá-los?
  • Como podem auxiliar a tomada de decisão ?
  • Como obtê-los?

 Algumas fontes de dados

  • IBGE
  • DATASUS
  • Banco Central
  • Google Dataset Search
  • Kaggle
  • IPEA
  • Banco Mundial
  • Nações Unidas

 Banco de dados

Formato geral de uma base de dados (Pnad contínua 2017)

 

 Banco de dados

Dicionário das variáveis da Pnad Contínua 2017

 Estatística em diferentes áreas: Política

Fonte: Business Insider

Resultado das eleições presidenciais dos E.U.A em 2016

Fonte: Jornal O Globo

 Estatística em diferentes áreas: Saúde

Fonte: Cruz Notícias

Estatísticas do Jogo Bélgica x Japão da Copa de 2018

 Estatística em diferentes áreas: Esportes

 Estatística em diferentes áreas: Streaming

 Introdução ao R

  • O que é o R?

É uma linguagem e ambiente para programação estatística. 

O R fornece uma ampla variedade de técnicas de análise de dados (gráficos, modelagem, testes estatísticos etc.).

R é software livre.

 Introdução ao R

Interface do RStudio

 Introdução ao R

## Comandos no R

install.packages("nome do pacote")  # instala o pacote

library(nome do pacote)  # carrega o pacote já instalado

search()  # lista os pacotes que já foram carregados
  • As funções disponíveis ficam guardadas em uma biblioteca localizada no diretório onde foi instalado o R
  • Existem milhares de outros pacotes que podem ser encontrados no CRAN
  • O pacote base constitui o núcleo do R e contém as funções básicas (outros pacotes já vêm carregados com o R)

 Introdução ao R

## Armazenado informação e operações

y <- 5 + 10
x = 5 + 10
z = y/x
w = y*x

y
x
z
w
ls()  # lista os objetos criados

## Vetores

vet.1 = c(1,2,3,4,5,6,7,8,9,10)
vet.2 = seq(from=1,to=10,by=1)
vet.3 = seq(1,10,l=10)

vet.1
vet.2
vet.3

seq(1,10,-1)

rep(1,10)
rep(c(1,4),5)
  • Exemplos

 Introdução ao R

## Selecionando elementos em vetores

id = c(44,22,89,45,50,44,15,44)

id[1]  # seleciona o primeiro elemento do vetor

id[id==44]  # seleciona os elementos do vetor iguais a 44

id[id!=44]  # seleciona os elementos do vetor diferentes de 44

id[c(1,2,3)]  # seleciona os três primeiro elementos do vetor


## Matrizes

xx = seq(1,9,1)
xx

mat = matrix(xx,ncol=3,nrow=3)
mat

mat[2,3]  # seleciona o elemento que está na linha 2 e coluna 3

yy = seq(100,108,1)
yy

cbind(xx,yy)  # cria matrizes por coluna
rbind(xx,yy)  # cria matrizes por linha
  • Exemplos

 Introdução ao R

## Data frame

idade = c(25,29,35,22,28,27)
status = c("solteiro","solteiro","separado","solteiro","casado","solteiro")
num.filhos = c(0,0,2,1,1,0)
escol = c("superior", "superior","médio","médio","fundamental","médio")

base = data.frame(idade,status,num.filhos,escol)
base

## Tipos de dados

class(base)
class(idade)
class(status)
class(num.filhos)
class(escol)

escol.1 = factor(escol)
escol.1

class(escol.1)

escol.2 = ordered(escol,levels=c("fundamental","médio","superior"))
escol.2

class(escol.2)
  • Exemplos

 Introdução ao R

## Dados lógicos

d = 50

u = d>60
u

## Lendo bases de dados

read.table('nome do arquivo')    # para arquivos .txt
read.csv('nome do arquivo')      # para arquivos .csv
read.dbf('nome do arquivo')      # para arquivos DBASE
read.mtp('nome do arquivo')      # para arquivos "Minitab Portable Worksheet"
read.spss('nome do arquivo')     # para dados do SPSS
read.dta('nome do arquivo')      # para dados do STATA

## Help do R

help(“função”)  # assistente de ajuda da função
  • Exemplos

 Introdução ao R

## Lendo a base

# opção 1
pesq = read.csv2(".../Pesquisa2008.csv",header=TRUE)
pesq

# opção 2
setwd("diretório")
pesq = read.csv2("Pesquisa2008.csv",header=TRUE)
pesq
  • Exemplo:  Ler a base de dados Pesquisa2008.csv e verificar o tipo de dado de cada variável.
## Verificando o tipo de dado

names(pesq)

class(pesq)
class(pesq$Aluno)
class(pesq$Sexo)
class(pesq$Altura)
class(pesq$Peso)
class(pesq$Idade)
class(pesq$Escolaridade)

Curso-Wida - Aula 1

By rafaerbisti

Curso-Wida - Aula 1

Introdução

  • 360