Raíra Marotta

Estatística

Web Intelligence e Analítica de Dados - WIDA

Aula 4 - Inferência

 Inferência Estatística

Inferência:  fazer afirmações sobre características de uma população, baseando-se em resultados de uma amostra

Intervalo de Confiança

Intervalo de confiança:  identifica o erro cometido ao usar uma amostra para estimar um parâmetro da população.

\left[\hat \theta - \textrm{erro} ; \hat \theta + \textrm{erro}\right]

Fonte: Pesquisa IBOPE.

Cuidado ao interpretar um intervalo de confiança!!!

IC com nível de confiança de 95% significa que se repetirmos a pesquisa 100 vezes, em 95 delas, o IC conterá o verdadeiro valor do parâmetro populacional.

 Introdução

y=x
y=x+\epsilon

 Correlação espúria

Correlação espúria: existência de relação estatística entre duas ou mais variáveis, mas sem significado teórico. 

correlação = 99,3%

Introduçao ao Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina

Supervisionado

Não supervisionado

Aprendizado Supervisionado

No aprendizado supervisionado o modelo aprende com resultados já rotulados.

1. Suponha que estejamos interessados em saber o valor de um apartamento de 50 metros quadrados em Copacabana. Podemos pegar uma amostra de apartamentos no mesmo bairro e com características similares para inferir sobre o preço do apartamento em que estamos interessados.

 

2. Suponha agora que desejamos saber se o cliente pagará ou não o débito dado que sabemos sua renda, sua média de gastos no mês e outras características.  Podemos pegar uma amostra de pessoas com perfis semelhantes e inferir sobre a probabilidade desse cliente quitar o débito.

No aprendizado supervisionado o modelo aprende com resultados já rotulados.

Neste caso, aprendemos com a experiência

Aprendizado Supervisionado

Classificação

Regressão

Classificação

a

Fonte imagem: https://www.guru99.com/supervised-vs-unsupervised-learning.html

 Modelos de Regressão

Modelo de regressão linear

Simples

(1 regressora)

Múltiplo

(2 ou + regressoras)

  • Regressão linear simples: uma maneira formal de expressar as características fundamentais da associação linear entre duas variáveis
Y=\alpha+\beta X + \epsilon
\epsilon: \textrm{ erro aleatório}
X: \textrm{ variável explicativa}
\alpha \textrm{ e } \beta: \textrm{ parâmetros desconhecidos}
Y: \textrm{ variável resposta}

-

-

-

-

https://datatab.net/statistics-calculator/regression

 Modelos de Classificação

Exemplos:

  • Binários - SPAM e Não SPAM,  Aprovado ou Reprovado
  • Múltiplo: classe social, marca, bairro

A ideia é reunir os eventos em grupos similares entre si para que consigamos aprender sobre as características desses respectivos grupos. Note inclusive que os agrupamentos podem ser binários ou envolver múltiplas classes.

 Modelos de Classificação

Modelo para classificar variáveis binárias

Regressão Logística

Não podemos usar regressão linear nesse caso, pois o modelo de regressão linear pode nos dar qualquer resultado entre - infinito e + infinito. Nesse caso, estamos interessados em saber se a variável assumirá valor 0 ou valor 1.

Fonte imagem: Google Images

 Modelos de Classificação

Como podemos fazer?

Regressão Logística - Curiosidade

Vamos olhar para a probabilidade!

Note que

\log(\frac{\pi}{1-\pi})=\alpha+\beta X
\frac{\pi}{1-\pi}=e^{\alpha+\beta X}

Isso nada mais é do que a Razão de Chances - probabilidade de sucesso sobre a probabilidade de fracasso!

 Modelos de Classificação

Regressão Logística - Curiosidade

Preditor p-valor RC
Genero Feminino (1) 0,01 2
Nota matemática 0,03 1.5

Exemplo: Suponha desejamos avaliar o evento ser Aprovado (1) ou ser Reprovado (0). Queremos saber se o gênero afeta na aprovação desse aluno e também se a nota de matemática importa. 

Como podemos interpretar?

 Modelos de Classificação

K- vizinhos mais próximos

Fonte imagem: Google Images

 Modelos de Classificação

K- vizinhos mais próximos

Fonte imagem: Google Images

Caso especial - Árvore de Decisão

Serve tanto para Regressão quanto para Classificação!

Fonte imagem: Google Images

Caso especial - Árvore de Decisão

Árvore de Regressão:

Fonte imagem: Google Images

Caso especial - Árvore de Decisão

Árvore de Classificação:

Fonte imagem: Google Images

Aprendizado Não Supervisionado

1. Classificar 1000 textos em categorias;

 

2.  Analisar uma determinada música e separar a voz do cantor dos instrumentos que foram tocados;

 

3. Analisar padrões nos comportamentos dos clientes para fazermos recomendações.

No aprendizado não supervisionado o modelo atua de forma independente e tenta identificar padrões nos dados.

Aprendizado Não Supervisionado

K-Means

Aprendizado Não Supervisionado

PCA

Caso especial - Redes Neurais

shorturl.at/zKMNR

Resumo - Aprendizado de Máquina

  • No aprendizado supervisionado treinamos o nosso modelo com dados rotulados previamente;
  • No aprendizado não supervisionado, não temos conjunto treino, ou seja, nós não precisamos supervisionar o modelo;
  • No aprendizado supervisionado aprendemos com experiência do passado;
  • O aprendizado não supervisionado nos auxilia a encontrar padrões não identificados anteriormente.

 Resultados e decisões

Consumo industrial de energia elétrica - Mato Grosso (jan/10 - Dez/14)

  • modelos de séries temporais para predizer o consumo no período de 24 meses
  • Período de previsão: janeiro/2015 até dezembro/2016

Que cuidados devemos ter?

Nossa decisão depende apenas do resultado do modelo?

Será que nossa experiência não deve ser considerada?

Fonte: Agência Nacional de Energia Elétrica - ANEEL.

 Resultados e decisões

Consumo industrial de energia elétrica - Mato Grosso (jan/10 - Dez/14)

1. Resultado da previsão a partir do modelo estatístico adequado

 Resultados e decisões

2. Resultado da previsão a partir do modelo estatístico adequado comparado ao dado realizado

Consumo industrial de energia elétrica - Mato Grosso (jan/10 - Dez/14)

 Resultados e decisões

Análise Espaço-Temporal da Distribuição dos Casos de Dengue na Cidade do Rio de Janeiro

  • 70 semanas epidemiológicas: começando em jan/2001

Fonte: Dissertação do mestrado em estatística do IM/UFRJ de Gustavo Ferreira.

 Resultados e decisões

Análise Espaço-Temporal da Distribuição dos Casos de Dengue na Cidade do Rio de Janeiro

Fonte: Dissertação do mestrado em estatística do IM/UFRJ de Gustavo Ferreira.

 Resultados e decisões

Dashboard para análise de vendas

a

 Resultados e decisões

Índice IFec - Termômetro da Atividade Econômica do Rio de Janeiro

a

Fonte Imagem: shorturl.at/ezEGS

 Resultados e decisões

Índice IFec - Termômetro da Atividade Econômica do Rio de Janeiro

a

Fonte Imagem: shorturl.at/ezEGS

 Resultados e decisões

Índice IFec - Termômetro da Atividade Econômica do Rio de Janeiro

a

Fonte Imagem: shorturl.at/ezEGS

Aula 4 - WIDA

By Raíra Marotta

Aula 4 - WIDA

Modelagem e decisões

  • 259