Raíra Marotta
Estatística
Web Intelligence e Analítica de Dados - WIDA
Aula 4 - Inferência
Inferência Estatística
Inferência: fazer afirmações sobre características de uma população, baseando-se em resultados de uma amostra
Intervalo de Confiança
Intervalo de confiança: identifica o erro cometido ao usar uma amostra para estimar um parâmetro da população.
Fonte: Pesquisa IBOPE.
Cuidado ao interpretar um intervalo de confiança!!!
IC com nível de confiança de 95% significa que se repetirmos a pesquisa 100 vezes, em 95 delas, o IC conterá o verdadeiro valor do parâmetro populacional.
Introdução
Correlação espúria
Correlação espúria: existência de relação estatística entre duas ou mais variáveis, mas sem significado teórico.
correlação = 99,3%
Introduçao ao Aprendizado de Máquina (Machine Learning)
Aprendizado de Máquina
Supervisionado
Não supervisionado
Aprendizado Supervisionado
No aprendizado supervisionado o modelo aprende com resultados já rotulados.
1. Suponha que estejamos interessados em saber o valor de um apartamento de 50 metros quadrados em Copacabana. Podemos pegar uma amostra de apartamentos no mesmo bairro e com características similares para inferir sobre o preço do apartamento em que estamos interessados.
2. Suponha agora que desejamos saber se o cliente pagará ou não o débito dado que sabemos sua renda, sua média de gastos no mês e outras características. Podemos pegar uma amostra de pessoas com perfis semelhantes e inferir sobre a probabilidade desse cliente quitar o débito.
No aprendizado supervisionado o modelo aprende com resultados já rotulados.
Neste caso, aprendemos com a experiência
Aprendizado Supervisionado
Classificação
Regressão
Classificação
a
Fonte imagem: https://www.guru99.com/supervised-vs-unsupervised-learning.html
Modelos de Regressão
Modelo de regressão linear
Simples
(1 regressora)
Múltiplo
(2 ou + regressoras)
- Regressão linear simples: uma maneira formal de expressar as características fundamentais da associação linear entre duas variáveis
-
-
-
-
https://datatab.net/statistics-calculator/regression
Modelos de Classificação
Exemplos:
- Binários - SPAM e Não SPAM, Aprovado ou Reprovado
- Múltiplo: classe social, marca, bairro
A ideia é reunir os eventos em grupos similares entre si para que consigamos aprender sobre as características desses respectivos grupos. Note inclusive que os agrupamentos podem ser binários ou envolver múltiplas classes.
Modelos de Classificação
Modelo para classificar variáveis binárias
Regressão Logística
Não podemos usar regressão linear nesse caso, pois o modelo de regressão linear pode nos dar qualquer resultado entre - infinito e + infinito. Nesse caso, estamos interessados em saber se a variável assumirá valor 0 ou valor 1.
Fonte imagem: Google Images
Modelos de Classificação
Como podemos fazer?
Regressão Logística - Curiosidade
Vamos olhar para a probabilidade!
Note que
Isso nada mais é do que a Razão de Chances - probabilidade de sucesso sobre a probabilidade de fracasso!
Modelos de Classificação
Regressão Logística - Curiosidade
Preditor | p-valor | RC |
---|---|---|
Genero Feminino (1) | 0,01 | 2 |
Nota matemática | 0,03 | 1.5 |
Exemplo: Suponha desejamos avaliar o evento ser Aprovado (1) ou ser Reprovado (0). Queremos saber se o gênero afeta na aprovação desse aluno e também se a nota de matemática importa.
Como podemos interpretar?
Modelos de Classificação
K- vizinhos mais próximos
Fonte imagem: Google Images
Modelos de Classificação
K- vizinhos mais próximos
Fonte imagem: Google Images
Caso especial - Árvore de Decisão
Serve tanto para Regressão quanto para Classificação!
Fonte imagem: Google Images
Caso especial - Árvore de Decisão
Árvore de Regressão:
Fonte imagem: Google Images
Caso especial - Árvore de Decisão
Árvore de Classificação:
Fonte imagem: Google Images
Aprendizado Não Supervisionado
1. Classificar 1000 textos em categorias;
2. Analisar uma determinada música e separar a voz do cantor dos instrumentos que foram tocados;
3. Analisar padrões nos comportamentos dos clientes para fazermos recomendações.
No aprendizado não supervisionado o modelo atua de forma independente e tenta identificar padrões nos dados.
Aprendizado Não Supervisionado
K-Means
Aprendizado Não Supervisionado
PCA
Caso especial - Redes Neurais
shorturl.at/zKMNR
Resumo - Aprendizado de Máquina
- No aprendizado supervisionado treinamos o nosso modelo com dados rotulados previamente;
- No aprendizado não supervisionado, não temos conjunto treino, ou seja, nós não precisamos supervisionar o modelo;
- No aprendizado supervisionado aprendemos com experiência do passado;
- O aprendizado não supervisionado nos auxilia a encontrar padrões não identificados anteriormente.
Resultados e decisões
Consumo industrial de energia elétrica - Mato Grosso (jan/10 - Dez/14)
- modelos de séries temporais para predizer o consumo no período de 24 meses
- Período de previsão: janeiro/2015 até dezembro/2016
Que cuidados devemos ter?
Nossa decisão depende apenas do resultado do modelo?
Será que nossa experiência não deve ser considerada?
Fonte: Agência Nacional de Energia Elétrica - ANEEL.
Resultados e decisões
Consumo industrial de energia elétrica - Mato Grosso (jan/10 - Dez/14)
1. Resultado da previsão a partir do modelo estatístico adequado
Resultados e decisões
2. Resultado da previsão a partir do modelo estatístico adequado comparado ao dado realizado
Consumo industrial de energia elétrica - Mato Grosso (jan/10 - Dez/14)
Resultados e decisões
Análise Espaço-Temporal da Distribuição dos Casos de Dengue na Cidade do Rio de Janeiro
- 70 semanas epidemiológicas: começando em jan/2001
Fonte: Dissertação do mestrado em estatística do IM/UFRJ de Gustavo Ferreira.
Resultados e decisões
Análise Espaço-Temporal da Distribuição dos Casos de Dengue na Cidade do Rio de Janeiro
Fonte: Dissertação do mestrado em estatística do IM/UFRJ de Gustavo Ferreira.
Resultados e decisões
Dashboard para análise de vendas
a
Resultados e decisões
Índice IFec - Termômetro da Atividade Econômica do Rio de Janeiro
a
Fonte Imagem: shorturl.at/ezEGS
Resultados e decisões
Índice IFec - Termômetro da Atividade Econômica do Rio de Janeiro
a
Fonte Imagem: shorturl.at/ezEGS
Resultados e decisões
Índice IFec - Termômetro da Atividade Econômica do Rio de Janeiro
a
Fonte Imagem: shorturl.at/ezEGS
Aula 4 - WIDA
By Raíra Marotta
Aula 4 - WIDA
Modelagem e decisões
- 259